扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条
作者:zdnet安全频道 来源:论坛整理 2008年10月30日
关键字: 网络管理
系统突慢:都是爬虫系统惹的祸?
人可以分为两类,一种是怕蜘蛛,一种是怕蛇。但是在系统管理员来说,都怕一种东西,蜘蛛。不过这种并不是现实的蜘蛛,而是目前最热的搜索引擎的蜘蛛。一种可怕的小虫子,密密麻麻铺天盖地,所到之处网站瘫痪,威力甚至强过arp攻击。
第二天,新网站开始测试,一切都很顺利,直到周五早上。
打开电脑,习惯性的输入测试地址,突然发现速度竟然出奇的慢。我急忙通过qq问蓝建州剑洲:
“怎么服务器这样慢?”
“==(注:等等的意思)”
“服务器被虫子爬了,这个该死的XX。”
对于这个爬虫,就是网络蜘蛛的代名词,不过现在网络上的蜘蛛种类繁多,基本上可以分为四类。
1 真名真姓,遵循robots.txt 协议。
2 真名真姓,不遵循robots.txt协议。
3 匿名,不遵循robots.txt协议。
4 伪装:不遵循robots.txt协议。
在中国第一类少得很,第二类有一少部分,第三类和第四类都最多。一台普通的得pc,可以同时搜索几十台服务器,而两者的损耗实在不能画上等号,真是悲哀。
不过对付这些不讲道义的蜘蛛,有一种办法比较有效。
如果是网络爬虫的话,一般访问都有明显标示,要么在浏览器标示字段,要么在refer字段,看一下你的apache的访问日志即可知道,在通过apache(注:Apache是世界使用排名第一的Web服务器。它可以运行在几乎所有广泛使用的计算机平台上。)本身的访问控制功能即可很容易的拒绝掉,从防火墙层次来入手反而比较复杂。
简单举个例子,例如baidu爬虫,它特征是浏览器标示为:
Baiduspider+(+http://www.baidu.com/search/spider.htm)
所以可以这样标示:
BrowserMatch "^Baidu" baidu
然后合适的地方加入访问控制语句
Allow from all
Deny from env=baidu
这样这个爬虫访问过来都会变成403,也就无法到达数据库,目的基本就达到了。
果然在加入很多拒绝之后,爬虫的资源占用明显降低了。
终于,赵总在看过了测试报告之后,宣布周五晚上开始正式切换。令人意外的是,我被任命为技术部的副经理,这让我的心中充满了喜悦。
如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。