至顶网›网络频道 ›网管员日记四:都是爬虫系统惹的祸？

网管员日记四:都是爬虫系统惹的祸？

扫一扫
分享文章到微信
扫一扫
关注官方公众号
至顶头条

在系统管理员来说，都怕一种东西，蜘蛛。不过这种并不是现实的蜘蛛，而是目前最热的搜索引擎的蜘蛛。一种可怕的小虫子，密密麻麻铺天盖地，所到之处网站瘫痪，威力甚至强过arp攻击。

作者：zdnet安全频道来源：论坛整理 2008年10月30日

系统突慢：都是爬虫系统惹的祸？

人可以分为两类，一种是怕蜘蛛，一种是怕蛇。但是在系统管理员来说，都怕一种东西，蜘蛛。不过这种并不是现实的蜘蛛，而是目前最热的搜索引擎的蜘蛛。一种可怕的小虫子，密密麻麻铺天盖地，所到之处网站瘫痪，威力甚至强过arp攻击。

第二天，新网站开始测试，一切都很顺利，直到周五早上。

打开电脑，习惯性的输入测试地址，突然发现速度竟然出奇的慢。我急忙通过qq问蓝建州剑洲：
“怎么服务器这样慢？”

“==（注：等等的意思）”

“服务器被虫子爬了，这个该死的XX。”

对于这个爬虫，就是网络蜘蛛的代名词，不过现在网络上的蜘蛛种类繁多，基本上可以分为四类。

1 真名真姓，遵循robots.txt 协议。
2 真名真姓，不遵循robots.txt协议。
3 匿名，不遵循robots.txt协议。
4 伪装：不遵循robots.txt协议。
在中国第一类少得很，第二类有一少部分，第三类和第四类都最多。一台普通的得pc，可以同时搜索几十台服务器，而两者的损耗实在不能画上等号，真是悲哀。

不过对付这些不讲道义的蜘蛛，有一种办法比较有效。

如果是网络爬虫的话，一般访问都有明显标示，要么在浏览器标示字段，要么在refer字段，看一下你的apache的访问日志即可知道，在通过apache（注：Apache是世界使用排名第一的Web服务器。它可以运行在几乎所有广泛使用的计算机平台上。）本身的访问控制功能即可很容易的拒绝掉，从防火墙层次来入手反而比较复杂。

    简单举个例子，例如baidu爬虫，它特征是浏览器标示为：
Baiduspider+(+http://www.baidu.com/search/spider.htm)
所以可以这样标示：
    BrowserMatch "^Baidu" baidu
然后合适的地方加入访问控制语句
    Allow from all
    Deny from env=baidu

这样这个爬虫访问过来都会变成403，也就无法到达数据库，目的基本就达到了。

果然在加入很多拒绝之后，爬虫的资源占用明显降低了。

终于，赵总在看过了测试报告之后，宣布周五晚上开始正式切换。令人意外的是，我被任命为技术部的副经理，这让我的心中充满了喜悦。

VIP专区

VIP用户

普通用户

邮件订阅

如果您非常迫切的想了解IT领域最新产品与技术信息，那么订阅至顶网技术邮件将是您的最佳途径之一。

重磅专题

往期文章

网管员日记四:都是爬虫系统惹的祸？

业界热点: