科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网网络频道网管员日记四:都是爬虫系统惹的祸?

网管员日记四:都是爬虫系统惹的祸?

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

在系统管理员来说,都怕一种东西,蜘蛛。不过这种并不是现实的蜘蛛,而是目前最热的搜索引擎的蜘蛛。一种可怕的小虫子,密密麻麻铺天盖地,所到之处网站瘫痪,威力甚至强过arp攻击。

作者:zdnet安全频道 来源:论坛整理 2008年10月30日

关键字: 网络管理

  • 评论
  • 分享微博
  • 分享邮件

系统突慢:都是爬虫系统惹的祸?
 
    人可以分为两类,一种是怕蜘蛛,一种是怕蛇。但是在系统管理员来说,都怕一种东西,蜘蛛。不过这种并不是现实的蜘蛛,而是目前最热的搜索引擎的蜘蛛。一种可怕的小虫子,密密麻麻铺天盖地,所到之处网站瘫痪,威力甚至强过arp攻击。

    第二天,新网站开始测试,一切都很顺利,直到周五早上。

打开电脑,习惯性的输入测试地址,突然发现速度竟然出奇的慢。我急忙通过qq问蓝建州剑洲:
“怎么服务器这样慢?”

“==(注:等等的意思)”

“服务器被虫子爬了,这个该死的XX。”

对于这个爬虫,就是网络蜘蛛的代名词,不过现在网络上的蜘蛛种类繁多,基本上可以分为四类。

1 真名真姓,遵循robots.txt 协议。
2 真名真姓,不遵循robots.txt协议。
3 匿名,不遵循robots.txt协议。
4 伪装:不遵循robots.txt协议。
在中国第一类少得很,第二类有一少部分,第三类和第四类都最多。一台普通的得pc,可以同时搜索几十台服务器,而两者的损耗实在不能画上等号,真是悲哀。

    不过对付这些不讲道义的蜘蛛,有一种办法比较有效。

    如果是网络爬虫的话,一般访问都有明显标示,要么在浏览器标示字段,要么在refer字段,看一下你的apache的访问日志即可知道,在通过apache(注:Apache是世界使用排名第一的Web服务器。它可以运行在几乎所有广泛使用的计算机平台上。)本身的访问控制功能即可很容易的拒绝掉,从防火墙层次来入手反而比较复杂。

    简单举个例子,例如baidu爬虫,它特征是浏览器标示为: 
Baiduspider+(+http://www.baidu.com/search/spider.htm)
所以可以这样标示:
    BrowserMatch "^Baidu" baidu
然后合适的地方加入访问控制语句
    Allow from all
    Deny from env=baidu

    这样这个爬虫访问过来都会变成403,也就无法到达数据库,目的基本就达到了。

    果然在加入很多拒绝之后,爬虫的资源占用明显降低了。

    终于,赵总在看过了测试报告之后,宣布周五晚上开始正式切换。令人意外的是,我被任命为技术部的副经理,这让我的心中充满了喜悦。

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章