科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网网络频道网页内容过滤全攻略

网页内容过滤全攻略

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

现在各大门户网站的网页上都充斥着各种各样的垃圾,例如广告、弹出窗口、ActiveX控件,这些东西一方面需要占用我们有限的网络带宽,影响网速;另一方面大量花哨的广告也过多占用了CPU资源,而那些质量良莠不齐的ActiveX控件就更加烦人了,每次加载这些控件的时候整个浏览器窗口都陷入一种近乎不响应的状态长达数秒钟,而现在有越来越多的网站上都包括了这些控件,令人防不胜防。怎样把这些讨厌的东西都拒之门外?跟我一起来试试吧

来源:中国网管之家 2007年12月27日

关键字: 内容过滤 过滤防护

  • 评论
  • 分享微博
  • 分享邮件
网页内容过滤全攻略

现在各大门户网站的网页上都充斥着各种各样的垃圾,例如广告、弹出窗口、ActiveX控件,这些东西一方面需要占用我们有限的网络带宽,影响网速;另一方面大量花哨的广告也过多占用了CPU资源,而那些质量良莠不齐的ActiveX控件就更加烦人了,每次加载这些控件的时候整个浏览器窗口都陷入一种近乎不响应的状态长达数秒钟,而现在有越来越多的网站上都包括了这些控件,令人防不胜防。怎样把这些讨厌的东西都拒之门外?跟我一起来试试吧
网页广告和弹出窗口
这类内容是最招人讨厌的,有些网站打开首页后扑面而来的就是一个巨大的Flash广告,而除此之外网页上还有大量飘来飘去的广告,有时广告在网页上所占的面积甚至超过了真正有用的内容。这些广告大部分都是用Flash做的,不仅动感十足,有些还带有声音,如果你打开Widows的任务管理器仔细看看IE浏览器的进程(iexplore.exe)在打开一个网页前后占用的内存资源和CPU资源对比就可以看出,这些广告对浏览速度的影响有多大,不仅我们需要花额外的时间下载它们,而且还会把整个系统的速度拖慢。
而弹出窗口就更过分了,在你看到真正想看的内容之前还要先手忙脚乱的关闭一大堆小窗口,有时候甚至页面刷新一下就弹出一个新的窗口。
怎样还网页一个清静?其实仔细分析一下就可以知道,如果我们能够知道这些广告的具体路径,然后用一些方法把这些路径所代表的内容全部过滤掉就可以了。接下来我们就以新浪的首页为例介绍给大家一些有效的方法。
图一显示的是2004年9月12日早晨新浪首页的一部分,不仅布满了广告,而且还弹出了两个广告窗口。

对于一般gif或jpg等传统图形格式的广告,只要我们用鼠标右键点击广告图片,然后在弹出菜单中选择属性,就可以从属性对话框的常规选项卡下看到图像的URL。但是对于Flash广告这种做法就无效了,因为Flash和一般图片插入网页的方式不同,如果想要获得一个Flash的具体URL,我们可以直接分析网页的源文件。在网页的空白处点击鼠标右键,然后从弹出菜单中选择“查看源文件”,接着系统就会是用默认的文本编辑器打开当前网页的源文件。在源文件中使用“.swf”作为关键字进行搜索,找到的结果就是每个Flash广告的具体URL(图二)。

你可能觉得这样做有些麻烦,因为如果我们要把自己访问的网页上的所有广告都过滤一遍,那要花多少时间啊。其实这里还是有个小窍门的,以我们管理自己硬盘上的文件为例,如果你是一个组织有序的人,那么你肯定是把所有下载回来的音乐放在一个文件夹中,而下载回来的游戏则放在不同的文件夹下,总之简单来说就是,每个文件夹都有不同的用途,用于保存不同内容的文件。其实网页广告也是这样,对于大型网站,尤其是规模非常大的门户网站,都有专门的网页路径或者专用的服务器用于保存广告内容,有些网站所用的广告甚至有专门的广告内容供应商提供。那么我们只要能判断出一个网站专门用于保存广告的文件夹或服务器,那就可以说,这个网站的所有广告只要简单的一两条语句就可以完全过滤掉。还是以图二为例,仔细观察可以发现,所有的Flash广告路径都类似于“http://ad4.sina.com.cn/****.swf”,请注意这个服务器的域名“ad4.sina.com.cn”,大家都知道,广告(Advertisement)的简称一般就是AD,看来新浪是用了专门的服务器来保存广告内容,而且服务器还不止一个(例如这里的内容就保存在四号广告服务器上),那么要对这些广告过滤的话只要使用“http://ad*.sina.com.cn/*”这样的语句就可以了。同样的,如果你多看看各大门户网站的网页源文件就可以知道,一般情况下广告内容都保存在“/guanggao/”、“/ad/”、“/gg/”这样的文件夹或者服务器中。
网页上还有另一种形式的广告。还是以新浪为例,在你浏览某个具体内容的页面时可能发现了,在文章正文中还嵌入了广告,而通过查看源文件你根本没有找到广告文件的插入位置,这样也就无从判断广告文件的URL了。其实这种广告是利用了JavaScript脚本,或者类似的脚本语言的方式实现的。以新浪网的某个页面“http://news.sina.com.cn/o/2004-09-12/04453646061s.shtml ”为例,这个页面的新闻内容中有一个Flash广告,下面还有几个文字的广告链接。虽然你搜索这个网页的源文件找不到这个Flash文件的URL,不过仔细留意一下你就能看到这样内容(图三):

<!--画中画广告开始-->
………..
<!--画中画广告结束-->
其实广告就是在这里插入的,只不过这里插入的不是具体的文件,而是一个链接,正如我们前面提到的,这种形式的广告内容一般都有一个专门的服务商提供,例如这里的链接是“http://94.adsina.allyes.com/main/adfshow?user= AFP6_for_SINA”,Allyes.com就是一个很大的广告内容提供商,他给很多网站都提供广告服务,这个链接后面“user= AFP6_for_SINA”部分则是身份验证的代码,如果你使用上面的链接向Allyes.com的服务器请求内容,那么对方的服务器通过该验证码就会知道你的这个链接是来自新浪网的,而最终做广告的企业会通过Allyes.com统计的广告下载量给新浪支付广告费。因此要对付这种广告,只要使用“http://*.allyes.com/*”这样的语句进行过滤即可。
最后是弹出窗口,同样是以新浪的首页为例,通过检查源文件可以发现,它使用了JavaScript语言中的“openWindow()”函数打开新窗口(图四),因此为了过滤这样的内容,我们可以使用这条语句“window.open('*')”。
 

基本上,网页上的广告就这么几种情况,因此只要你对HTML语言有所了解,再加上仔细的分析,就能有效判断出到底哪些内容是广告,以及怎样总结出这些广告内容的URL。不过知道了URL之后要怎么过滤呢?这里要向你推荐的是那些使用了IE内核的多页面浏览器,例如Maxthon(以前的MyIE2)。
Maxthon带有广告猎手的功能,同时还能阻挡弹出窗口,非常方便。打开Maxthon,然后在“选项”菜单下点击“广告猎手”,接着选中子菜单中的前五个选项。经过这样的设置大部分网页上的内容都会被预设的一些语句过滤掉,如果你发现自己访问的网页上仍然有没有过滤掉的内容,只要在“广告猎手”菜单下点击“编辑过滤列表”,然后就可以在图五的窗口中给阻挡弹出窗口和过滤网页广告的功能下添加新的语句。添加后刷新页面后设置就会自动生效。
 

如果你在Maxthon的选项中设置了在右键菜单中添加广告猎手的选项,那么添加图片内容就更方便了,只要在广告图片上点击鼠标右键,然后选择“添加到广告猎手”,就可以把目标内容过滤掉。
如果你不打算放弃IE,或者是用其它没有类似功能的浏览器软件,那么可以试试看AD Muncher,一个专门过滤网页广告的软件。该软件是共享的,试用版可以在这里下载到:
http://www.admuncher.com/download.shtml 。软件安装后会在系统托盘中显示一个牛头图标,双击打开后就可以在图六所示的窗口中对其进行设置。其中程序在Default Filters选项卡下已经预设了很多常见的广告关键字,因此这个软件几乎不需要怎么设置就可以很好的工作。如果你发现有些网页上的广告没有被过滤掉,那么就可以参考上面的方法找到广告的URL,然后添加到My Filters选项卡下的自定义关键字列表中。
 

另外值得一提的是,在安装Service Pack2之后,Windows XP中的IE6也具有了阻挡弹出窗口的功能。
再看看图七作为对比吧,过滤了所有广告后,不及页面打开的速度更快,而且系统也不再显得那么慢,更重要的是,在没有那些烦人的信息了。
 

ActiveX
控件
浏览网页的时候你肯定不止一次看到过图八的窗口。如果你点击了“是”,那么浏览器就会向你的系统中安装一些软件。有很多人因为不了解这个对话框的含义而被安装了一些自己根本不需要的垃圾。而了解这是什么东西的人,则可以直接点击“否”拒绝安装。不过头疼的问题又来了,如果你这次不装,那么等下访问其它网页的时候它可能又会自己跳出来问你是否安装,令人无比厌烦。
 

其实要过滤这种控件的方法是很简单的。如果你的操作是Windows XP SP2,那么你该高兴了,因为你已经有了最便捷的方法。在安装Service Pack 2之后,网页需要安装ActiveX控件时将不再弹出一个窗口询问用户,而是是用了如图九所示的信息栏,
点击该信息栏之后点击“安装ActiveX控件”,随后你能看到图十所示的安全警告对话框,点击“更多选项”后可以看到所有选项。

如果你打算安装该控件,则点击安装按钮;如果你永远都不打算安装这个控件,只要选中“从不安装来自….的软件”选项,然后点击“不安装”,以后该控件就再也不会来烦你了。那么如果你日后又后悔了,想要安装曾经设置了永远不安装的控件怎么办?也很简单,在IE的工具菜单下点击“加载项管理”,你将能看到图十一所示的加载项管理对话框,从加载项列表中选中被阻止的项目,然后点击下方的“允许”按钮即可。
 

如果你没有用Windows XP SP2也没关系,因为在安装这类控件之前系统首先会检查注册表中的一个键值,如果该键值存在则系统会认为控件已安装,不会再次在网页中询问。所以我们首先需要的是获得控件的ClassID,打开要安装控件的网页的源文件,然后用“clsid”作为关键字进行搜索。例如在3721.com的首页上,我们搜索到了两个不同的ClassID:D27CDB6E-AE6D-11cf-96B8-444553540000和B83FC273-3522-4CC6-92EC-75CC86678DA4,不知道哪个才是我们要过滤的,不过没关系,看看每个ClassID后面要下载的文件的位置。ID为D27CDB6E-AE6D-11cf-96B8-444553540000的控件要下载的文件位于“http://download.macromedia.com/pub/shockwave/cabs/flash/swflash.cab#version=6,0,29,0”,这个是让IE播放Flash的控件,明显不是我们的目标;而ID为B83FC273-3522-4CC6-92EC-75CC86678DA4的控件要下载的文件位于“http://download.3721.com/download/CnsMinH.cab#version=1,1,1,0”,看来就是它了!
现在已经获得了控件的ClassID,我们还需要对注册表进行一些修改。运行“Regedit”打开注册表编辑器,定位到HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Internet Explorer\ActiveX Compatibility,在这个项下有很多以不同ClassID为名的子项,我们要做的就是创建一个以我们要过滤的控件的ClassID为名的子项,然后在下面创建名为“Compatibility Flags”的键,并设置键值为十六进制的400(图十二)。
 

经过这样的修改以后再不会有该ClassID的控件骚扰你了。如果日后你又想要安装该控件,只要删除项应的注册表项即可。
为了方便大家过滤,下面我会举出一些国内网页中常见控件的ClassID,方便你过滤其中不需要的:
B83FC273-3522-4CC6-92EC-75CC86678DA4 /3721网络实名
4522DBFE-14CD-4A59-AC2A-54BADFDD6D53 /3721网络实名
1B0E7716-898E-48CC-9690-4E338E8DE1D3 /3721上网助手
7CA83CF1-3AEA-42D0-A4E3-1594FC6E48B2 /3721上网助手
4EDBBAEA-F509-49F6-94D1-ECEC4BE5B686 /3721中文邮
9BBC1154-218D-453C-97F6-A06582224D81 /百度搜霸
BC207F7D-3E63-4ACA-99B5-FB5F8428200C /百度搜索伴侣
9A578C98-3C2F-4630-890B-FC04196EF420 /CNNIC通用域名
CF051549-EDE1-40F5-B440-BCD646CF2C25 /网易泡泡
15DDE989-CD45-4561-BF99-D22C0D5C2B74 /新浪点点通
98FA5667-513F-4F15-8A15-C171477B8847 /新浪IE通
CD1A82F2-3770-4509-8355-0D2F45158F21 /新浪 iGame
2D0C7226-747E-11D6-83F0-00E04C4A2F90 /搜狐视频播放器
CE7C3CF0-4B15-11D1-ABED-709549C10000 /搜狐搜索工具
484FF54A-CC44-467E-9C31-5B89FC753007 /搜狐工具栏
32B88AFD-33DA-4E17-BE89-1029DE44DED6 /每步直达网址
36CB6B28-FC08-4373-8F54-1A02E3C15B7D  /藏鲸阁
8135EF31-FE8C-4C6E-A18A-F59944C3A488 /DuDu 下载加速器
58CDB34C-B4D7-418B-A0FB-C4C8A01C2F0E /虎翼DIY吧
8601658B-9360-00C1-AE00-00C03EA25D91 /阿里巴巴商机直通车
    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章