随着互联网技术的不断发展,爬虫技术已成为电商行业中一个不可忽视的存在。Akamai北亚区技术总监刘烨告诉记者,自2023年起,Akamai观察到电商行业的爬虫活跃度显著高于其他行业,如高科技与金融行业。电商行业的爬虫活跃度曲线显著高于其他行业,显示出电商领域爬虫活动的普遍性和复杂性。
Akamai北亚区技术总监 刘烨
商业利益驱动的爬虫技术
爬虫技术是指一种能够模拟用户行为的代码,主要用于从网站上抓取数据。根据其行为性质与影响,我们可以将爬虫分为几大类:善意的爬虫如搜索引擎,它们为信息流通与检索提供了便利;中性的爬虫如Web scraping bots,它们在某些情况下有助于信息收集与聚合,但也可能因使用不当给企业带来损失;而有害的爬虫,则可能从事撞库攻击、库存抓取等恶意行为,严重损害企业利益与安全。
刘烨认为,爬虫技术背后的强大商业利益驱使其在各行各业的应用,特别是在电商领域。爬虫可能被用于抓取商品价格、分析竞争对手策略以制定自身定价方案,甚至可能利用脚本抢占库存、购买促销商品后转售牟利。
不法分子利用爬虫技术抓取价格、库存等信息,从中获利。这些行为不仅扰乱市场秩序,还严重损害了企业的合法权益。例如,通过对比分析,找出价格最优、优惠力度最大的电商平台,然后在另一个平台上开设店铺,以准新或全新未开封的产品进行转售,利用价格优势实现盈利。
爬虫带来的问题
爬虫的高访问效率导致电商网站资源过度消耗,影响用户体验。爬虫与真实用户的访问量相当,且通常部署在云端或高性能服务器上,其访问效率远超普通用户,这导致电商网站在处理爬虫请求时可能消耗大量资源,进而影响正常用户的访问体验,降低网站转化率。此外,爬虫还可能干扰市场营销分析工具的数据收集,导致决策依据失真。更糟糕的是,某些爬虫专注于抓取特定产品页面的深层链接,可能导致这些页面因请求量过大而无法正常服务。此外,内容聚合网站通过爬虫抓取内容,导致原创者失去流量和收入。这无疑是对内容创作者辛勤劳动的极大不尊重,也是对整个互联网生态平衡的破坏。
刘烨表示,在电商领域,设计或编写一个爬虫程序已变得相当便捷,得益于互联网上广泛提供的“爬虫即服务”(Scraper as a Service,SaaS)模式。“爬虫即服务”模式简化了爬虫开发流程,却增加了潜在滥用风险。
而且随着技术的进步,这些爬虫服务日益智能化,融入了AI和机器学习技术。它们能够自动从多个数据源抓取内容,通过预设的逻辑进行数据抽取与分析,最终辅助用户制定竞争策略、优化产品定位及价格策略等。这种一站式解决方案,无论是对于寻求业务增长的合法用户,还是意图不当的恶意使用者,都提供了极大的便利。
Akamai的双重应对策略
Akamai提出了双管齐下的策略来应对爬虫问题。一方面,在边缘网络层面,我们利用预定义的访问异常特征和协议指纹来快速识别并限制恶意爬虫。另一方面通过深入分析访问行为(如鼠标移动轨迹、键盘敲击模式)和设备指纹,结合机器学习模型,进一步细化识别精度,确保对潜在威胁的精准打击。
针对不同类型的爬虫,Akamai还提供了差异化的解决方案。对于扫描漏洞、抓取内容或窃取用户信息的恶意爬虫,Akamai采用更为严格的防护机制;而对于那些有助于提升网站质量或服务的良性爬虫,则采取更加灵活的管理策略。
面对爬虫,刘烨表示,企业防护的关键在于如何在广泛的访问请求中准确识别出网络爬虫,以及它们的具体类型,进而采取相应的防护措施。刘烨给出了具体的建议:
首先,针对不同类型的爬虫提供定制化防护机制。确保良性爬虫得到合理管理,同时对有害爬虫进行精准打击。企业可以使用第三方产品和解决方案建立大型数据库。通过观察足够多的请求,形成这样的数据库。分析行为特征以判断请求是否来自恶意Bot。
其次,不仅是简单的阻拦或禁止,管理爬虫同样至关重要。企业可以提供不准确信息、不做响应等多样化应对措施。例如,可以选择不禁止Bot,但不做任何响应,让它误以为连接仍在进行;或者可以给它提供不准确的信息。
第三,设计多维度防护体系,包括基础架构、应用开发逻辑等。实施多层防护,确保整体安全状况。确保没有环节出现问题,任何短板都可能导致原有防护措施被绕过或攻陷。
最后,建立安全团队,选择有效产品。加强安全运营团队支持,制定应急预案。加强全员的安全教育,确保所有员工都具备基本的安全意识。
机器人攻击成为增长最快的网络威胁之一。AI僵尸网络和无头浏览器技术使得爬虫更难识别。例如,Akamai帮助一个电子商务客户被拦截了99%的高风险流量,而客户本身甚至并没有留意到这些流量。因此,企业需要利用AI和机器学习完善识别模型。采取自动化策略,自动部署新策略以应对新攻击。例如,当出现新的攻击类型时,策略引擎能够自动部署新的策略,有针对性地阻止这些新攻击。
结论
爬虫技术在电商行业中的应用既带来了商业机遇,也引发了诸多挑战。Akamai提出的策略不仅有助于企业有效应对当前的威胁,也为未来的网络安全提供了指导方向。通过综合运用技术手段与策略规划,企业能够更好地保护自己免受爬虫带来的负面影响,同时利用有益爬虫提升业务表现。
好文章,需要你的鼓励
智谱AI率先推出了 AutoGLM,试图打造一款能够理解、规划、执行,并最终实现“无人驾驶”操作系统的 AI Agent。
该处理器采用16nm工艺技术设计,拥有 48 个ARM Cortex-A75内核,六通道DDR4 3200 MHz 内存 - 每插槽高达 768 GB(每通道 128 GB)
谷歌DeepMind研究人员则直接把这项技术集成到AI Agent中开发了Talker-Reasoner框架,让其具备“快”、“慢”两种拟人化思考方式。
数据密集型工作负载的激增,导致计算系统需要处理的数据量大幅增加。这种不断拓展的数据环境,迫切需要具备更大容量和更高带宽的