随着互联网技术的不断发展,爬虫技术已成为电商行业中一个不可忽视的存在。Akamai北亚区技术总监刘烨告诉记者,自2023年起,Akamai观察到电商行业的爬虫活跃度显著高于其他行业,如高科技与金融行业。电商行业的爬虫活跃度曲线显著高于其他行业,显示出电商领域爬虫活动的普遍性和复杂性。
Akamai北亚区技术总监 刘烨
商业利益驱动的爬虫技术
爬虫技术是指一种能够模拟用户行为的代码,主要用于从网站上抓取数据。根据其行为性质与影响,我们可以将爬虫分为几大类:善意的爬虫如搜索引擎,它们为信息流通与检索提供了便利;中性的爬虫如Web scraping bots,它们在某些情况下有助于信息收集与聚合,但也可能因使用不当给企业带来损失;而有害的爬虫,则可能从事撞库攻击、库存抓取等恶意行为,严重损害企业利益与安全。
刘烨认为,爬虫技术背后的强大商业利益驱使其在各行各业的应用,特别是在电商领域。爬虫可能被用于抓取商品价格、分析竞争对手策略以制定自身定价方案,甚至可能利用脚本抢占库存、购买促销商品后转售牟利。
不法分子利用爬虫技术抓取价格、库存等信息,从中获利。这些行为不仅扰乱市场秩序,还严重损害了企业的合法权益。例如,通过对比分析,找出价格最优、优惠力度最大的电商平台,然后在另一个平台上开设店铺,以准新或全新未开封的产品进行转售,利用价格优势实现盈利。
爬虫带来的问题
爬虫的高访问效率导致电商网站资源过度消耗,影响用户体验。爬虫与真实用户的访问量相当,且通常部署在云端或高性能服务器上,其访问效率远超普通用户,这导致电商网站在处理爬虫请求时可能消耗大量资源,进而影响正常用户的访问体验,降低网站转化率。此外,爬虫还可能干扰市场营销分析工具的数据收集,导致决策依据失真。更糟糕的是,某些爬虫专注于抓取特定产品页面的深层链接,可能导致这些页面因请求量过大而无法正常服务。此外,内容聚合网站通过爬虫抓取内容,导致原创者失去流量和收入。这无疑是对内容创作者辛勤劳动的极大不尊重,也是对整个互联网生态平衡的破坏。
刘烨表示,在电商领域,设计或编写一个爬虫程序已变得相当便捷,得益于互联网上广泛提供的“爬虫即服务”(Scraper as a Service,SaaS)模式。“爬虫即服务”模式简化了爬虫开发流程,却增加了潜在滥用风险。
而且随着技术的进步,这些爬虫服务日益智能化,融入了AI和机器学习技术。它们能够自动从多个数据源抓取内容,通过预设的逻辑进行数据抽取与分析,最终辅助用户制定竞争策略、优化产品定位及价格策略等。这种一站式解决方案,无论是对于寻求业务增长的合法用户,还是意图不当的恶意使用者,都提供了极大的便利。
Akamai的双重应对策略
Akamai提出了双管齐下的策略来应对爬虫问题。一方面,在边缘网络层面,我们利用预定义的访问异常特征和协议指纹来快速识别并限制恶意爬虫。另一方面通过深入分析访问行为(如鼠标移动轨迹、键盘敲击模式)和设备指纹,结合机器学习模型,进一步细化识别精度,确保对潜在威胁的精准打击。
针对不同类型的爬虫,Akamai还提供了差异化的解决方案。对于扫描漏洞、抓取内容或窃取用户信息的恶意爬虫,Akamai采用更为严格的防护机制;而对于那些有助于提升网站质量或服务的良性爬虫,则采取更加灵活的管理策略。
面对爬虫,刘烨表示,企业防护的关键在于如何在广泛的访问请求中准确识别出网络爬虫,以及它们的具体类型,进而采取相应的防护措施。刘烨给出了具体的建议:
首先,针对不同类型的爬虫提供定制化防护机制。确保良性爬虫得到合理管理,同时对有害爬虫进行精准打击。企业可以使用第三方产品和解决方案建立大型数据库。通过观察足够多的请求,形成这样的数据库。分析行为特征以判断请求是否来自恶意Bot。
其次,不仅是简单的阻拦或禁止,管理爬虫同样至关重要。企业可以提供不准确信息、不做响应等多样化应对措施。例如,可以选择不禁止Bot,但不做任何响应,让它误以为连接仍在进行;或者可以给它提供不准确的信息。
第三,设计多维度防护体系,包括基础架构、应用开发逻辑等。实施多层防护,确保整体安全状况。确保没有环节出现问题,任何短板都可能导致原有防护措施被绕过或攻陷。
最后,建立安全团队,选择有效产品。加强安全运营团队支持,制定应急预案。加强全员的安全教育,确保所有员工都具备基本的安全意识。
机器人攻击成为增长最快的网络威胁之一。AI僵尸网络和无头浏览器技术使得爬虫更难识别。例如,Akamai帮助一个电子商务客户被拦截了99%的高风险流量,而客户本身甚至并没有留意到这些流量。因此,企业需要利用AI和机器学习完善识别模型。采取自动化策略,自动部署新策略以应对新攻击。例如,当出现新的攻击类型时,策略引擎能够自动部署新的策略,有针对性地阻止这些新攻击。
结论
爬虫技术在电商行业中的应用既带来了商业机遇,也引发了诸多挑战。Akamai提出的策略不仅有助于企业有效应对当前的威胁,也为未来的网络安全提供了指导方向。通过综合运用技术手段与策略规划,企业能够更好地保护自己免受爬虫带来的负面影响,同时利用有益爬虫提升业务表现。
好文章,需要你的鼓励
全新搜索方式出现,字节发布宽度优先搜索基准WideSearch,垫底的竟是DeepSeek
阿里巴巴团队推出DeepPHY,这是首个专门评估AI视觉语言模型物理推理能力的综合平台。通过六个不同难度的物理环境测试,研究发现即使最先进的AI模型在物理推理任务中表现也远低于人类,成功率普遍不足30%。更关键的是,AI模型虽能准确描述物理现象,却无法将描述性知识转化为有效控制行为,暴露了当前AI技术在动态物理环境中的根本缺陷。
GitHub CEO声称AI将承担所有编程工作,但现实中AI编程工具实际上降低了程序员的生产效率。回顾编程语言发展史,从Grace Hopper的高级语言到Java等技术,每次重大突破都曾因资源限制和固有思维遭到质疑,但最终都证明了抽象化的价值。当前AI编程工具面临命名误导、过度炒作和资源限制三重困扰,但随着技术进步,AI将有助于消除思想与结果之间的障碍。
AgiBot团队联合新加坡国立大学等机构开发出Genie Envisioner机器人操作统一平台,首次将视频生成技术应用于机器人控制。该系统通过100万个操作视频学习,让机器人能够预测行动结果并制定策略,在多个复杂任务上表现优异,仅需1小时数据即可适应新平台,为通用机器人智能开辟全新路径。