未被检测到的网络内容抓取爬虫程序对电商行业影响严重
2024年 7月2日 – 负责支持和保护网络生活的云服务提供商阿卡迈技术公司(Akamai Technologies, Inc.,以下简称:Akamai)(NASDAQ:AKAM),近日发布了新一期的《互联网现状》(SOTI) 报告,详细介绍了随着网络内容抓取爬虫程序的激增,许多企业都会面临安全和业务威胁。《侵蚀您的利润:网络爬虫程序对电商行业有何影响》报告发现,爬虫程序流量占整个网络流量的 42%,且 65% 的爬虫程序是恶意的。
由于电商行业依赖于创收型 Web 应用程序,高风险爬虫程序流量对该行业的影响最大。尽管某些爬虫程序对业务是有益的,但网络抓取类爬虫程序却被用于获取竞争情报和开展间谍活动、囤积库存、创建假冒网站以及其他对利润和客户体验产生负面影响的活动。目前尚无法律禁止使用抓取类爬虫程序,而且由于人工智能 (AI) 僵尸网络的兴起,检测它们并非易事,但公司可以采取一些措施来加以缓解。
Akamai 亚太地区及日本安全技术和战略总监Reuben Koh 表示:“每家电商平台都在一定程度上依赖网络爬虫机器人。当这些机器人被滥用时,挑战就出现了,因为它们的功能相似,很难区分好坏。此外,快速发展的爬虫环境使防火墙等传统防御措施失效,这进一步加剧了这一问题。现在,电子商务企业,尤其是作为全球主要商业中心的亚太及日本地区的电子商务企业,比以往任何时候都更需要投资于合适的解决方案。以成功应对恶意机器人发起的不可预测和反复的攻击。这是由于这些企业在实现区域化并扩大客户群的时候,往往会面临更多威胁。”
该报告的主要调查结果如下:
《侵蚀您的利润:网络爬虫程序对电商行业有何影响》研究报告介绍了缓解抓取类爬虫程序的策略,并结合案例研究,说明采取有效防护措施能够显著提升网站的运行速度和效率。此外,该研究报告还指出,在应对这些日益增多的攻击时,必须考虑合规性问题。
今年是 Akamai 发布《互联网现状》(SOTI) 报告 10 周年。 SOTI 系列报告以 Akamai Connected Cloud 收集的数据为基础,提供有关网络安全和 Web 性能形势的专家见解。
好文章,需要你的鼓励
这项研究提出了R1-Searcher++框架,通过两阶段训练策略使大语言模型能像人类一样灵活利用内部知识和外部信息。该方法创新性地采用强化学习激励模型优先使用内部知识,并引入记忆机制将检索到的信息转化为内部知识,实现动态知识获取。实验表明,R1-Searcher++不仅在多步问答任务上表现优异,还大幅减少了检索次数,显著提高了推理效率。
这项研究提出了AutoRefine,一种革新性的强化学习框架,为大语言模型引入了"边思考边搜索和完善"的全新范式。与传统方法不同,AutoRefine在连续搜索调用之间添加知识完善步骤,让模型能够有效过滤和组织信息。通过结合答案正确性和检索质量双重奖励,该方法在七项问答基准测试中平均提升6.9%的准确率,特别在复杂多跳推理场景中表现突出,解决了现有检索增强推理的核心局限性。
这项研究揭示了一种新型网络安全威胁:利用普通网络广告攻击AI网页代理。中科院研究团队开发的AdInject攻击无需特殊权限,仅通过精心设计的广告内容就能误导AI代理点击恶意链接,成功率高达90%以上。研究使用严格的黑盒模型,更符合现实场景,暴露了当前AI代理面临的实际安全漏洞。实验还表明,即使添加专门的防御提示,这类攻击仍能成功率超过50%,凸显了设计更强大防御机制的紧迫性。
东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。