随着互联网技术的不断发展,爬虫技术已成为电商行业中一个不可忽视的存在。Akamai北亚区技术总监刘烨告诉记者,自2023年起,Akamai观察到电商行业的爬虫活跃度显著高于其他行业,如高科技与金融行业。电商行业的爬虫活跃度曲线显著高于其他行业,显示出电商领域爬虫活动的普遍性和复杂性。

Akamai北亚区技术总监 刘烨
商业利益驱动的爬虫技术
爬虫技术是指一种能够模拟用户行为的代码,主要用于从网站上抓取数据。根据其行为性质与影响,我们可以将爬虫分为几大类:善意的爬虫如搜索引擎,它们为信息流通与检索提供了便利;中性的爬虫如Web scraping bots,它们在某些情况下有助于信息收集与聚合,但也可能因使用不当给企业带来损失;而有害的爬虫,则可能从事撞库攻击、库存抓取等恶意行为,严重损害企业利益与安全。
刘烨认为,爬虫技术背后的强大商业利益驱使其在各行各业的应用,特别是在电商领域。爬虫可能被用于抓取商品价格、分析竞争对手策略以制定自身定价方案,甚至可能利用脚本抢占库存、购买促销商品后转售牟利。
不法分子利用爬虫技术抓取价格、库存等信息,从中获利。这些行为不仅扰乱市场秩序,还严重损害了企业的合法权益。例如,通过对比分析,找出价格最优、优惠力度最大的电商平台,然后在另一个平台上开设店铺,以准新或全新未开封的产品进行转售,利用价格优势实现盈利。
爬虫带来的问题
爬虫的高访问效率导致电商网站资源过度消耗,影响用户体验。爬虫与真实用户的访问量相当,且通常部署在云端或高性能服务器上,其访问效率远超普通用户,这导致电商网站在处理爬虫请求时可能消耗大量资源,进而影响正常用户的访问体验,降低网站转化率。此外,爬虫还可能干扰市场营销分析工具的数据收集,导致决策依据失真。更糟糕的是,某些爬虫专注于抓取特定产品页面的深层链接,可能导致这些页面因请求量过大而无法正常服务。此外,内容聚合网站通过爬虫抓取内容,导致原创者失去流量和收入。这无疑是对内容创作者辛勤劳动的极大不尊重,也是对整个互联网生态平衡的破坏。
刘烨表示,在电商领域,设计或编写一个爬虫程序已变得相当便捷,得益于互联网上广泛提供的“爬虫即服务”(Scraper as a Service,SaaS)模式。“爬虫即服务”模式简化了爬虫开发流程,却增加了潜在滥用风险。
而且随着技术的进步,这些爬虫服务日益智能化,融入了AI和机器学习技术。它们能够自动从多个数据源抓取内容,通过预设的逻辑进行数据抽取与分析,最终辅助用户制定竞争策略、优化产品定位及价格策略等。这种一站式解决方案,无论是对于寻求业务增长的合法用户,还是意图不当的恶意使用者,都提供了极大的便利。
Akamai的双重应对策略
Akamai提出了双管齐下的策略来应对爬虫问题。一方面,在边缘网络层面,我们利用预定义的访问异常特征和协议指纹来快速识别并限制恶意爬虫。另一方面通过深入分析访问行为(如鼠标移动轨迹、键盘敲击模式)和设备指纹,结合机器学习模型,进一步细化识别精度,确保对潜在威胁的精准打击。
针对不同类型的爬虫,Akamai还提供了差异化的解决方案。对于扫描漏洞、抓取内容或窃取用户信息的恶意爬虫,Akamai采用更为严格的防护机制;而对于那些有助于提升网站质量或服务的良性爬虫,则采取更加灵活的管理策略。
面对爬虫,刘烨表示,企业防护的关键在于如何在广泛的访问请求中准确识别出网络爬虫,以及它们的具体类型,进而采取相应的防护措施。刘烨给出了具体的建议:
首先,针对不同类型的爬虫提供定制化防护机制。确保良性爬虫得到合理管理,同时对有害爬虫进行精准打击。企业可以使用第三方产品和解决方案建立大型数据库。通过观察足够多的请求,形成这样的数据库。分析行为特征以判断请求是否来自恶意Bot。
其次,不仅是简单的阻拦或禁止,管理爬虫同样至关重要。企业可以提供不准确信息、不做响应等多样化应对措施。例如,可以选择不禁止Bot,但不做任何响应,让它误以为连接仍在进行;或者可以给它提供不准确的信息。
第三,设计多维度防护体系,包括基础架构、应用开发逻辑等。实施多层防护,确保整体安全状况。确保没有环节出现问题,任何短板都可能导致原有防护措施被绕过或攻陷。
最后,建立安全团队,选择有效产品。加强安全运营团队支持,制定应急预案。加强全员的安全教育,确保所有员工都具备基本的安全意识。
机器人攻击成为增长最快的网络威胁之一。AI僵尸网络和无头浏览器技术使得爬虫更难识别。例如,Akamai帮助一个电子商务客户被拦截了99%的高风险流量,而客户本身甚至并没有留意到这些流量。因此,企业需要利用AI和机器学习完善识别模型。采取自动化策略,自动部署新策略以应对新攻击。例如,当出现新的攻击类型时,策略引擎能够自动部署新的策略,有针对性地阻止这些新攻击。
结论
爬虫技术在电商行业中的应用既带来了商业机遇,也引发了诸多挑战。Akamai提出的策略不仅有助于企业有效应对当前的威胁,也为未来的网络安全提供了指导方向。通过综合运用技术手段与策略规划,企业能够更好地保护自己免受爬虫带来的负面影响,同时利用有益爬虫提升业务表现。
好文章,需要你的鼓励
企业AI搜索公司Glean宣布年度经常性收入(ARR)达3亿美元,较15个月前的1亿美元增长三倍。尽管谷歌、微软、OpenAI等科技巨头纷纷入局企业AI搜索市场,Glean凭借"上下文图谱"技术深度理解企业业务需求,并帮助客户显著降低AI计算成本。该公司提供按用量计费和混合定价两种模式,客户涵盖Databricks、Reddit、Pinterest及三星等企业。Glean上轮融资后估值达72亿美元。
香港中文大学与MiniMax提出ClaimDiff-RL框架,将图像描述的AI训练从整体打分升级为逐条核查,有效解决了传统方式导致AI"少说保平安"的问题,同时在多项基准测试上超越Gemini-3-Pro-Preview。
杰夫·贝索斯旗下的蓝色起源公司在佛罗里达卡纳维拉尔角进行静态点火测试时,新格伦重型火箭发生爆炸。这是美国历史上最大规模的火箭爆炸之一,也是蓝色起源公司遭遇的最严重失败。所有人员安全,但该事故可能导致新格伦火箭项目长期暂停。此前该火箭已成功完成三次发射,并实现了助推器回收和重复使用。
ParaVT是一个由南洋理工等多校联合提出的并行视频工具调用框架,通过让AI同时分析多段视频并引入PARA-GRPO算法解决训练中的格式崩溃与工具跳过问题,在六项长视频理解测试中平均提升约7.9%。