广泛使用的Apache Tika XML文档提取工具被发现存在安全漏洞,其影响范围和严重程度都超出最初评估,项目维护者发出了新的安全警告。
新发布的安全警报涉及两个相互关联的漏洞,第一个是去年8月公开的CVE-2025-54988,严重程度评级为8.4,第二个是上周公布的CVE-2025-66516,评级达到最高的10。
CVE-2025-54988是Apache Tika从1.13版本到3.2.1版本(含)的tika-parser-pdf-module模块中的一个安全弱点,该模块用于处理PDF文档。Tika是一个更广泛生态系统中的模块,用于将1000多种专有格式的数据标准化,以便软件工具能够索引和读取它们。
遗憾的是,这种文档处理能力使得该软件成为XML外部实体注入攻击的主要目标,这是此类工具反复出现的安全问题。
在CVE-2025-54988的情况下,攻击者可能通过在恶意PDF中隐藏XML表单架构指令来执行外部实体注入攻击。通过这种方式,"攻击者可能能够读取敏感数据或触发对内部资源或第三方服务器的恶意请求"。攻击者可以利用该漏洞从工具的文档处理管道中检索数据,通过Tika处理恶意PDF来窃取数据。
维护者现在意识到,XXE注入漏洞不仅限于这个模块。它还影响其他Tika组件,即Apache Tika的tika-core(1.13到3.2.1版本)和tika-parsers(1.13到1.28.5版本)。此外,遗留的Tika解析器(1.13到1.28.5版本)也受到影响。
不寻常且令人困惑的是,现在同一个问题有两个CVE编号,第二个CVE-2025-66516是第一个的超集。发布第二个CVE的原因可能是为了提醒已经修补CVE-2025-54988的用户,由于CVE-2025-66516中列出的其他易受攻击组件,他们仍然面临风险。
到目前为止,还没有证据表明这些CVE中的XXE注入弱点正在被野外攻击者利用。然而,风险在于,一旦漏洞被逆向工程或概念验证出现,这种情况可能很快改变。
CVE-2025-66516的严重程度评级为罕见的最高分10.0,这使得对于在其环境中使用此软件的任何人来说,修补它都是优先事项。用户应该更新到Tika-core 3.2.2版本、tika-parser-pdf-module 3.2.2版本(独立PDF模块),或者如果使用遗留版本则更新到tika-parsers 2.0.0版本。
然而,修补只能帮助照看已知使用Apache Tika应用程序的开发者。危险在于,其使用可能未在所有应用程序配置文件中列出,从而产生盲点,导致其使用未被发现。对抗这种不确定性的唯一缓解措施是开发者通过tika-config.xml配置文件在其应用程序中关闭XML解析功能。
Q&A
Q1:Apache Tika是什么软件?主要用途是什么?
A:Apache Tika是一个XML文档提取工具,用于将1000多种专有格式的数据标准化,使软件工具能够索引和读取这些文档。它是一个广泛使用的文档处理工具。
Q2:CVE-2025-66516漏洞有多严重?
A:CVE-2025-66516的严重程度评级为罕见的最高分10.0,攻击者可能通过恶意PDF执行外部实体注入攻击,读取敏感数据或触发对内部资源的恶意请求。
Q3:如何修复Apache Tika的安全漏洞?
A:用户应该更新到Tika-core 3.2.2版本、tika-parser-pdf-module 3.2.2版本,或遗留版本更新到tika-parsers 2.0.0版本。也可以通过tika-config.xml配置文件关闭XML解析功能作为缓解措施。
好文章,需要你的鼓励
FORTIS是专门测量AI代理"越权行为"的基准测试,研究发现十款顶尖模型普遍选择远超任务需要的高权限技能,端到端成功率最高仅14.3%。
谷歌在Android Show发布会上宣布,将Gemini更深度整合至Android系统,推出名为"Gemini Intelligence"的升级功能。该功能可跨应用处理日常任务,包括自动填写表单、安排日程、生成购物清单及自定义小组件等,无需用户频繁切换应用。此外,Gboard新增"Rambler"功能,可自动过滤语音输入中的口误和填充词。Gemini Intelligence将率先登陆三星Galaxy和谷歌Pixel手机,并支持Android Auto、Wear OS及智能眼镜。
荷兰Nebius团队提出SlimSpec,通过低秩分解压缩草稿模型LM-Head的内部表示而非裁剪词汇,在保留完整词汇表的同时将LM-Head计算时间压缩至原来的五分之一,端到端推理速度超越现有方法最高达9%。