广泛使用的Apache Tika XML文档提取工具被发现存在安全漏洞,其影响范围和严重程度都超出最初评估,项目维护者发出了新的安全警告。
新发布的安全警报涉及两个相互关联的漏洞,第一个是去年8月公开的CVE-2025-54988,严重程度评级为8.4,第二个是上周公布的CVE-2025-66516,评级达到最高的10。
CVE-2025-54988是Apache Tika从1.13版本到3.2.1版本(含)的tika-parser-pdf-module模块中的一个安全弱点,该模块用于处理PDF文档。Tika是一个更广泛生态系统中的模块,用于将1000多种专有格式的数据标准化,以便软件工具能够索引和读取它们。
遗憾的是,这种文档处理能力使得该软件成为XML外部实体注入攻击的主要目标,这是此类工具反复出现的安全问题。
在CVE-2025-54988的情况下,攻击者可能通过在恶意PDF中隐藏XML表单架构指令来执行外部实体注入攻击。通过这种方式,"攻击者可能能够读取敏感数据或触发对内部资源或第三方服务器的恶意请求"。攻击者可以利用该漏洞从工具的文档处理管道中检索数据,通过Tika处理恶意PDF来窃取数据。
维护者现在意识到,XXE注入漏洞不仅限于这个模块。它还影响其他Tika组件,即Apache Tika的tika-core(1.13到3.2.1版本)和tika-parsers(1.13到1.28.5版本)。此外,遗留的Tika解析器(1.13到1.28.5版本)也受到影响。
不寻常且令人困惑的是,现在同一个问题有两个CVE编号,第二个CVE-2025-66516是第一个的超集。发布第二个CVE的原因可能是为了提醒已经修补CVE-2025-54988的用户,由于CVE-2025-66516中列出的其他易受攻击组件,他们仍然面临风险。
到目前为止,还没有证据表明这些CVE中的XXE注入弱点正在被野外攻击者利用。然而,风险在于,一旦漏洞被逆向工程或概念验证出现,这种情况可能很快改变。
CVE-2025-66516的严重程度评级为罕见的最高分10.0,这使得对于在其环境中使用此软件的任何人来说,修补它都是优先事项。用户应该更新到Tika-core 3.2.2版本、tika-parser-pdf-module 3.2.2版本(独立PDF模块),或者如果使用遗留版本则更新到tika-parsers 2.0.0版本。
然而,修补只能帮助照看已知使用Apache Tika应用程序的开发者。危险在于,其使用可能未在所有应用程序配置文件中列出,从而产生盲点,导致其使用未被发现。对抗这种不确定性的唯一缓解措施是开发者通过tika-config.xml配置文件在其应用程序中关闭XML解析功能。
Q&A
Q1:Apache Tika是什么软件?主要用途是什么?
A:Apache Tika是一个XML文档提取工具,用于将1000多种专有格式的数据标准化,使软件工具能够索引和读取这些文档。它是一个广泛使用的文档处理工具。
Q2:CVE-2025-66516漏洞有多严重?
A:CVE-2025-66516的严重程度评级为罕见的最高分10.0,攻击者可能通过恶意PDF执行外部实体注入攻击,读取敏感数据或触发对内部资源的恶意请求。
Q3:如何修复Apache Tika的安全漏洞?
A:用户应该更新到Tika-core 3.2.2版本、tika-parser-pdf-module 3.2.2版本,或遗留版本更新到tika-parsers 2.0.0版本。也可以通过tika-config.xml配置文件关闭XML解析功能作为缓解措施。
好文章,需要你的鼓励
思科在Cisco Live大会上推出Cloud Control,这是一个跨网络、安全、计算、可观测性与协作的统一管理平台。它提供单一登录、统一视图和共同操作模型,整合Meraki、Splunk、Intersight等产品。平台内置AI Canvas多人协作工作区,支持人机协同排障;Marketplace已接入AWS、微软、ServiceNow等50余家生态伙伴。思科将其定位为AI时代的核心运营层,致力于将庞大产品组合真正转化为统一平台。
这项由中科大、上海创新研究院等机构联合发表于arXiv 2026年的研究(编号2605.25381),提出在大模型强化学习训练中引入时间调度维度,通过动态演变信用分配标准,使模型推理能力更稳定、更可靠。
今天讲的出海案例是明阳电气,这家输配电设备公司在马来西亚投产首个海外生产基地,并以 250 万林吉特子公司承接本地制造。
CRAFTER是伊利诺伊大学香槟分校、清华大学与北京大学联合提出的多智能体科研配图生成框架,通过调度、迭代修正与结构化记忆,解决AI生成科研图示时的局部错误与不可编辑问题。