广泛使用的Apache Tika XML文档提取工具被发现存在安全漏洞,其影响范围和严重程度都超出最初评估,项目维护者发出了新的安全警告。
新发布的安全警报涉及两个相互关联的漏洞,第一个是去年8月公开的CVE-2025-54988,严重程度评级为8.4,第二个是上周公布的CVE-2025-66516,评级达到最高的10。
CVE-2025-54988是Apache Tika从1.13版本到3.2.1版本(含)的tika-parser-pdf-module模块中的一个安全弱点,该模块用于处理PDF文档。Tika是一个更广泛生态系统中的模块,用于将1000多种专有格式的数据标准化,以便软件工具能够索引和读取它们。
遗憾的是,这种文档处理能力使得该软件成为XML外部实体注入攻击的主要目标,这是此类工具反复出现的安全问题。
在CVE-2025-54988的情况下,攻击者可能通过在恶意PDF中隐藏XML表单架构指令来执行外部实体注入攻击。通过这种方式,"攻击者可能能够读取敏感数据或触发对内部资源或第三方服务器的恶意请求"。攻击者可以利用该漏洞从工具的文档处理管道中检索数据,通过Tika处理恶意PDF来窃取数据。
维护者现在意识到,XXE注入漏洞不仅限于这个模块。它还影响其他Tika组件,即Apache Tika的tika-core(1.13到3.2.1版本)和tika-parsers(1.13到1.28.5版本)。此外,遗留的Tika解析器(1.13到1.28.5版本)也受到影响。
不寻常且令人困惑的是,现在同一个问题有两个CVE编号,第二个CVE-2025-66516是第一个的超集。发布第二个CVE的原因可能是为了提醒已经修补CVE-2025-54988的用户,由于CVE-2025-66516中列出的其他易受攻击组件,他们仍然面临风险。
到目前为止,还没有证据表明这些CVE中的XXE注入弱点正在被野外攻击者利用。然而,风险在于,一旦漏洞被逆向工程或概念验证出现,这种情况可能很快改变。
CVE-2025-66516的严重程度评级为罕见的最高分10.0,这使得对于在其环境中使用此软件的任何人来说,修补它都是优先事项。用户应该更新到Tika-core 3.2.2版本、tika-parser-pdf-module 3.2.2版本(独立PDF模块),或者如果使用遗留版本则更新到tika-parsers 2.0.0版本。
然而,修补只能帮助照看已知使用Apache Tika应用程序的开发者。危险在于,其使用可能未在所有应用程序配置文件中列出,从而产生盲点,导致其使用未被发现。对抗这种不确定性的唯一缓解措施是开发者通过tika-config.xml配置文件在其应用程序中关闭XML解析功能。
Q&A
Q1:Apache Tika是什么软件?主要用途是什么?
A:Apache Tika是一个XML文档提取工具,用于将1000多种专有格式的数据标准化,使软件工具能够索引和读取这些文档。它是一个广泛使用的文档处理工具。
Q2:CVE-2025-66516漏洞有多严重?
A:CVE-2025-66516的严重程度评级为罕见的最高分10.0,攻击者可能通过恶意PDF执行外部实体注入攻击,读取敏感数据或触发对内部资源的恶意请求。
Q3:如何修复Apache Tika的安全漏洞?
A:用户应该更新到Tika-core 3.2.2版本、tika-parser-pdf-module 3.2.2版本,或遗留版本更新到tika-parsers 2.0.0版本。也可以通过tika-config.xml配置文件关闭XML解析功能作为缓解措施。
好文章,需要你的鼓励
传统AI依赖云端处理存在延迟和隐私问题。越来越多开发者将AI处理从数据中心转移到手机、笔记本等个人设备上。设备端AI具有三大优势:速度更快,无需等待云端响应;隐私更安全,数据不离开设备;成本更低,无需支付云服务费用。目前iPhone已运行30亿参数的设备端AI模型,谷歌Pixel手机也搭载Gemini Nano模型。未来五年内,随着硬件升级和算法优化,设备端AI将实现物体识别、导航翻译等更复杂功能。
这篇论文提出了CJE(因果法官评估)框架,解决了当前LLM评估中的三大致命问题:AI法官偏好倒置、置信区间失效和离线策略评估失败。通过AutoCal-R校准、SIMCal-W权重稳定和OUA不确定性推理,CJE仅用5%的专家标签就达到了99%的排名准确率,成本降低14倍,为AI评估提供了科学可靠的解决方案。
卡内基梅隆大学研究人员开发了一项革命性技术,通过摄像头、AI模型和微型轮子,让咖啡杯、订书机等日常物品能够自主移动到需要的位置。这种"智能物品"技术避免了传统人形机器人的复杂性和安全隐患,通过蓝牙微控制器和AI视觉系统,物品能够识别用户行为并预测需求。虽然技术已相对成熟,但隐私保护和安全性仍是推广前需要解决的关键问题。
NVIDIA团队开发出Fast-FoundationStereo系统,成功解决了立体视觉AI在速度与精度之间的两难选择。通过分而治之的策略,该系统实现了超过10倍的速度提升同时保持高精度,包括知识蒸馏压缩特征提取、神经架构搜索优化成本过滤,以及结构化剪枝精简视差细化。此外,研究团队还构建了包含140万对真实图像的自动伪标注数据集,为立体视觉的实时应用开辟了新道路。