安全研究人员警告说,即使数据仅在互联网上短暂曝光,也可能在 Microsoft Copilot 等在线生成式 AI 聊天机器人中长期存在,即使这些数据后来被设为私有。
根据专注于新兴生成式 AI 威胁的以色列网络安全公司 Lasso 的最新发现,包括 Microsoft 在内的全球多家大型公司的数千个曾经公开的 GitHub 代码库都受到了影响。
Lasso 联合创始人 Ophir Dror 向 TechCrunch 表示,公司发现自己的 GitHub 代码库内容出现在 Copilot 中,这是因为它被 Microsoft 的 Bing 搜索引擎索引和缓存。Dror 说,这个曾短暂公开的代码库已经设为私有,在 GitHub 上访问会显示"页面未找到"错误。
Dror 说:"令人惊讶的是,我们在 Copilot 中发现了我们自己的一个私有代码库。如果我浏览网页,就看不到这些数据。但世界上任何人只要向 Copilot 提出正确的问题就能获取这些数据。"
在意识到 GitHub 上的任何数据,即使是短暂存在的,都可能被 Copilot 等工具暴露后,Lasso 进行了进一步调查。
Lasso 提取了 2024 年任何时候曾公开的代码库列表,并识别出已被删除或设为私有的代码库。通过 Bing 的缓存机制,公司发现超过 20,000 个已私有化的 GitHub 代码库的数据仍可通过 Copilot 访问,影响了超过 16,000 个组织。
Lasso 在发布研究结果前告诉 TechCrunch,受影响的组织包括 Google、IBM、PayPal、Tencent 和 Microsoft。Amazon 在文章发布后表示未受此问题影响。Lasso 表示"根据法律团队的建议删除了所有对 AWS 的引用",并"坚持研究结果"。
对于一些受影响的公司,Copilot 可能会被诱导返回包含知识产权、敏感企业数据、访问密钥和令牌的机密 GitHub 存档。
Lasso 指出,他们使用 Copilot 检索到一个已被 Microsoft 删除的 GitHub 代码库内容,该代码库托管着一个可以使用 Microsoft 云 AI 服务创建"攻击性和有害" AI 图像的工具。
Dror 表示,Lasso 已联系所有"严重受影响"的公司,建议他们轮换或撤销任何已泄露的密钥。
Lasso 提到的受影响公司都没有回应 TechCrunch 的询问。Microsoft 也没有回应 TechCrunch 的询问。
Lasso 于 2024 年 11 月向 Microsoft 报告了这一发现。Microsoft 告诉 Lasso,它将此问题归类为"低严重性",称这种缓存行为是"可接受的"。从 2024 年 12 月开始,Microsoft 不再在其搜索结果中包含 Bing 缓存链接。
然而,Lasso 表示,尽管缓存功能已被禁用,Copilot 仍能访问这些数据,即使通过传统网络搜索无法看到,这表明这只是一个临时修复。
好文章,需要你的鼓励
Gartner预测,到2030年所有IT工作都将涉及AI技术的使用,这与目前81%的IT工作不使用AI形成鲜明对比。届时25%的IT工作将完全由机器人执行,75%由人类在AI辅助下完成。尽管AI将取代部分入门级IT职位,但Gartner认为不会出现大规模失业潮,目前仅1%的失业由AI造成。研究显示65%的公司在AI投资上亏损,而世界经济论坛预计AI到2030年创造的就业机会将比消除的多7800万个。
CORA是微软研究院与谷歌研究团队联合开发的突破性AI视觉模型,发表于2023年CVPR会议。它通过创新的"区域提示"和"锚点预匹配"技术,成功解决了计算机视觉领域的一大挑战——开放词汇目标检测。CORA能够识别训练数据中从未出现过的物体类别,就像人类能够举一反三一样。在LVIS数据集测试中,CORA的性能比现有最佳方法提高了4.6个百分点,尤其在稀有类别识别上表现突出。这一技术有望广泛应用于自动驾驶、零售、安防和辅助技术等多个领域。
人工智能正从软件故事转向AI工厂基础,芯片、数据管道和网络协同工作形成数字化生产系统。这种新兴模式重新定义了性能衡量标准和跨行业价值创造方式。AI工厂将定制半导体、低延迟结构和大规模数据仪器整合为实时反馈循环,产生竞争优势。博通、英伟达和IBM正在引领这一转变,通过长期定制芯片合同和企业遥测技术,将传统体验转化为活跃的数字生态系统。
中国电信研究院联合重庆大学、北航发布T2R-bench基准,首次系统评估AI从工业表格生成专业报告的能力。研究涵盖457个真实工业表格,测试25个主流AI模型,发现最强模型得分仅62.71%,远低于人类专家96.52%。揭示AI在处理复杂结构表格、超大规模数据时存在数字计算错误、信息遗漏等关键缺陷,为AI数据分析技术改进指明方向。