当前,全球机动车数量超过10亿台,每年所导致的交通拥堵时间长达数十亿小时,而仅美国一个国家,每年由于交通拥堵所造成的出行延误就超过50亿小时。面对这一难题,许多私营企业和公共利益相关方均将交通视为需要巨额投资的基础设施领域。今天,思科宣布推出一整套业经验证的Connected Roadways互联道路解决方案,能够将相互独立的交通系统安全地联接在一起,以增强安全,减少路侧事故,缓解交通流量,同时支持在集中视图中查看高速公路系统。思科Connected Roadways解决方案充分利用了万物互联网领域的创新发展,将能够创建出一个端到端的基础设施,支持使用车辆到车辆(V2V)和车辆到基础设施(V2I)应用。这一方法将能够为交通管理机构、城市、汽车制造商和货运公司带来全新的业务模式与增长机遇。同时它也将能够为驾驶员带来更安全的驾驶体验,并建立一个可靠的基础设施,帮助推动无人驾驶汽车在未来几年普及上路。
针对美国交通部(USDoT)的强制要求,决策者们需要采用新的标准并进行新的基础设施投资,以符合政策法规。美国交通部发布的信息显示,仅2012年一年就发生了560万次交通事故,死亡人数超过33,000人。在美国,每年50亿个小时的出行延误致使油耗增加了29亿加仑,排放到大气中的二氧化碳增加了560亿磅。互联汽车技术将能够为驾驶员和系统操作员提供更多信息,帮助他们做出更明智的决策,最终减少交通和公交延误,避免潜在的交通事故。互联汽车环境应用将能够为出行者提供最新信息,帮助他们选择“绿色”出行方式。
思科Connected Roadways通过采用互联汽车参考实施架构满足了互操作性要求:
这一解决方案套件包括思科IP下一代网络、企业、协作和技术产品。解决方案亮点包括:
思科执行副总裁兼首席全球化官Wim Elfrink表示:“运输公司、城市、公交乘客和驾驶员均能够受益于道路和交通领域的技术进步。思科最新的交通解决方案提供了一种直观的方法,可有效改进我们所依赖的基本基础设施。而这将可以改变日常的驾驶和公交体验,减少交通事故与延误情况。”
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。