聚焦全球科技发展的新趋势,AI(人工智能)无疑是当今最引人瞩目的关键词之一。在全数字化步伐不断加快的今天,AI不仅成为各大科技巨头的战略方向、受到资本市场广泛热捧,而且迅速融入到众多领域的垂直应用中。AI学科最早于1956年由达特茅斯大学首创,60年后的今天,AI尚未成熟,依旧拥有非常广阔的发展和想象空间。尽管如此,我们的生活早已“无处不智能”,智能家居、无人驾驶、智能机器人等技术及应用,很大程度上得益于计算机处理和通信技术的蓬勃发展。值得注意的是,虽然很多人尚未意识到,但是AI早已走进音频视频和会议领域,例如:许多音频系统能够通过对其周围的环境进行“学习”,自主调整自己的性能,以降低背景噪音,避免甚至消除回音。
思科AI发展史引领协作新未来
思科作为在会议领域中推进人工智能应用的思想领袖和技术先驱,自上世纪90年代至今,在AI发展的每个阶段中,始终以行业领导者的姿态推动AI创新与发展:
从业界第一款4K双流显示的思科Spark Room Kit开始,到最新的思科Spark Room 70,思科不断推动AI技术在会议领域的创新应用,使得思科Spark Room系列产品大放异彩:
思科Spark Room 70全新登场奏响协作AI最强音
2018年3月思科Spark Room 70正式登陆大中华区市场。Spark Room 70是Spark Room系列中功能最为强大的产品。思科Spark Room 70采用了NVIDIA Jetson平台(众多自动驾驶车辆也采用了该平台),实现了摄像机技术和机器学习之间的平衡,通过内容分享和AI技术,为客户带来无与伦比的视频和音频体验,大幅提升团队工作效率:
在AI技术之外,思科Spark Room 70同样拥有强大的硬件支持:
面向未来思科勾勒AI发展蓝图
曾经一度被视为天方夜谭的AI已经成功应用于会议领域,并且不断助力企业提升效率、创造极大的业务价值。目前,思科AI战略将AI能力分成了5个层次,具体包括:
第1层,指令和控制:通过机器听觉和自然语言处理能力实现语音响应,从而简化会议设置机制;
第2层,自然语言理解:通过AI“机器人”(一种可模拟对话的机器算法)来处理各种指令,协助会议管理;
第3层,基于领域专长的语义理解,支持系统创建和分发会议总结;
第4层,智能团队成员:即系统理解会议情境和与会者需求的能力,通过系统的这种能力来合成相关数据,为团队提供帮助,比如通过自动创建数据表来协助决策的制定;
第5层,团队及策略智能:即系统理解企业目标和团队成员技能,以及为与会人员提供建议的能力(比如“Sarah是这个领域的专家,我们是否邀请她参会?”)。
这些功能部分已经得到实现、或者已经出现在思科的AI发展蓝图中。不难想象,AI技术势必将在塑造未来会议技术和会议室中扮演着更为重要的角色。思科希望帮助企业制定针对AI的全球性战略举措,积极使用专为支持当下和未来AI功能而设计的平台,创造并实现AI价值的最大化。
思科全球高级副总裁,应用事业部总经理Rowan Trollope表示:“在未来几年,AI会议机器人将会融入工作团队之中。随着它们被投入使用,员工将能够摆脱乏味的会议设置和其他后勤工作,转而从事更有创造性的工作。拥有人工智能的思科Spark代表着未来会议的发展方向,通过帮助客户充分利用这一具有颠覆性的技术,我们的合作伙伴将会获得绝佳的机遇。”
好文章,需要你的鼓励
这项研究提出了R1-Searcher++框架,通过两阶段训练策略使大语言模型能像人类一样灵活利用内部知识和外部信息。该方法创新性地采用强化学习激励模型优先使用内部知识,并引入记忆机制将检索到的信息转化为内部知识,实现动态知识获取。实验表明,R1-Searcher++不仅在多步问答任务上表现优异,还大幅减少了检索次数,显著提高了推理效率。
这项研究提出了AutoRefine,一种革新性的强化学习框架,为大语言模型引入了"边思考边搜索和完善"的全新范式。与传统方法不同,AutoRefine在连续搜索调用之间添加知识完善步骤,让模型能够有效过滤和组织信息。通过结合答案正确性和检索质量双重奖励,该方法在七项问答基准测试中平均提升6.9%的准确率,特别在复杂多跳推理场景中表现突出,解决了现有检索增强推理的核心局限性。
这项研究揭示了一种新型网络安全威胁:利用普通网络广告攻击AI网页代理。中科院研究团队开发的AdInject攻击无需特殊权限,仅通过精心设计的广告内容就能误导AI代理点击恶意链接,成功率高达90%以上。研究使用严格的黑盒模型,更符合现实场景,暴露了当前AI代理面临的实际安全漏洞。实验还表明,即使添加专门的防御提示,这类攻击仍能成功率超过50%,凸显了设计更强大防御机制的紧迫性。
东北大学与快手科技联合研发的UNITE系统为多模态信息检索带来突破性进展。这项发表于2025年5月的研究首次系统分析了模态特定数据如何影响检索性能,并提出创新的模态感知掩码对比学习技术,有效解决不同模态间的竞争关系。UNITE能同时处理文本、图像、视频及其组合,在40多项测试中超越现有方法,即使与参数规模更大的模型相比也表现出色。研究发现视频-文本对在通用检索中表现优异,而文本-文本和文本-图像对对指令遵循任务至关重要,为未来多模态系统研究提供了宝贵指南。