一提起高通,相信很多朋友首先想到就是他们专为智能手机移动平台打造的行业领先片上系统,外加端到端5G连接解决方案。但是,无论是在图像识别、语音输入、自然语言翻译还是推荐引擎等应用场景下,现代智能手机平台往往离不开强大的人工智能(AI)处理能力。
因此,结合自身多年来为移动AI应用开发芯片及软件平台解决方案的经验,高通公司自然不会错失这个将AI加速器技术引入其他智能边缘设备乃至云端的好机会。如今,承载高通公司野心的Cloud AI 100推理加速器产品组合正式亮相。而作为全球最大的电子元件外包制造商与ODM制造商之一,富士康公司将在项目中成为高通的强劲助力。
富士康的工业互联网部门推出一套名为Gloria的全新AI机器视觉平台。该系统由高通公司的Cloud AI 100解决方案提供支持,可支持多达24个高清摄像头,适用于交通分析、安全监控与智能零售等视频分析场景。此外,越南AI安全巨头BKAV也宣布,他们将在自家AI View智能安全摄像头系统产品中引入富士康Gloria,这标志着BKAV将成为高通Cloud AI 100加速器的首家商业客户。
自去年年底以来,高通就与BKAV开展合作,帮助该公司充实智能摄像头系统功能。
可以想见,由此支持的图像识别与视频分析,将成为从智慧城市到安全保障、再到零售及医疗保健等场景下的重要支柱。
AI 100借鉴了高通公司原有骁龙移动平台Hexagon及Tensor Accelerator架构中的同类芯片引擎技术,自身包含多达16个AI内核(AIC),并可适应从15瓦至75瓦的功率区间。高通公司还指出,AI 100加速器上的AIC小芯片采用专有的调整互连进行连接。在物理设计上,该产品提供用于AI边缘应有的M.2口香糖式附加卡,以及面向云数据中心服务器的PCI Express Gen3/4加速卡。AI 100还拥有高达144 MB的高速片上SRAM,具体容量由内核数量决定;并可接入最高32 GB的卡上或系统内LPDDR4 DRAM。
在性能方面,高通对市面上其他竞争性解决方案的图像识别(ResNet-50模型性能)等应用性能提出大胆挑战。AI 100在20瓦配置下实现的推理吞吐量,明显优于70瓦配置下的英伟达T4 GPU。
富士康的Gloria AI Edge Box是一款完全定制的交钥匙商业设备,由高通Cloud AI 100提供支持。除了BKAV的AI View摄像头系统之外,这款平台还有着其他广泛且多样的适用范围。BKAV公司董事长兼CEO Nguyen Tu Quang指出,这套同时支持Sub-6与毫米波5G连接制式的“富士康工业互联网打造的Gloria本地AI Edge设备,使我们能够以极具竞争力的价格实现令人难以置信的低功耗、高性能。Gloria将支持我们加快AI技术在企业及政府中的应用,并彻底改变我们在智慧城市、智能建筑及农业等垂直领域内的拓展速度。”
当然,从富士康Gloria等边缘设备再到数据中心内的云AI处理需求,一切都将由高通的PCI Express加速卡支持,而这必然离不开强大且深入的软件工具与库作为基础。不用说,回顾多年以来在移动应用中支持AI开发、部署及支持的丰富经历,这自然也是高通的强项所在。在对TensorFlow、PyTorch及Caffe等原生AI框架进行有力支持之外,AI开发者能够专注于在自己选定的平台上进行编码,再结合高通Cloud AI 100的特性做出优化。
AI已经成为当下风头一时无两的热门领域,而富士康Gloria这样的低功耗、高性能优化解决方案非常适合不断扩展的边缘设备生态系统。把握这一机会,将给两家企业带来可观的发展空间。富士康Gloria Ai Edge Box的工程样机将于今年晚些时候推出,预计于2022年第二季度投入商业应用。高通公司的AI 100开发套件同样采用骁龙865平台主机处理器,配备支持5G连接的高通骁龙X55调制解调器-射频系统,目前已经开始客户交付以供开发调试。
好文章,需要你的鼓励
这项研究由新加坡国立大学团队开发的DualParal技术,通过创新的双重并行架构解决了AI视频生成的长度限制问题。该方法同时在时间帧和模型层两个维度实现并行处理,配合分块降噪机制、特征缓存和协调噪声初始化策略,使生成分钟级长视频成为可能。实验表明,在生成1,025帧视频时,DualParal比现有技术减少了高达6.54倍的延迟和1.48倍的内存成本,同时保持了高质量的视频输出,为内容创作者提供了生成更长、更复杂视频叙事的新工具。
SoloSpeech是约翰霍普金斯大学研究团队开发的创新语音处理技术,针对"鸡尾酒会效应"问题提出了全新解决方案。该系统通过级联生成式管道整合压缩、提取、重建和校正过程,实现了高质量目标语音提取。与传统判别式模型相比,SoloSpeech采用无需说话者嵌入的设计,直接利用提示音频的潜在空间信息与混合音频对齐,有效避免特征不匹配问题。在Libri2Mix及多个真实世界数据集上的评测显示,SoloSpeech在清晰度、质量和泛化能力上均达到了领先水平,为语音分离技术开辟了新方向。
这项由北京大学深圳研究生院、伟湾大学、腾讯ARC实验室和兔小贝智能联合研究的Sci-Fi框架,通过创新的对称约束机制,解决了视频帧间插值中的关键问题。研究团队设计了轻量级EF-Net模块,增强结束帧约束力,使其与起始帧形成平衡影响,从而生成更自然流畅的中间过渡帧。实验证明,该方法在各种场景下都优于现有技术,特别适用于电影制作、动画创作和视频编辑领域,显著降低了人力成本。
这项来自西北大学和谷歌的研究突破了传统马尔可夫强化学习的局限,通过贝叶斯自适应RL框架解释了大语言模型中涌现的反思性推理行为。研究团队提出的BARL算法通过维护多个解题策略的后验分布,指导模型何时何地进行反思性探索,在数学推理任务上展现出显著优势,比基线方法减少高达50%的标记使用量,同时提高了准确率。这一研究不仅解释了"为什么反思有用",还提供了实用的指导原则,为AI系统的自适应推理能力开辟了新方向。