近来围绕FPGA(Field-Programmable Gate Array,现场可编程门阵列)的技术话题火了起来,英特尔的高管曾表示,到2020年将有1/3的数据中心会采用FPGA芯片,所以也就有了英特尔去年斥167亿美元收购FPGA的大厂Altera的事件。之后,IBM也牵头成立了第二代分布式计算联盟,联盟中包括FPGA的巨头赛灵思(Xilinx),并发布了CAPI+FPGA的方案。
大厂们纷纷围绕FPGA布局当然有其用意,FPGA将改变数据中心CPU使用率是一个大概率事件,要知道微软已经悄悄地在自家云端数据中心引入FPGA,用于Azure云和Bing搜索等服务。
可以说,FPGA孕育的机会和变化巨大。Achronix是一家私有的、采用无晶圆厂模式的半导体公司,虽然不能和赛灵思、Altera的体量相提并论,但却是一家专注于FPGA技术的公司,并且营收成倍数增长。近日,它发布了FPGA领域的大动作,第一次在业界推出嵌入式FPGA(embedded FPGA ,eFPGA)产品,Achronix称之为Speedcore。和独立的FPGA芯片相比,嵌入式FPGA功耗更低、成本更低、互联网延迟更低、带宽增加。
Achronix Semiconductor董事长兼首席执行官Robert Blake
其实之前就有消息称,英特尔将在今年晚些时候推出内置FPGA的至强处理器,不过显然Achronix抢先了一步。Achronix Semiconductor董事长兼首席执行官Robert Blake近日到访中国,他表示,“Achronix发布Speedcore eFPGA技术,是首款向客户出货的eFPGA IP产品,该产品从今日起开始出货,并且已经有客户开始应用集成到其系统级芯片中。”
“Achronix曾是第一家提供带有嵌入式系统级别IP的高密度FPGA的供应商。我们正在使用相同的、经过验证的技术向客户提供我们的eFPGA产品,这些客户都希望将ASIC设计的各种高效能和eFPGA可编程硬件加速器的灵活性结合在同一款芯片中。”Robert Blake说。
Speedcore eFPGA可为用于高性能通信与计算应用的SoC提供加速。Achronix资料显示,与独立FPGA相比,Speedcore eFPGA具备成本降低90%,功耗降低50%,带宽提升10倍以及延迟降低至1/10等优点。
Robert Blake指出,早期的FPGA的主要用途用于更好的设计ASIC,它起到连接的作用,现在随着半导体工艺的发展,FPGA更快、规模更大、成本更低,成为最佳的硬件加速器方案。对于低至中容量应用,独立的FPGA芯片是一种方便且实际的解决方案;然而,对于高容量应用,独立FPGA是最佳解决方案。
Achronix 花了三年时间去研发独立FPGA产品和技术,Robert Blake称这是一项技术门槛特别高的领域方向,他解释了Speedcore eFPGA的特点和优势。Speedcore以内部连线方式直接连接至SoC,从而省去了在外置独立FPGA中可见的大型可编程输入输出缓冲(IO buffer)。Speedcore通过一个超宽的并行接口连接至ASIC,而独立的FPGA通常通过一个高延迟的串行器/解串器(SerDes)架构进行连接,Speedcore IP 的接口延迟更低、性能更高。因为省去了可编程输入输出缓冲(IO buffer)架构,Speedcore的芯片面积比独立的FPGA小得多。
所以说,嵌入式FPGA对于预处理和卸载来自多核CPU和SoC的数据,从而提升计算性能的效果更理想。Robert Blake对比了赛灵思和Altera的独立FPGA芯片,Speedcore eFPGA的总接口带宽和延迟等参数优势明显。
此外,Speedcore eFPGA产品使用了Achronix成熟的、经过验证的ACE软件设计工具。客户可以立即用它来编译其设计,以在性能、资源使用和编译时间等方面评估Speedcore IP。
Robert Blake指出,多家开发SoC的大型公司已经建立了完整的设计集成和验证技术,未来Speedcore eFPGA将广泛应用于HPC、软件定义网络、无线等硬件性能加速中,现在看起来,嵌入式FPGA至少有10亿美元的市场容量。
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。