近期,华为云与国际领先深度学习加速方案提供者深鉴科技共同发布语音识别加速引擎DDESE——DeePhi Descartes Efficient Speech Recognition Engine,即深鉴科技笛卡尔架构高效语音识别引擎。该方案以语音识别为应用载体,对AI类应用推理计算进行全面加速。成为目前国内公有云市场上,首款基于FPGA平台的原创深度学习语音识别加速解决方案,现已全面登录华为云市场。
近年来,云端业务发展日新月异,市场对底层硬件架构提出更高性能的要求,而FPGA的可定制化和多功能的灵活特性,与云端灵活、复杂、多变的需求“不谋而合”,继而在全球云端业务中广泛加快布局。而华为云顺应趋势,并结合自身硬件优势全面推出FPGA加速云服务器平台,应用场景覆盖基因分析、视频/图片处理、深度学习、加解密、大数据等多个领域,致力于为企业提供极致、易用、专业的FPGA加速云服务。
华为云结合深鉴科技,在FPGA加速云服务器平台上发布了DDESE。该产品是以Xilinx FPGA为计算架构平台,为用户打造的一款算法、软件和硬件协同设计的推理计算加速解决方案。基于深鉴科技独有的深度压缩能力,可以在保持精度的同时将神经网络压缩超过10倍,并部署在深鉴科技自主研发的笛卡尔架构硬件平台上,其核心加速引擎能够显著降低语音识别的延时,同时达到更低的功耗。根据单句语音识别重复测试的结果,DDESE端到端语音识别的计算速度是同等级GPU(Tesla P4 + cudnn)的2倍,其中LSTM部的加速比超过2.5倍。该款产品主要应用于语音识别场景,可为用户提供端到端语音识别服务。
目前,在国内公有云市场上,深度学习解决方案与FPGA硬件架构的相关产品都非常少。而DDESE是立足于FPGA平台的深度学习语音识别加速解决方案,跨越两个新领域,或是目前为止首款“FPGA+深度学习”的解决方案。深鉴科技坚持以算法软硬件协同优化的理念,领先推动FPGA的新浪潮。华为云提供开放的生态,为深鉴科技提供发布解决方案的平台,降低FPGA开发与部署的技术门槛,让更多开发者和行业伙伴享受FPGA硬件解决方案带来的加速能力。
未来,深鉴科技希望依托于华为云的平台,能够在FPGA领域继续突破前沿技术,引领国际先进的深度学习加速方案,进一步赋能语音识别应用场景。目前,DDESE正面向华为云用户提供免费试用,期待更多开发者与厂商体验深鉴算法、软件、硬件协同设计的深度学习加速解决方案。
点击体验DDESE:https://app.huaweicloud.com/product/00301-110982-0--0
好文章,需要你的鼓励
腾讯今日开源混元MT系列语言模型,专门针对翻译任务进行优化。该系列包含四个模型,其中两个旗舰模型均拥有70亿参数。腾讯使用四个不同数据集进行初始训练,并采用强化学习进行优化。在WMT25基准测试中,混元MT在31个语言对中的30个表现优于谷歌翻译,某些情况下得分高出65%,同时也超越了GPT-4.1和Claude 4 Sonnet等模型。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
今年是Frontiers Health十周年。在pharmaphorum播客的Frontiers Health限定系列中,网络编辑Nicole Raleigh采访了Startup Health总裁兼联合创始人Unity Stoakes。Stoakes在科技、科学和设计交汇领域深耕30多年,致力于变革全球健康。他认为,Frontiers Health通过精心选择的空间促进有意义的网络建设,利用网络效应推进创新力量,让企业家共同构建并带来改变,从而有益地影响全球人类福祉。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。