随着人们对“互联网+”关注度的持续升温,浪潮在德国CeBIT展示的基于“互联网+”概念的SmartRack整机柜服务器备受关注。而在近期举行的NVIDIA GPU技术大会(GTC 2015)上,浪潮带来了全球首款GPU协处理加速整机柜服务器,将“互联网+”首度延展至传统高性能计算。
GTC是全球最有影响力的GPU技术盛会,每年都会吸引众多的知名公司参展。阿里巴巴、Amazon、Facebook、Yahoo 等顶级互联网公司,以及GE、西门子、皮克斯、湾流公司、英国宇航公司、法国斯伦贝榭公司、本田技术研究所R&D中心等不同领域的公司均将参与本年度GTC2015的活动,并且还有数百位全球顶尖学术机构的研究人员,也将在大会上学习、分享和交流GPU技术的当下应用和未来发展。
让高性能计算实现“互联网+”
从出席大会的众多知名公司来看,GPU在商用计算领域的重要程度正在与日俱增。高性能计算作为GPU最主要的商用计算领域之一,得到了越来越多世界级公司的关注和重视。
随着百度、阿里巴巴、腾讯等世界级互联网公司投入深度学习技术的开发,高性能计算与云计算、大数据的结合越发紧密。同时,互联网公司对高性能计算的创新尝试,也开始反向影响到传统高性能计算用户,引发了对高性能计算建设、部署和应用模式的新一轮思考。
此次浪潮首度展示的GPU协处理加速整机柜服务器,是一款具备更高计算密度和更快部署速度的创新型产品,在1U空间里部署了4个Tesla® GPU 加速器,合理分配计算资源,充分释放计算能力,在并行计算方面有绝佳的表现,并改变了传统高性能计算集群“招标按月来,实施按年计”的建设模式,实现了传统高性能计算的“互联网+”。
SmartRack,让互联网+无处不在
目前,浪潮拥有全球范围内最完整的整机柜服务器产品阵列。除此次展示的GPU协处理加速整机柜服务器之外,浪潮还推出了面向新风数据中心(自然风冷数据中心)的高温耐腐蚀整机柜服务器,面向大数据存储、社交网站的冷存储整机柜服务器,面向现阶段云计算、虚拟化的高密度计算整机柜服务器,以及面向热数据处理、搭载SSD硬盘的高性能存储整机柜服务器,全面对接数据中心当下及未来成长需求。
SmartRack冷存储整机柜服务器以SATA DOM为系统盘,1U最大可挂载18块大容量硬盘,部署密度大幅提升,低功耗平台单路设计,支持硬盘休眠并实现节能,大幅降低整机功耗,实现最优的每TB购买和使用成本,满足海量冷数据的存储需求。
SmartRack高密度计算节点整机柜服务器适用于计算密集、强调业务连续性和安全性的关键应用,是一款搭载1U半宽的双路节点的服务器节点整机柜服务器,支持双万兆网络,具有强大的计算和网络性能,搭配SSD硬盘形成高效存储方式,提升数据处理效率,具备高安全性、高性能、低功耗、群管理等特性。每节点整机柜服务器独立插拔,运维更加简单。
SmartRack高性能存储整机柜服务器是一款具备强大计算和网络性能的均衡型存储服务器,1U空间内实现计算单元与存储单元的分离,最大支持12个大容量热插拔硬盘,可在不断电的情况下单独运维存储单元,减少单点故障。搭配SSD硬盘,可大幅提升热数据处理效率,广泛应用于web接入、网络均衡、近线存储、分布式存储、数据库等应用。
实际上,从互联网衍伸出来的SmartRack整机柜服务器具备典型的互联网特质,反映出互联网公司对数据中心空间、部署、能耗、运维等成本的极致追求。而随着“互联网+”概念的提出并被广泛认可,将会有更多的传统行业用户开始考虑采用整机柜服务器来完成数据中心的建设和升级,整机柜服务器未来成长空间更加充足。
目前,浪潮SmartRack整机柜服务器已经实现50000节点的交付,并在百度、阿里巴巴、奇虎等互联网企业、全球最大最繁忙订票系统等传统行业的企业级数据中心开始大规模应用,整体市场占有率达到60%。而整机柜服务器的抢眼表现,也带动浪潮2014年实现出货量同比增长70.3%,增速全球第一。
好文章,需要你的鼓励
OpenAI首席执行官Sam Altman表示,鉴于投资者的AI炒作和大量资本支出,我们目前正处于AI泡沫中。他承认投资者对AI过度兴奋,但仍认为AI是长期以来最重要的技术。ChatGPT目前拥有7亿周活跃用户,是全球第五大网站。由于服务器容量不足,OpenAI无法发布已开发的更好模型,计划在不久的将来投资万亿美元建设数据中心。
阿里巴巴团队提出FantasyTalking2,通过创新的多专家协作框架TLPO解决音频驱动人像动画中动作自然度、唇同步和视觉质量的优化冲突问题。该方法构建智能评委Talking-Critic和41万样本数据集,训练三个专业模块分别优化不同维度,再通过时间步-层级自适应融合实现协调。实验显示全面超越现有技术,用户评价提升超12%。
英伟达推出新的小型语言模型Nemotron-Nano-9B-v2,拥有90亿参数,在同类基准测试中表现最佳。该模型采用Mamba-Transformer混合架构,支持多语言处理和代码生成,可在单个A10 GPU上运行。独特的可切换推理功能允许用户通过控制令牌开启或关闭AI推理过程,并可管理推理预算以平衡准确性和延迟。模型基于合成数据集训练,采用企业友好的开源许可协议,支持商业化使用。
UC Berkeley团队提出XQUANT技术,通过存储输入激活X而非传统KV缓存来突破AI推理的内存瓶颈。该方法能将内存使用量减少至1/7.7,升级版XQUANT-CL更可实现12.5倍节省,同时几乎不影响模型性能。研究针对现代AI模型特点进行优化,为在有限硬件资源下运行更强大AI模型提供了新思路。