Apache Spark创始人Matei Zaharia荣获美国计算机协会(ACM)年度计算奖,奖金25万美元。他在加州大学伯克利分校攻读博士期间开发了Spark,解决了大数据处理门槛高的问题,支持Python、SQL等多种语言,大幅降低使用难度。他还联合创立了估值1300亿美元的Databricks,并参与开发Delta Lake、MLflow等开源项目,对数据分析与AI领域产生了深远影响。
人工智能巨大的能耗需求催生了对更环保训练方法的探索。分布式训练通过在独立节点网络中分配模型训练任务,让计算能力就近利用现有能源,而非依赖单一平台。这种方法充分利用闲置服务器和太阳能家庭等现有计算资源,避免建设更多耗能数据中心。结合联邦学习等算法创新,分布式训练在降低通信成本和提高容错性方面取得突破,为AI行业提供更节能高效的解决方案。
数据中心提供商Equinix发布分布式AI Hub平台,通过Equinix Fabric Intelligence提供统一框架,连接数据中心、边缘和云端的AI模型资源。该平台包含AI就绪骨干网络、全球AI解决方案实验室和智能网络层,支持实时感知和自动化。同时在10个国家20个地点建立实验室,帮助企业验证AI架构,并集成Palo Alto Networks安全支持。
Akamai Technologies宣布推出全球首个基于Nvidia AI Grid参考设计的大规模实施方案。随着人工智能从模型训练转向推理阶段,该公司通过分布式网络架构解决集中式AI基础设施的扩展限制。AI Grid采用智能编排器作为实时代理,通过语义缓存和智能路由优化工作负载分配,显著降低推理成本。系统部署数千个Nvidia RTX PRO 6000 Blackwell服务器版GPU,为金融、广播和零售等行业提供低延迟AI应用支持。
随着人工智能系统具备自主推理、规划和执行任务的能力,移动通信流量模式发生显著变化,上行链路重要性日益凸显。InterDigital研究显示,智能体AI的快速普及将在未来三年重新定义设备、网络和云基础设施需求。与传统移动应用主要消费下行数据不同,智能体AI系统持续生成和交换上下文信息以实现实时推理决策,导致上行流量激增,可能造成网络过载和延迟增加,需要重新设计网络架构。
云计算公司Akamai宣布将在全球4000多个节点部署数千块英伟达Blackwell GPU、DPU和服务器,构建去中心化AI基础设施。该平台可将延迟降低2.5倍,相比超大规模云服务商可节省86%的AI推理成本。分布式架构有助于AI与自动驾驶、智能电网等现实系统交互,突破传统云计算的地理和成本限制。
AI搜索提供商Perplexity开发了新的软件优化技术,让万亿参数大模型能在老旧、便宜的硬件上高效运行,包括使用亚马逊专有的弹性网络适配器。这项创新解决了大规模专家混合模型面临的内存和网络延迟挑战。研究显示,相比单节点配置,优化后的核心程序在多节点部署中实现了显著性能提升,使企业能更长时间利用现有硬件,或使用折扣云实例运行下一代前沿模型。
数字基础设施公司Equinix发布"AI就绪骨干网",旨在通过连接全球平台和新软件层引导客户进入智能AI时代。该"分布式AI"基础设施将统一77个市场的270多个数据中心,为多云AI工作负载提供更高可靠性。新的Fabric Intelligence软件层将在按需全球互连平台上提供实时感知和自动化功能,帮助企业在AI训练和推理阶段获得更好的投资回报率。
Starburst公司开发并使用开源分布式SQL查询引擎Trino来查询和分析分布式数据源。CEO Justin Borgman认为,在人工智能时代,能够访问企业所有数据的公司将获胜。Starburst正在扩展其连接器,为AI提供全面的数据访问和治理服务,并计划在今年5月发布进一步的AI相关功能。
DeepMind 研究人员提出了一种名为 Streaming DiLoCo 的新方法,可以在分布式环境中高效训练大型 AI 模型。该方法通过优化参数同步和通信策略,显著降低了带宽需求,同时保持了模型性能。这一突破有望推动 AI 开发的民主化,使更多机构能够参与大规模模型训练。
随着生成式 AI 模型的爆炸性增长,单一数据中心已难以满足其计算需求。未来,AI 的持续发展可能依赖于跨越国家甚至大洲的新型超级计算机。这种分布式架构将现有数据中心连接起来,形成一个大型虚拟数据中心,以应对 AI 模型日益增长的计算和能源需求。
浙江东方金融控股集团股份有限公司作为浙江省国有上市金控平台,紧跟政府数字化改革要求,统一战略体系,聚焦提高企业风险管控能力,完善资本管理,强化数字建设。