12月16日,在开放原子开源基金会主办的“2023开放原子开发者大会”上,蚂蚁集团主导开源的图数据库TuGraph、时序数据库CeresDB、隐私计算框架隐语SecretFlow、前端框架OpenSumi、数据域大模型开源框架DB-GPT入选“2023快速成长开源项目”。
据了解,蚂蚁以开源关键基础软件为核心战略。本次入选的五个项目,表明了蚂蚁在关键基础软件领域开源的投入获认可,大模型跨界开源项目被关注,也为行业探索大模型应用带来了启发。
以CeresDB为例,这是一种存储和管理时间序列数据的分布式数据库,为时间序列数据提供高性能读写、高压缩比低成本存储、可视化查询等功能,适用于物联网 IoT、运维监控、金融分析等场景。CeresDB开源项目负责人任春韶表示,“希望通过开源帮助开发者解决时间序列数据存储的水平扩展与高可用的痛点,助力海量数据场景的开发效率。”目前该项目内核HoraeDB已捐献到 Apache开源基金会。
AI及大模型浪潮,为科技创新带来了机遇与挑战。对于开源来说,也蕴藏了新的生机。比如在基础软件开发领域,大模型与数据库的结合产生了新的火花。
今年6月,蚂蚁集团发起了数据库领域大模型框架DB-GPT。结合大模型与数据库,DB-GPT可以系统构建企业知识库、生成式报表分析系统(GBI)、日常数据处理与报表等多种应用。DB-GPT开源项目负责人陈发强表示,“基于大模型和数据库,企业及开发者可以用更少的代码搭建自己的专属应用。我们希望DB-GPT构建大模型领域的基础设施,让围绕数据库构建大模型应用更简单、更方便”。 据了解,DB-GPT从个人项目出发, 半年时间成长为近万星的开源社区,受到了行业和开发者认可。
本次大会还探讨了一些硬核技术痛点难点。AI和大模型的爆发带来了算力焦虑,对系统的效率提出了更苛刻的要求。围绕大模型的应用开发,蚂蚁集团AI 基础设施负责人张科分享了蚂蚁的AI工程实践。他表示,蚂蚁通过系统的智能化,解决了系统的效率优化问题,全面覆盖了训练推理引擎框架,在线服务,GPU集群调度与虚拟化,工程智能等多个领域的效率提升。目前这套体系中的分布式训练系统服务 DLRover、显存和传输优化库 GLake已开源。
张科还介绍,蚂蚁建设了万卡以上异构集群,千卡以上训练算力效率(HFU)超过60%,有效训练时长占比95%以上,RLHF训练在同等模型效果下训练吞吐性能相较于业界方案提升3.59倍,推理性能相较于业界方案提升约2倍,处于业界先进水平。“目前这套技术能力已经应用于蚂蚁百灵大模型,将带来更加绿色高效的算力”,张科强调。
本次大会上,蚂蚁集团还主办了“信息和数据安全前沿论道”分论坛,国内外专家围绕大模型隐私保护、数据安全、量子密码等展开了讨论。由蚂蚁集团主导开源的“铜锁”项目,成立了项目管理委员会,将致力于密码学研究,以及商业密码的行业应用推广及生态共建。
好文章,需要你的鼓励
机器人智能公司Inbolt将于2026年6月在芝加哥Automate展会上发布两项新能力:Inbolt机器人编程功能和扩展版机器人控制模块。新功能可让工程师直接基于CAD模型构建程序,结合视觉模型实时定位实体零件并自动调整运动路径,彻底消除传统调试中耗时数周的手动示教环节。此次更新还将原生支持安川机器人,使平台覆盖品牌扩展至六个。
卡内基梅隆大学提出MACU框架,让经理AI统筹多个员工AI并行完成复杂电脑操作任务,通过动态调整任务图,在四个基准上均超越单智能体。
本文提供了一套完整的笔记本电脑深度清洁方案。硬件方面,介绍了如何用温和洗涤剂清洁机身、用微纤维布擦拭屏幕、用压缩空气清理键盘及清洁充电线的正确方法。软件方面,建议及时更新操作系统与驱动程序,删除冗余文件与临时下载内容,并通过开启Windows Storage Sense功能实现自动清理,同时将剩余文件整理归类,保持系统整洁高效运行。
康奈尔大学提出SEIG框架,让视觉语言模型通过分阶段重建几何、材质、构图和灯光,从单张图片自动生成可编辑的Blender 3D场景。