12月16日,在开放原子开源基金会主办的“2023开放原子开发者大会”上,蚂蚁集团主导开源的图数据库TuGraph、时序数据库CeresDB、隐私计算框架隐语SecretFlow、前端框架OpenSumi、数据域大模型开源框架DB-GPT入选“2023快速成长开源项目”。
据了解,蚂蚁以开源关键基础软件为核心战略。本次入选的五个项目,表明了蚂蚁在关键基础软件领域开源的投入获认可,大模型跨界开源项目被关注,也为行业探索大模型应用带来了启发。
以CeresDB为例,这是一种存储和管理时间序列数据的分布式数据库,为时间序列数据提供高性能读写、高压缩比低成本存储、可视化查询等功能,适用于物联网 IoT、运维监控、金融分析等场景。CeresDB开源项目负责人任春韶表示,“希望通过开源帮助开发者解决时间序列数据存储的水平扩展与高可用的痛点,助力海量数据场景的开发效率。”目前该项目内核HoraeDB已捐献到 Apache开源基金会。
AI及大模型浪潮,为科技创新带来了机遇与挑战。对于开源来说,也蕴藏了新的生机。比如在基础软件开发领域,大模型与数据库的结合产生了新的火花。
今年6月,蚂蚁集团发起了数据库领域大模型框架DB-GPT。结合大模型与数据库,DB-GPT可以系统构建企业知识库、生成式报表分析系统(GBI)、日常数据处理与报表等多种应用。DB-GPT开源项目负责人陈发强表示,“基于大模型和数据库,企业及开发者可以用更少的代码搭建自己的专属应用。我们希望DB-GPT构建大模型领域的基础设施,让围绕数据库构建大模型应用更简单、更方便”。 据了解,DB-GPT从个人项目出发, 半年时间成长为近万星的开源社区,受到了行业和开发者认可。
本次大会还探讨了一些硬核技术痛点难点。AI和大模型的爆发带来了算力焦虑,对系统的效率提出了更苛刻的要求。围绕大模型的应用开发,蚂蚁集团AI 基础设施负责人张科分享了蚂蚁的AI工程实践。他表示,蚂蚁通过系统的智能化,解决了系统的效率优化问题,全面覆盖了训练推理引擎框架,在线服务,GPU集群调度与虚拟化,工程智能等多个领域的效率提升。目前这套体系中的分布式训练系统服务 DLRover、显存和传输优化库 GLake已开源。
张科还介绍,蚂蚁建设了万卡以上异构集群,千卡以上训练算力效率(HFU)超过60%,有效训练时长占比95%以上,RLHF训练在同等模型效果下训练吞吐性能相较于业界方案提升3.59倍,推理性能相较于业界方案提升约2倍,处于业界先进水平。“目前这套技术能力已经应用于蚂蚁百灵大模型,将带来更加绿色高效的算力”,张科强调。
本次大会上,蚂蚁集团还主办了“信息和数据安全前沿论道”分论坛,国内外专家围绕大模型隐私保护、数据安全、量子密码等展开了讨论。由蚂蚁集团主导开源的“铜锁”项目,成立了项目管理委员会,将致力于密码学研究,以及商业密码的行业应用推广及生态共建。
好文章,需要你的鼓励
穆拉蒂时隔18个月首次接受重大媒体采访,介绍其创立的Thinking Machines Lab正在开发的"交互模型"。该模型能以200毫秒间隔处理音频、文本和视频流,捕捉人类交流中的中断、修正和停顿。她还谈及OpenAI"政变周"经历,强调行业决策权过于集中的担忧,并回应了公司近期研究人员离职问题,表示这是初创实验室的正常波动。
伊尔德兹技术大学团队通过词典手术和离线蒸馏,以不足20美元成本打造出专为土耳其语优化的200M参数句子嵌入模型,在语义相似度任务上超越了参数量更大的原版教师模型。
本期《Quick Charge》播客涵盖多个热点话题:特斯拉疑似试图删除FSD欺诈相关证据以规避巨额赔付;卡特彼勒持续推进建筑领域电气化布局;住宅太阳能30%税收抵免即将到期。此外,嘉宾Tom Pacheco就高压系统与电池技术培训展开探讨,强调电动车技术人才培养的紧迫性。节目同时提醒有意安装太阳能的用户尽快行动,可通过EnergySage平台比较多家安装商报价。
LongLive-RAG由英伟达、USC与MIT联合提出,通过让AI检索自身生成的历史视频片段作为参考,解决长视频生成中的角色漂移和画面不一致问题。