“时间会改变一切,许多不可思议的事情都已被人们所接受。我们正处于人类历史新时代的开端。”
——诺贝尔医学奖获得者戴维·巴尔的摩(David Baltimore)
几天前,随着基因编辑婴儿的诞生,代表人类进化史取得重大突破的同时,“潘多拉魔盒”的提前打开引发了巨大争议。
在20世纪中叶,DNA双螺旋结构的发现开启人们对于生命科学的热情。也由此,DNA结构与相对论、量子论并列成为20世纪的三大科学发现。在上世纪90年代展开的“人类基因组计划”,与人们熟知的“阿波罗登月计划”齐名,也被列为“20世纪三大科学计划”之一。
历经十几年的人类基因组计划宣告完成,随着人类的30亿个碱基和数万个基因序列被测定完,作为生命的密码,基因不仅能决定生老病死,还能遗传信息一代代传递下去。人与人之间基因组序列差异不到1%,而人类的外貌、性格和疾病等个体特征正是由这些基因的差异导致的。因此,“测定”与“解读”基因成为了本世纪生命科学领域最热门的一项研究。虽然“基因编辑”引发了有关伦理和“人类边界”的争论,但不可否儿的是,我们开始从最核心的层面探寻人的本质与真相,并取得了跨越式的进步。
DNA测序,作为生命密码的“读取”手段,是目前生命科学和医学应用的领域中发展最快的技术。DNA的测序给人的健康生活和生育的意义已经逐渐被越来越多的人认可,DNA测序还可以为个人或家庭提供生活建议和指导。而这正是武汉未来组生物科技有限公司(下文简称“未来组”)所从事的领域。
解码“生命”中的困惑与挑战
作为生命科学领域中国首家第三代测序技术服务公司,未来组早在2013年便成功研发了基于PacBio第三代单分子实时测序平台的生物信息分析方法,与2016年创建了Sequel基因组学中心,并在2017年9月建成了全世界最大的OxfordNanopore测序中心,解决了动植物基因组、微生物基因组、全长转录组及微生物群体研究领域的技术瓶颈,推动了基因组学研究的升级换代。
随着基因测序逐渐被越来越多的个人和家庭用户所接受,并成为一种关注健康、提升生活品质的流行手段。个人基因测序市场也进入到前所未有的繁荣时期,这让未来组的业务在短短几年中取得了飞速的发展和扩张。
然而,个人基因测序业务的蓬勃发展和大量科研的工作也让未来组的IT设施面临着巨大的挑战:
首先,人类DNA的序列长度达30亿,如果将其转化为文本,文件相应的大小保守估计要达到3GB。如果考虑到必要的冗余因素,文件的体积要成倍扩大,这对于存储的容量提出了极高要求。
其次,未来组已经拥有两台第三代基因测序仪,未来这一数字将增长至五台。基于现有的业务增长速率,这意味着仅在个人基因测序业务中,每天的数据产生量将高达300TB至600TB。
再次,未来组打造的“华夏万人SV”计划,针对不少于10万个中国人个体,进行全基因组三代测序,弥补结构变异和甲基化数据库的空白,并对疾病群体进行分析,明确疾病相关的变异。而每样本不少于360核小时,以100台32C128G计算节点计算7*24满负荷需470天,若用于组装则每样本不少于40000核小时。
综上所述,这种规模的数据增长速度和巨大的计算量,是传统的数据中心无法满足的。
DNA数据的云中之旅
“上云是唯一的出路”。未来组IT中心总监朱赢在接受采访时说,未来组逐渐清晰地意识到了只有云计算才能够应对以上大数据带来的种种挑战。此后,经过反复的调研和综合考察,未来组选择了华为云。
目前,未来组已经与华为云构建了HPC计算集群,并整合了三代测序数据分析流程,双方合作打通了从测序仪到华为云存储的数据传输通道,测序仪得到的基因组数据可以直接存储在华为云上,KunLun超大内存裸金属服务器也在基因测序领域得以应用。
在双方探索基因测序数据云端存储方法的过程中,“华为云提供了非常完善的技术支持服务。华为云极强的资源拓展能力,大规模的基因测序工作不会再受到存储系统容量的限制。”朱赢说。华为云技术和服务支持给未来组带来了震撼,也让未来组与华为之间快速建立起了合作和信任关系。
据笔者了解,目前,双方正在更多的领域展开联合的创新和探索:在“华夏万人SV”的基因测序计划中,由于样本数量达到了空前的一万个。通过使用华为提供的100台32核心高性能服务器进行72小时满负荷测试,整个DNA片段重组完成全部计算工作从之前的400万核小时提升到4万个核小时,效率提升100倍。
此外,未来组还在积极尝试利用华为昆仑小型机产品所具备的海量内存来提升DNA片段重组计算任务的运行效率。
“未来,未来组还会尝试使用华为云所提供的异构计算服务来加速DNA片段重组的计算工作,并结合容器技术来进一步提升效率。基于华为云,未来组还将开发一套面向基因测序分析报告的移动APP,让用户可以更方便、更快速的调取基因测序结果,获得更好的用户体验。“朱赢对笔者说。
“云”上的数据存储、基因测序、交付分析结果,未来组已经向目标迈出了坚实的一步。而华为云给未来组所带来的,不仅是效率的提升和成本的下降,是又一个技术推动行业梦想的鲜活案例,如华为轮值董事长胡厚崑所言,华为要给智世界铺上云的跑道,帮助每个人、每个家庭、每个组织更快、更好、更安全地拥抱智能世界。今后,基因检测或许就能像量体温、测体重一样简单容易,也许在未来不远,人类能够找出生命的出路,基因蓝图事业在云上腾飞。
好文章,需要你的鼓励
OpenAI CEO描绘了AI温和变革人类生活的愿景,但现实可能更复杂。AI发展将带来真正收益,但也会造成社会错位。随着AI系统日益影响知识获取和信念形成,共同认知基础面临分裂风险。个性化算法加剧信息茧房,民主对话变得困难。我们需要学会在认知群岛化的新地形中智慧生存,建立基于共同责任而非意识形态纯洁性的社区。
杜克大学等机构研究团队通过三种互补方法分析了大语言模型推理过程,发现存在"思维锚点"现象——某些关键句子对整个推理过程具有决定性影响。研究表明,计划生成和错误检查等高层次句子比具体计算步骤更重要,推理模型还进化出专门的注意力机制来跟踪这些关键节点。该发现为AI可解释性和安全性研究提供了新工具和视角。
传统数据中心基础设施虽然对企业至关重要,但也是预算和房地产的重大负担。模块化数据中心正成为强有力的替代方案,解决企业面临的运营、财务和环境复杂性问题。这种模块化方法在印度日益流行,有助于解决环境问题、满足人工智能的电力需求、降低成本并支持新一代分布式应用。相比传统建设需要数年时间,工厂预制的模块化数据中心基础设施可在数周内部署完成。
法国索邦大学团队开发出智能医学文献管理系统Biomed-Enriched,通过AI自动从PubMed数据库中识别和提取高质量临床案例及教育内容。该系统采用两步注释策略,先用大型AI模型评估40万段落质量,再训练小型模型处理全库1.33亿段落。实验显示该方法仅用三分之一训练数据即可达到传统方法效果,为医学AI发展提供了高效可持续的解决方案。