本报讯 从24小时到7分钟,我校“医学+信息”中心将人类全基因组测序数据分析时间从以小时计缩短至以分钟计,刷新了基因分析的“中国速度”,具有跨时代的意义。这也意味着,该项研究成果直接加速了基因测序从科研到临床的进程,未来将有更多精准的基因数据辅助于医疗诊断及治疗。这是四川大学“十四五”事业发展规划中以“医学+”、“信息+”为双引擎大力推进学科交叉融合研究的成功案例。
央视新闻对这一突破性研究成果进行了专题汇报。“医学+信息”中心于浩澎副研究员在采访中展示了四川大学在医工交叉领域的基础投入和研发实力,以及在基因分析领域追求极致的探索。四川大学曾筱茜副教授表示对生物医学数据的收集和分析,可以把知识信息反哺到临床医疗,为患者提供个性化医疗服务。
基因测序和分析技术现已应用于生育健康、肿瘤个体化诊断和治疗、遗传病、传染病检测、疫苗研发等领域。生物信息也是“医学+信息”研究领域的主战场之一,大规模组学队列研究计划陆续在世界范围内展开。工欲善其事必先利其器,我校“医学+信息”中心从自身交叉学科优势出发,另辟蹊径,在生物大数据科研平台能力上寻求突破。为此,2021年6月, “医学+信息”中心联合华为、赛乐基因组建联合研发团队,开展多组学数据加速分析平台系统的自主研发,旨在打造坚实的科研基础底座。
合作的三家机构呈现出极具特色的“医工混搭”风格,联合研发团队也由多领域专家组成,覆盖临床医学、计算机、数学、生物信息、通信等学科。研发团队在全基因组数据分析加速上,以GATK(The Genome Analysis Toolkit)流程为基础,聚焦多组学数据“存、管、算”三个关键方向,经过不断的流程拆分与重组改写、不断的分布式存储软硬优化打磨,最终完成了速度的飞跃,实现了30X人类全基因组测序胚系变异分析时间从24小时到7分钟的极限压缩,同时保证了分析结果的准确性。
据该项目负责人于浩澎副研究员介绍,之所以能实现时间上质的突破,根本在于打破计算算力和储存性能的瓶颈。他将其形象地比喻为吃得快的“大嘴巴”和装得下的“大肚子”:“大嘴巴”实现了大文件的直通读取和小文件的聚合读取,数据读取的效率更高,“大肚子“可以对数据分析的各个作业流程进行融合调度的优化,I/O流更加顺畅,从而实现了“吃得更多、消化更快”。
研发成果“多组学数据加速分析平台”于四川大学125周年校庆活动暨第七届生物医学大数据·智能技术应用峰会上发布。
未来,依托四川大学超前部署学科“医学大数据”,四川大学“医学+信息中心”会继续本着“创新、开放、协同、共赢”的宗旨,持续推进医工交叉融合研究创新,力争构建覆盖全生命周期的健康服务体系。