自基因组学技术问世以来,测序与分析一直是基因组学技术中最主要的两个环节。实际上,与繁重的测序工作相比,基因组的分析也同样复杂,需要耗费大量时间。
然而,随着近年来基因组学技术发展突飞猛进,这种状况正在逐步改变。
日前,中国农业科学院深圳农业基因组研究所阮珏团队在《自然·方法学》上发表了第三代测序数据组装算法Wtdbg,极大提高三代测序数据的分析效率,与今年4月发表在《自然·生物技术》上的Flye算法相比,分析速度提升了5倍,并首次将测序数据分析时间降低到少于测序数据产出时间。
基因组的测序与分析
DNA测序技术成熟于上世纪70年代中后期,1990年人类基因组计划的提出,将基因组测序技术逐步由实验室迈入商业化阶段;到2004年人类基因组计划完成时,第二代基因组测序技术已经相对成熟,开始大规模商业化应用;2013年,单分子等第三代测序技术出现,也预示着测序技术应用更广,测序的成本越低。
“如今,完成一个人的全基因组测序是普通家庭都可以负担起费用的‘平常’事情了。以三代测序为例,完成个人全基因组测序仅需1天时间、费用低于5万元。”论文作者、中国农业科学院深圳农业基因组研究所研究员阮珏告诉经济日报记者。
在测序技术日新月异的同时,分析技术也在共同成长。以人类基因组组装为例,在2014年需要消耗50万个CPU小时,且只能在超大计算机集群上进行。因而,以全基因组组装方式对群体进行测序分析已经成为生物医学研究的趋势。
关键钥匙:模糊布鲁因图
Wtdbg算法的开发得益于一个新的组装图理论——模糊布鲁因图的提出。模糊布鲁因图借鉴了德布鲁因图的思想,将测序数据切分为固定长度的短串,再从短串构建出的图上恢复出全基因组序列。
上世纪90年代,德布鲁因图被引入基因组组装领域,其以速度优势常用于第二代测序数据的组装分析,但因测序噪音极高,从未成功应用在第三代测序数据。
2013年起,阮珏和美国哈佛医学院的博士李恒在德布鲁因图基础上,设计出一个新的组装图理论——模糊布鲁因图。通过重新对短串进行定义,它能够容忍高噪音数据,并随后对生成组装图和恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。
不断进化的新算法
近年来,生物信息学领域的科学家们致力于改变这种数据产出速度远高于数据分析速度的尴尬状况,不断开发出更高效的组装分析算法。
2013年,阮珏与李恒合作开始了测序数据分析方法如组装算法的开发,力求推动测序数据的分析速度更快、分析质量更高。2016年,他们的研究结束,并将研究成果Wtdbg对所有人免费开放使用。3年来,这项成果不仅被几十篇学术论文引用,还被国内多家基因测序分析公司作为主要组装分析工具,并且在2019年世界大学生超算竞赛中作为性能测试赛题。
“我们收到大量反馈,不仅有助修订算法软件中的漏洞,还带来了新想法和思路。算法需要不断在实践中完善,只有通过更多实际应用,我们才能更有效调整改进这套算法。目前的算法与2016年相比已经是2.0版本,而更高版本的算法于今年初也开始了研究。”阮珏告诉记者。