测序技术的发展将生命科学领域带入组学时代,海量的数据产出成为常态。组学是将基因、蛋白及代谢物等生物分子以整体为单位进行系统性的研究,基因组学、蛋白质组学和代谢物组学等相应产生。相较于此前以个体为单位的研究,组学最主要的特征就是大数据。随着组学数据的产出,搭建组学数据库,实现海量信息的存储、整合及共享,成为一项重要任务。
目前,在国际上被认可的生物组学数据中心主要有美国的NCBI、欧洲的EBI及日本的DDBJ。要想在国际期刊发表论文,需要先将自己的原始数据提交到这三个官方指定的数据库中。这种情况表面上有利于国际科学数据的资源整合与共享,实际上却对中国的科学研究发展带来了很大的影响:这不仅影响了数据提交时的效率,更重要的是在数据下载时还会遇到各种限制,中国的科学家始终不能做自己数据的主人。
中国的生物组学数据产量约占全球的40%,是数据产出大国,却没有一个能够被国际认可的数据库系统,不得不将自己宝贵的数据资源交给他人代管。
现在,这种情况终于得到改变。近日,中国科学院北京基因组研究所生命与健康大数据中心团队在国际学术期刊《核酸研究》在线发表了一篇研究论文,题目为“北京基因组研究所生命与健康大数据中心:从存储到整合再到转化”。生命与健康大数据中心章张研究员、赵文明高级工程师以及肖景发研究员为本文共同通讯作者。这是我国第一次以数据中心的模式,整体发布我国生命组学数据资源的建设情况,标志着生命与健康大数据中心的建设取得了实质性进展,也标志着我国建设综合性基因组数据资源获得国际同行认可。
北京基因组研究所生命与健康大数据中心(Beijing Institute of Genomics Data Center)简称BIGD,肩负着建成面向国家大数据发展战略的多层次生物组学数据资源系统的重要历史使命。目前的数据资源系统包括:高通量测序的原始组学数据归档库GSA,围绕国家重要战略生物资源的基因组数据库GWH,基于测序数据的基因表达数据库GEN,基于中国人群以及国家重要物种群体的基因组变异数据库GVM,基于全基因组DNA甲基化图谱的表观基因组数据库MethBank,以及基于大众审编的生命科学维基知识库Science Wikis等,初步形成了我国生命与健康数据交会与共享平台,具备可服务于全球的基因组数据共享网络。该研究得到中国科学院战略性先导科技专项、中国科学院国际大科学计划等项目基金的资助。
现在,包括美国国家科学院院刊、细胞研究等核心期刊在内的多个国际核心期刊已经认可把数据提交到BIGD,中国原始组学数据库BIGD成为继国际三大数据中心之后,国际上第四个被认可的数据库。