美国对外开放世界最大人类基因数据库
美国国立卫生研究院29日宣布,他们将免费对外开放世界上最大人类基因数据库。
这些数据总量达到200TB,是世界上最大的人类基因变异数据集。亚马逊旗下的云计算公司——“亚马逊网络服务”将存储这个庞大的数据库。
千人基因组计划旨在为基因变异如何影响健康以及与疾病间关系的研究奠定基础。所有数据免费对外开放意味着更多科学家可以利用这些数据进行研究,以更快的速度得出基因型与癌症、糖尿病等疾病间关系的发现。这项计划于2008年启动,立基于全世界26个国家和地区的2600多人的基因组。其中1700人的DNA排序结果将在不久后公布并进行云存储,余下900人的DNA将在2012年进行排序。
国立卫生研究院的千人基因组计划是一项规模更大的举措组成部分,用于管理科学研究产生的海量数据——数据管理本身就是一门科学。由于类似千人基因组计划这样的数据集规模庞大,很少有研究人员具备处理能力,因此也就无法使用。根据国立卫生研究院的计算,千人基因组计划的数据如果打印出来,可放满1600万个档案柜;如果使用标准DVD存储,需要3万多张DVD。
对于科学家和他们所在的研究机构来说,千人基因组计划数据进行云存储无疑是一个好消息,他们无需拥有更大带宽,数据存储和分析处理能力便可获取这些数据。亚马逊网络服务公司首席产品经理德帕克·辛格表示:“这意味着所有研究人员和实验室都可以获取完整的千人基因组计划数据,无论它们规模大小和预算多少。他们可以立即对这些数据进行分析,而无需在这方面投入资源。通常情况下,他们需要大量硬件、设施和人员才能获取这些数据。由于无需投入资源便可获得研究所需数据,科学家可以加快研究步伐。”
对于亚马逊网络服务公司来说,存储千人基因组计划的数据可能也是一个好消息。美国《纽约时报》报道称,处理如此海量数据需要极大的运算能力,亚马逊网络服务公司可以要求获得额外的资源,用于进一步处理或者分析这些数据。
白宫认为云存储千人基因组计划数据是他们的“大数据研究和发展倡议”所提出的解决方案的一个典范。美国科学和技术政策办公室29日宣布,将有2亿多美元投向6个联邦机构,用于推动大数据计算领域的研究——包括大数据分析——以及大数据在科学探索、环境和生物医学研究、教育以及国家安全领域的应用。