解码20年,人类基因组计划带来哪些成果?



一项新的分析追溯了自 2001 年以来人类基因组草图对基因组学的影响,以及这些影响如何改变了论文发表、药物审批和对疾病的认知。

在人类基因组计划第一份草图发布的 20 周年 [ 1,2 ] ,这是一个回顾该项目种种的契机:它如何推动人类疾病遗传根源的相关研究、改变了药物发现,以及帮助我们修订对基因这一概念本身的认识。

解码20年,人类基因组计划带来哪些成果?

Credit: SciePro / Science Photo Library

本文中,我们将这些影响和趋势进行了提炼,结合了一些数据集来量化已发现和发表的不同类型的遗传因子,以及这些年来基因发现和论文发表模式的改变。我们的分析涵盖了 38546 个 RNA 转录本,大约 100 万个单核苷酸多态性位点(SNP),1660 种有报道遗传起源的人类疾病,7712 种已批准的和实验性的药品,以及在 1900 年至 2017 年间共发表的 704515 篇科学论文(见附件)。

这些结果强调了人类基因组计划(下称 HGP)及其全面的蛋白质编码基因目录是如何开启了阐明基因组非编码部分功能的新时代,并为治疗方法的建立铺平了道路。重要的是,随着研究者绘制了细胞构件的相互作用,在传统单基因视角外,这项结果跟进了系统层次上生物学视角的出现(参见 " 研究团队规模并非突然增大 ")。

我们的分析存在局限性。例如,关于基因的起始和结束位置,甚至编码某些基因的确切序列并无定论 [ 3 ] 。一些基因组元件使用多种命名,我们的方法可能未能将其中一些联系起来。此外,作者可能没有将论文和这些基因元件之间的联系添加到数据库中。最后,我们的图表截至 2017 年,因为一篇文章从发表到被纳入我们用的数据库之间可能存在时间滞后。

视频由 Alice Grishchenko 进行可视化,Alexander J. Gates, Deisy Morselli Gysi, Csaba Both, Manolis Kellis 和 Albert-László Barabási 进行了研究工作。

不过我们不认为这些问题会影响在此提到的趋势,即基因组研究随时间发生的变化。当控制同时期生物学论文数的增长时,这种趋势仍然存在(参见附图 6)。我们没有控制自基因发现以来的时间这一变量,但估计这不会改变我们的结论。

这些关联,让我们看到了 HGP 前后研究领域变化的缩影。研究开始集中关注少数 " 超级巨星 " 蛋白编码基因,这也许有损于那些原本可以在其他基因上进行的有趣工作。基因组的非蛋白质编码部分,以及理解遗传物质和蛋白质之间的相互作用,开始成为研究重点。而药物发现也仅限于少数蛋白靶点。

生物学家很熟悉其中某些趋势,但对其进行量化和可视化,则是一种新思考。

由于不存在一个没有 HGP 的世界作为对照,因此,我们不能确定这些趋势是否无论如何都会发生。这些进展中也有其他因素的作用,从增强的计算能力到复杂的测序方法。不管怎么说,HGP 还是明显促进了持续的基因革命

解码20年,人类基因组计划带来哪些成果?

Source: Barabási Lab

超级巨星基因

人们普遍认为 HGP 是深入研究蛋白质编码基因的开始。事实上,2001 年的 HGP 草图,标志着对基因的数十年搜寻告一段落 [ 1,2 ] 。其实首个蛋白质编码基因的证据出现于 1902 年,当时发现了激素促胰液素(SCT 基因) [ 4 ] ,这是 DNA 结构被发现的 50 年前,基因组测序普及的 75 年前。我们的分析表明,从 1990 年 HGP 开始,到 2003 年完成(2001 年草图发表后),发现(或注释)的人类基因数量急剧增长。到 21 世纪 00 年代中期,蛋白质编码基因的数量忽然趋于平稳,约在 2 万个左右(参见 " 垃圾、明星和药物的 20 年:非编码元件 "),远远低于科学界许多人此前所估计的 10 万个左右 [ 2 ] 。

虽然蛋白质编码基因的发现到达了平台期,但人们对单个基因的兴趣在 HGP 之后迅速增长。自 2001 年以来,每年都有 1 万到 2 万篇与蛋白质编码基因有关的论文发表(参见附图 3)。

然而,这种兴趣主要集中在少数几个基因上。在 1990 年之前,HBA1 是研究最多的,因为它编码成人血红蛋白中的一种蛋白质。从 1990 年开始,人们的注意力转向了 CD4(根据发表的出版物的累积数量判断),因为这种蛋白参与 T 细胞免疫并作为 HIV 的细胞受体。然而,与 2001 年 HGP 草图发布之后对单个基因的关注激增相比,对这两个基因的关注则显得微不足道。针对一些超级明星基因,包括 TP53、TNF 和 EGFR,每年都有数百篇文章发表,而其他大多数基因却很少受到关注(参见 " 深度影响 " 和 " 垃圾、明星和药物的 20 年:明星基因 ")。我们发现,截至 2017 年,22% 的基因相关论文只关注了 1% 的基因。

解码20年,人类基因组计划带来哪些成果?

Source: Barabási Lab




上一篇:BRCA1/2基因检测行业前景广阔 现阶段市场规模较小
下一篇:宏碁掠夺者Talos雷霆战甲评测:高端游戏玩家首选