把人类基因组的初稿想象成一本书。这本书在世纪之交才刚刚发表,却为变革性治疗铺平了道路。基因编辑和基因疗法现在可以用来对抗以前无法治愈的疾病。比较我们与进化过程中最亲近表亲中的A、T、C、G基因字母,可以揭开我们进化和智力的根源。
但是“我们”指的是什么,或者是谁?
由于技术限制,目前的参考基因组是由少数人(主要是欧洲人和非洲人后裔)的测序DNA片段组装而成的。尽管这本“人类之书”在寻找遗传疾病方面是无价的,但它很难概括全球人类的遗传多样性。
发表在《自然》(Nature)上的一项新研究迈出了扩大研究范围的第一步。在大约十年的时间里,这项研究捕获了来自亚洲、非洲、美洲和欧洲的47个人的基因组。这项艰巨的工作总共对94个基因组进行了测序,每个人对应一组染色体。
这一研究的结果形成了人类“泛基因组”的初稿——来自单个个体的基因数据的集合汇编成了一个参考系统。这一新的数据结构更像是一间图书馆,而不是一本书,捕捉了世界各地人类丰富的遗传历史。
“这就像从黑白电视到1080p电视。”加州大学圣迭戈分校的基卢 · 福克斯(Keolu Fox)博士说。他本人没有参与这项研究。
这项研究是人类泛基因组参考联盟(Human Pangenome Reference Consortium,HPRC)的一部分。这是一个雄心勃勃的国际项目,于2019年启动,旨在将人类这个物种的多样性纳入一个全面的参考系统。创建不同的参考系统并不仅仅是出于学术追求,而是为了帮助科学家在不分祖先的情况下深入研究疾病的遗传联系。
墨西哥国立自治大学的迈沙阿尔 · 苏海尔(Mashaal Sohail)博士没有参与这项研究,他说:“这是一个非凡的进步……它使人类基因变异的图景更准确、更完整。”
人类基因蓝图的探索
人类基因组的初稿是一个来之不易的成就,但由于遗漏了8%的细节,它存在偏差。
在基因研究中,科学家经常将患者的基因组同参考基因组作对比,以寻找致病的DNA变异。但是,与使用字典检查拼写错误类似,如果字典不完整,或者只包含一个单词的拼写版本(例如,“幽默”这个单词的美国拼法为“humor”,而英国拼法为“humour”),这个过程就会受到影响。
如果没有完整多样的DNA图谱,尤其当涉及多个基因时,或者当答案隐藏在特定人群特有的复杂DNA结构中时,就很难破译与罕见疾病相关的基因。
然后是诊断和治疗的问题。例如,癌症预测因子可能对亚洲和非洲血统的人不起作用,因为开发时主要参考使用了欧洲基因组。
科学家很清楚这些问题,几十年来一直在给初稿添加内容。此前最新的GRCh38版本于2017年发布。虽然包含了20个人的DNA,但该数据库实际上主要来自一个志愿者(贡献超过70%)。去年,另一个研究小组发布了一张几乎捕捉到人类基因组全貌的地图——但只来自一个人。
作者说,尽管这是一个“重大成就,但来自个体的基因组并不能代表我们这个物种的遗传多样性”。
基因地铁地图
这项新研究是扩大研究范围的第一步。研究小组收集了除南极洲外各大洲共47个个体及其父母的DNA序列。因为每个人都有两组染色体,他们总共对94个基因组进行了测序。
由于技术上的限制,科学家长期以来一直在用一种生物学上复制编辑的方法来更新GRCh3的参考基因组:修复小错误,填补空白,或者增加新的变体。大部分新数据并非来自参考基因组的个体,而是来自其他人的短DNA序列。由于这些序列的长度很短,很难将数据正确地放入参考基因组中。
该团队写道,由于这些问题,在传统的全基因组测序研究中,我们可能错过了70% 以上的结构变异。
然而,由于过去十年中创新基因工具的爆炸式增长,现在有可能从个体中获取更长的DNA. 这就好比同样一块拼图原来分成1 000块,现在分成了100块,更长的读数使得将这些碎片准确地组装成一个完整的基因组序列变得容易得多。总的来说,这项新研究为GRCh38现有的32亿个碱基对(DNA的基本单位)增加了1.19亿个碱基对。
下一步是将庞大的数据集整理成可破译的地图集。
在这里,该团队使用了一种聪明的图示方法,类似具有多个分支的地铁地图。共享的基因序列汇聚成一条线。在特定的“停止点”(各个基因序列有所不同),它们分叉成不同的线。其中一些可能最终重新汇聚成另一条共享序列的联合线。总的来说,这张图让我们相对容易地梳理出多个人共有的DNA区域,并捕获每个人独有的DNA区域。
最终的结果是人类泛基因组的初步草图。
多样性中的发现
在概念验证中,泛基因组通过两项研究证明了它的价值。这些研究集中在以前难以探索的遗传区域。这些遗传物质块被称为重复DNA区域,就像拼图中令人沮丧的相似区域,很难精确地将它们放入更大的基因组集合中。
然而,这些区域也可能掌握着生殖细胞工程和人类物种进化的关键。它们在帮助发育健康精子和卵子的过程中起着至关重要的作用,但以前很难对它们进行研究。一项研究利用泛基因组发现,这些基因片段在个体之间的复制和排列顺序方面存在巨大差异。
“看到片段复制的准确特征是令人兴奋的,因为重复的序列可以促进基因新功能的进化。”爱尔兰国立高威大学的布雷恩 · 麦克斯泰(Brain McStay)博士和冰岛雷克雅未克解码基因公司的哈康 · 琼森(Hákon Jónsson)这样说。他们没有参与这项研究。
泛基因组还可能揭示GRCh38参考系统中没法反映的基因组“暗物质”。通过捕捉更加多样化的基因景观,我们或许能够发现导致疾病的罕见但重要的突变。
这些研究只是尝试性研究。泛基因组对科学家而言就是一种资源,可供他们在自己的研究中使用。
这份“地图”还只是初稿。该团队已经在寻求扩大数据库,目标是到明年达到350人。该联盟还积极将其合作拓展到代表性不足的其他地区,例如纳入中东部分地区的人,以及属于边缘群体的人。
西奈山伊坎医学院的研究作者艾米尔 · 肯尼(Eimear Kenny)博士表示,随着项目的推进,透明度、隐私和道德是关键。
她说:“我们认识到,这项工作处于基因组研究的前沿,具有特定的特点,包括数据的开放获取,(这些细节)值得仔细考虑,这些应用可能会引发道德、法律和社会问题。”
资料来源 Singularity Hub
——————
本文作者范雪莱(Shelly Fan)是一名神经科学家出身的科学作家。她的第一本书是2019年出版的《人工智能会取代我们吗?》(Will AI Replace Us?)