我们身体里的每一个细胞都读取着一本同样的书——相同的基因组,亦即被编译成DNA密码、用以制造蛋白质的指令集。但是,我们体内不同细胞的功能却非常不同。神经元传送电信号,肝细胞分解化学物质,肌肉细胞让身体动起来。这些细胞采用了相同的基础基因指令,却执行着各种不同的特殊功能,为什么?答案就隐藏在支配蛋白质生产的这套复杂的多层系统里。
[caption id="attachment_5293" align="aligncenter" width="615"]

每份食谱都有烹饪指南和配料介绍。人类基因组也是如此。指南出了问题,就会有患病的风险。[/caption]
到目前为止,所有的基因研究都专注于基因组的那百分之一,也就是为蛋白质指定遗传密码的部分。但是,一项发表在《科学》杂志上的新研究却首次绘制出了负责蛋白质制造过程的那部分基因组图谱。多伦多大学的计算机生物学家Brendan Frey领导了这项新研究,他说,「有书看是一回事,但最大的问题是怎么读这本书。」
Frey将基因组比喻成烹饪食谱。所有的食谱都既包括配料清单,比如面粉、鸡蛋和奶油,也有做法指导。在细胞里,配料就是为蛋白质指定遗传密码的那部分基因组;围绕它们的是基因组指令,告诉它们如何使用这些配料。
面粉、鸡蛋和奶油能做出几百种不同的烘焙食物,同样,基因成份也有很多种组合方式。这一过程就是可变剪接(alternative splicing),也是细胞从单一基因代码创造出如此多的细胞种类的过程。Frey和他的同事使用了一种成熟的机器学习模型(form)来识别这套指令集中的突变,预测这种突变可能造成的影响。
[caption id="attachment_5294" align="aligncenter" width="615"]

Olena Shmahalo/Quanta Magazine[/caption]
研究人员已经识别出可能引发自闭症的风险基因,目前正在研发一种系统,用以预测与癌症有关的基因突变是否有害。MIT计算机生物学家Chris Burge(没有参加这项研究)认为,「论文为基因科学家们提供了识别利害相关变异(variants of interest)的工具,希望能对人类基因领域的研究有重大影响。」
但是,这项研究的真正重要性可能在于这些新工具,它们能探测到庞大的DNA片段,到目前为止,我们还很难解释这些片段。许多基因研究只对产生蛋白质的小部分基因组进行了排序。休斯顿贝勒医学院的生物学家Tom Cooper 说,「这也论证了对整个基因组进行测序的重要性。」
阅读食谱
剪接代码仅是非编码基因组的一部分,虽不生产蛋白质却非常重要。大约90%的基因会进行可变剪接,科学家估计所有与疾病相关突变中,剪接代码变异占了10-50%。Frey说,「管理代码发生突变,健康就会有大问题。」
耶鲁大学的生物信息学家Mark Gerstein(未参与这项研究)说,「过去,人们之所以专注蛋白质编码部分的突变,某种程度上是因为他们能更好地处理这些突变所为。随着对蛋白质编码区域之外DNA序列理解的加深,我们也会更好地认识到它们对疾病治疗的重要性。」
科学家们已经开始理解细胞如何选择某种特定蛋白质组合,但是支配这一过程的许多代码仍是个谜。2010年,Frey团队发表过一篇论文,他们识别出了老鼠基因组内一个支配剪接的粗糙代码(a rough code)。过去四年,基因数据,特别是人类数据的质量显著提高,机器学习技术日益成熟,为Frey及其合作者的这项研究提供了可能:人类基因组中,许多点上的特定突变如何影响到可变剪接。MIT计算机生物学家Manolis Kellis(未参与这项研究)说,「最终,全基因组数据库让这种预测成为可能。」