研究人员利用人工智能技术证明,所谓的“垃圾”DNA突变可导致自闭症。该研究于5月27日在Nature Genetics上发表,是第一个将此类突变与神经发育状况联系起来的研究。

DNA图 来源:©adimas / Adobe Stock
该研究由Olga Troyanskaya与Robert Darnell合作领导。Troyanskaya是纽约市Flatiron研究所计算生物学中心(CCB)的基因组学副主任,也是普林斯顿大学的计算机科学教授。Darnell是洛克菲勒大学的Robert和Harriet Heilbrunn癌症生物学教授,也是Howard Hughes医学研究所的研究员。
他们的团队使用机器学习来分析1,790名自闭症患者及其未受影响的父母和兄弟姐妹的全基因组。这些人没有自闭症的家族史,这意味着他们病情的遗传原因可能是自发突变而不是遗传突变。
该分析预测了基因组部分中不编码蛋白质的遗传突变的分枝,这些区域经常被误认为是“垃圾”DNA。与非编码突变相关的自闭症病例的数量与禁用基因功能的蛋白质编码突变相关的病例数相当。
只有1%到2%的人类基因组由编码制造蛋白质蓝图的基因组成。这些蛋白质在我们的身体中执行任务,例如调节血糖水平,对抗感染和在细胞之间发送通信。然而,我们基因组的另外98%不是基因死重。非编码区有助于调节基因何时何地产生蛋白质。
在没有自闭症家族史的个体中,蛋白质编码区域的突变占自闭症病例的最多30%。证据表明,引起自闭症的突变也必须发生在基因组的其他地方。
揭示哪些非编码突变可能导致自闭症是棘手的。单个个体可能具有数十个非编码突变,其中大多数是个体独有的。这使得识别受影响人群中常见突变的传统方法无法实现。
Troyanskaya和她的同事采取了新的方法。他们训练机器学习模型来预测给定串行如何影响基因表达。
研究人员通过将机器学习模型应用于称为Simons Simplex Collection的遗传数据宝库来研究自闭症的遗传基础。Flatiron Institute的母公司Simons Foundation制作并维护了存储库。Simons Simplex Collection包含由自闭症儿童,未受影响的兄弟姐妹及其未受影响的父母组成的近2,000个“四重奏”的全基因组。
这些四人组既往没有自闭症的家族史,这意味着非遗传性突变可能是受影响儿童病情的原因。(这种突变在精子和卵细胞以及胚胎中自发发生。)
研究人员使用他们的模型预测每个自闭症儿童的非遗传性非编码突变的影响。然后,他们将这些预测与孩子未受影响的兄弟姐妹中相同的,未突变的链的影响进行了比较。
分析显示,许多自闭症儿童的非编码突变改变了基因调控。此外,结果表明突变影响了大脑中的基因表达和已经与自闭症相关的基因,例如那些负责神经元迁移和发育的基因。“这与自闭症最有可能在大脑中的表现形成一致,”该研究的共同作者,CCB研究科学家Christopher Park说。“这不仅仅是突变发生的数量,而是发生了什么样的突变。”
研究人员在实验室实验中测试了一些非编码突变的影响。他们将自闭症儿童中发现的预测高影响突变插入到细胞中,并观察到基因表达的变化。这些变化肯定了模型的预测。
评论 (0)