新型电脑程序可以读取任何基因组序列并破译其遗传密码
2021-11-15
来源:光电资讯
舒尔金娜与哈佛大学生物学家Sean Eddy在《eLife》杂志的一篇新论文中描述了一种全新电脑程序,可以读取任何基因组序列并破译其遗传密码。这个名为Codetta的程序有可能帮助科学家扩大对遗传密码如何演变的理解,并正确解释新测序生物体的遗传密码。
遗传密码是一套规则,告诉细胞如何将核苷酸的三个字母组合解释为蛋白质,通常被称为生命的组成部分。几乎每个生物体,从大肠杆菌到人类,都使用相同的遗传密码。这就是为什么该代码曾经被认为是一成不变的。但是科学家们已经发现了少数离群索居的生物体,即使用替代性遗传密码的生物体存在着一套不同的指令。
这就是Codetta可以大显身手的地方。该程序可以帮助识别更多使用这些替代性遗传密码的生物体,帮助揭示遗传密码甚至发生变化的新线索。目前,Codetta已经分析了超过25万个细菌和其他被称为古细菌的单细胞生物基因组序列,以寻找替代的遗传密码,并且已经发现了五种从未见过的情况。在所有五个案例中,氨基酸精氨酸的代码被重新分配到一个不同的氨基酸上。据信这标志着科学家首次在细菌中看到这种交换,并可能暗示改变遗传密码的进化力量。
研究人员说,这项研究标志着对替代遗传密码的大筛选。Codetta基本上分析了所有可获得的细菌和古细菌的基因组。该程序的名称是密码子和罗塞塔石碑之间的交叉,罗塞塔石碑是一块刻有三种语言的石板,密码子是由三个核苷酸组成的,构成了遗传密码的一部分。
舒尔金娜在过去五年中发展了Codetta背后的统计理论,编写程序,测试它,然后分析基因组。它的工作原理是读取生物体的基因组,然后利用已知的蛋白质数据库来产生一个可能的遗传密码。它与其他类似方法不同,因为它可以分析基因组的规模。舒尔金娜在2016年加入了艾迪的实验室,该实验室专门从事基因组的比较,在她设计的解读遗传密码的算法上向他寻求建议。
到目前为止,还没有人对替代性遗传密码做如此广泛的调查。该系统有可能被用来确保存放蛋白质序列许多数据库的准确性。研究人员说,这项工作的下一步是利用Codetta搜索病毒、真核生物以及线粒体和叶绿体等有机体基因组中的替代编码。