纳米孔测序预测甲基化修饰水平

发布日期:2021-02-03

  纳米孔测序技术作为新兴的第三代测序技术在今年的新冠病毒测序表现出优异的成绩。早在2019年费城儿童医学院王凯教授团队和北京希望组公司团队就在Nature子刊上发表了关于Nanopore识别表观修饰甲基化的研究论文,下面我们就一起来回顾一下。

  在没有训练集的情况下,nanopore可以通过比较相同已知序列中的甲基化DNA的原始电信号和未甲基化的DNA信号。

  团队发明了一个机器学习工具DeepMod,输入是参考基因组、长读段电信号和Nanopore测序产生的事件信息。输出的是感兴趣的坐标的修饰信息和长读段reads的感兴趣的碱基的修饰预测信息。修饰预测模型是RNN-LSTM算法,将信号平均值,标准差和信号数量以及碱基信息作为输入,通过瞄定比对读段,预测感兴趣的结果位置并最终输出到BED文件中,展示了位点的reads覆盖度和多少reads包含感兴趣位置的预测修饰。

  主要的工作流程:从FAST5文件中提取序列碱基,比对到参考基因组。第二步,获得时间的原始信号和时间的比对参考碱基类型,并作为了LSTM-RNN的输入来预测是否中心事件w是来自修饰碱基。继而可以产生甲基化的reads覆盖度。第二个神经网络通过整合甲基化高关联的5mC和附近的CpG位点来预测修饰,第二个神经网络模型输入为参考坐标的预测甲基化比例和它临近位置的甲基化比例,产生一个感兴趣位置的新的甲基化比例。


  最终的结果如下:

  研究者利用建立好的模型对大肠杆菌和人NA12878数据集的5mC修饰进行预测,检测平均精度高达99%,达到全基因组单碱基分辨率。接着,NA12878的1-10号染色体被用于训练模型,利用该模型对人HX1和大肠杆菌数据集进行预测,同样展示出精确的5mC预测结果,表明基于某一物种进行训练的DeepMod具有跨物种表观修饰检测能力。最后,利用大肠杆菌和莱茵衣藻数据集对6mA模型进行评估,表现出将近90%的预测精度和跨物种预测能力。