李金明/赵屹团队合作发表NGS肿瘤突变数据集模拟软件VarBen,助力肿瘤基因检测标准化

发布日期:2021-03-05

  随着个体化医疗的不断发展,高通量测序基因检测已由实验室研究逐步应用于临床。利用高通量测序技术获得患者肿瘤的基因变异信息,并以此对临床肿瘤患者的诊断、靶向治疗及预后判断进行指导在临床发挥着日益重要的作用。高通量测序检测过程包括“实验操作”(又称为“湿实验”)和“生物信息学分析”(又称为“干实验”)两个部分。“生物信息学分析”就是将肿瘤的基因变异的信息从大量的原始测序数据中找出。作为高通量测序基因检测的重要组成部分,肿瘤基因突变的生物信息学分析与“湿实验”一样具有决定性意义。因此,为了保证肿瘤NGS基因突变检测结果的准确性和可靠性,对其中生物信息学分析流程的准确性进行评估至关重要。要想准确的对基因突变检测生物信息学分析流程进行评估,合适的参考数据集(reference datasets)十分关键。

  理想的基因变异生物信息学分析参考数据需要满足以下要求:(1)最大程度的接近临床真实样本测序数据,即该参考数据应该由相应的“湿实验”流程产生且尽可能接近临床中日常检测的样本类型(如FFPE样本,血细胞样本等),能够反映真实测序过程中产生的错误模式;(2)由于人类基因组存在的变异类型众多,理想的参考数据需包含有不同种类的突变,包括单核苷酸变异(SNV)、短片段插入/缺失变异(Indel)、复杂插入-缺失变异(Complex insertion-deletion)、拷贝数变异(CNV)以及大片段结构变异(SV);(3)参考数据的突变结果是已知的,以便于分析性能的评价;(4)适用于不同的测序平台(包括Illumina、华大智造MGISEQ以及Ion torrent测序平台)和不同测序类型(全基因组,全外显子组及靶向panel测序)。然而目前已有的肿瘤突变数据模拟软件均无法完全满足上述要求。

  为了解决这一难题,来自国家卫生健康委临床检验中心、中国科学院计算技术研究所等单位的研究人员开发了肿瘤突变数据模拟软件VarBen,解决了目前现有软件无法对靶向panel测序数据的拷贝数变异、大片段结构变异以及复杂插入-缺失变异等进行模拟的难题,同时该软件支持目前临床上常用的测序平台,包括Illumina、华大智造MGISEQ以及Ion torrent测序平台。该项工作近日以“VarBen: Generating in Silico Reference Data Sets for ClinicalNext-Generation Sequencing Bioinformatics Pipeline Evaluation”为题,发表在国际分子诊断领域权威期刊The Journal of Molecular Diagnostics上。

  据介绍,VarBen采用的是比对到参考基因组特定位点的测序reads进行编辑的方式来进行突变模拟,该方法可保留测序过程“湿实验”部分核酸提取、靶向捕获、文库制备以及测序过程中产生的错误分布模式,从而保证模拟数据更加的接近真实。研究人员根据不同高通量测序平台的原理以及不同种类基因变异的特点,使得VarBen能够对几乎所有的变异类型进行模拟,包括SNVIndelComplex insertion-deletionCNV以及SV。此外,VarBen同时支持全基因组、全外显子组以及靶向panel测序数据的模拟,并且适用于多个测序平台。