一文读懂SV检测软件Manta的结果文件
发布网友
发布时间:2023-06-10 14:02
我来回答
共1个回答
热心网友
时间:2024-10-28 12:30
Manta运行完毕后,将在 $ {MANTA_ANALYSIS_PATH}/results/variants 目录下输出一组VCF格式的结果文件。
无论是 diploidSV.vcf.gz , somaticSV.vcf.gz 还是 tumorSV.vcf.gz ,他们描述sv的规则是一致的,只是在记录的信息上略有不同。如,
使用 gzip -d -c *.file.gz > *.file 命令可生成解压缩的VCF文件。
对于大的片段缺失,在VCF中 ALT 一列会有 <DEL> 的标志, ID 中将以 MantaDEL 开头,使用 grep "<DEL>" diploidSV.vcf 命令可以直接将这一类的变异提取出来。 CHROM 和 POS 中记录的是该Deletion在参考基因组上的起始位置, FORMAT 中 END 记录的是Deletion在参考基因组上的终止位置, SVLEN 记录的是缺失片段的长度。
FORMAT 中的 PR 和 SR 记录的是支持REF和ALT基因型的Paired Reads数和Split Reads数。
在 diploidSV.vcf 中还会在 FORMAT 中包含基因型相关的信息,如GT,GQ, PL等(不懂这些概念?请参考: https://software.broadinstitute.org/gatk/documentation/article.php?id=1268 )。
对于大的片段插入,Manta会在 CHROM 和 POS 中记录DN*段的插入位置,并在 ALT 中加入 <INS> 的标志, ID 中将以 MantaINS 开头。这里插入的“DN*段”,个人理解指的是外源的DN*段,即无法比对到参考基因组,或者无法比对到参考基因组唯一位置。因此,Manta只能通过断点附近的reads得到插入片段两端的序列,但无法将整个插入片段的序列组装起来(如果有不同意见,欢迎留言讨论)。 INFO 中的 LEFT_SVINSSEQ 和 RIGHT_SVINSSEQ 给出了插入片段左右两端的序列信息。
Manta中,符合以下几个条件的插入或缺失会被归类于small indels:
虽然这些小的indels的ID也以 MantaDEL 或 MantaINS 开头,但在VCF中的表示方式和前述的DEL和INS不同,Manta将这些变异的完整的插入/缺失序列给在了 REF 或 ALT 中。并且会在INFO中增加 CIGAR 标签,对此类变异进行描述。
Manta没有办法检测散在重复(Dispersed plications),但可以检出串联重复(Tandem Duplicate)。
Manta对于染色体间易位和染色体内易位不做特殊区分, ID 都以 MantaBND 开头,BND即breakend的缩写。在 CHROM 、 POS 中展示第一个断点位置,在 ALT 中展示第二个断点位置,例如: A]10:115172011] 、 [12:70547434[C 。通过比较第一个断点和第二个断点的染色体,可以判断是染色体间易位还是染色体内易位(这里为了描述方便,使用了“第一个断点”、“第二个断点”的描述方式,事实上两个断点并没有顺序之分)。
值得注意的是, ALT 中方括号的方向在判断融合基因中有重要的作用。 ...]...] 指易位序列在第一个断点位置的3'端, [...[... 指易位序列在第一个断点位置的5‘端,如下图。
染色体片段在易位的过程中,可能会平移并连接到另一段染色体上(见下图 variant a),也可能翻转之后再连接到另一段染色体上(见下图 variant b)。具体看上面的两个例子,其中 example1 的两条记录ALT中的方括号方向不一样,它对应的是variant a这种情况; example2 的两条记录中方括号方向一致,对应的是variant b这种情况。
在默认情况下,Manta会用4条BND记录来表述一个倒位事件,并且这四条记录拥有相同的 EVENT 标签。下面是官网上给的例子:
但开发者另外提供了一个脚本 $MANTA_INSTALL_FOLDER/libexec/convertInversion.py 可以将BND记录的Inversion转换成另一种形式(见下),并以 MantaINV 作为 ID 的开头,每条记录表述一个新的连接点的信息,位置信息记录在 CHROM 和 POS 中。一条标准的Inversion应该有两连接点的记录,并且拥有相同的 EVENT 标签。
另外,在Inversion的记录中, INFO 中还提供了 INV3 、 INV5 两个标签,INV3指发生倒位的序列位于此记录报道的连接点的3'端,INV5指发生倒位的序列位于此记录报道的连接点的5'端。在IGV中,INV5标签对应的是"RR" reads,INV3标签对应的是"LL"reads(可参考我的 另一篇笔记 )。
需要注意的是,在实际应用中得到的VCF完成格式转换后,存在很多虽然标注为 Manta:INV ,但只有一条记录情况,因此实际上并不是一个标准的Inversion事件。
不同的SV检测软件都有自己的一套描述规则,有很多细节值得琢磨,以后有新的体会再慢慢补充。