问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

一文读懂SV检测软件Manta的结果文件

发布网友 发布时间:2023-06-10 14:02

我来回答

1个回答

热心网友 时间:2024-10-28 12:30

Manta运行完毕后,将在 $ {MANTA_ANALYSIS_PATH}/results/variants 目录下输出一组VCF格式的结果文件。

无论是 diploidSV.vcf.gz , somaticSV.vcf.gz 还是 tumorSV.vcf.gz ,他们描述sv的规则是一致的,只是在记录的信息上略有不同。如,

使用 gzip -d -c *.file.gz > *.file 命令可生成解压缩的VCF文件。

对于大的片段缺失,在VCF中 ALT 一列会有 <DEL> 的标志, ID 中将以 MantaDEL 开头,使用 grep "<DEL>" diploidSV.vcf 命令可以直接将这一类的变异提取出来。 CHROM 和 POS 中记录的是该Deletion在参考基因组上的起始位置, FORMAT 中 END 记录的是Deletion在参考基因组上的终止位置, SVLEN 记录的是缺失片段的长度。
FORMAT 中的 PR 和 SR 记录的是支持REF和ALT基因型的Paired Reads数和Split Reads数。
在 diploidSV.vcf 中还会在 FORMAT 中包含基因型相关的信息,如GT,GQ, PL等(不懂这些概念?请参考: https://software.broadinstitute.org/gatk/documentation/article.php?id=1268 )。

对于大的片段插入,Manta会在 CHROM 和 POS 中记录DN*段的插入位置,并在 ALT 中加入 <INS> 的标志, ID 中将以 MantaINS 开头。这里插入的“DN*段”,个人理解指的是外源的DN*段,即无法比对到参考基因组,或者无法比对到参考基因组唯一位置。因此,Manta只能通过断点附近的reads得到插入片段两端的序列,但无法将整个插入片段的序列组装起来(如果有不同意见,欢迎留言讨论)。 INFO 中的 LEFT_SVINSSEQ 和 RIGHT_SVINSSEQ 给出了插入片段左右两端的序列信息。

Manta中,符合以下几个条件的插入或缺失会被归类于small indels:

虽然这些小的indels的ID也以 MantaDEL 或 MantaINS 开头,但在VCF中的表示方式和前述的DEL和INS不同,Manta将这些变异的完整的插入/缺失序列给在了 REF 或 ALT 中。并且会在INFO中增加 CIGAR 标签,对此类变异进行描述。

Manta没有办法检测散在重复(Dispersed plications),但可以检出串联重复(Tandem Duplicate)。

Manta对于染色体间易位和染色体内易位不做特殊区分, ID 都以 MantaBND 开头,BND即breakend的缩写。在 CHROM 、 POS 中展示第一个断点位置,在 ALT 中展示第二个断点位置,例如: A]10:115172011] 、 [12:70547434[C 。通过比较第一个断点和第二个断点的染色体,可以判断是染色体间易位还是染色体内易位(这里为了描述方便,使用了“第一个断点”、“第二个断点”的描述方式,事实上两个断点并没有顺序之分)。
值得注意的是, ALT 中方括号的方向在判断融合基因中有重要的作用。 ...]...] 指易位序列在第一个断点位置的3'端, [...[... 指易位序列在第一个断点位置的5‘端,如下图。

染色体片段在易位的过程中,可能会平移并连接到另一段染色体上(见下图 variant a),也可能翻转之后再连接到另一段染色体上(见下图 variant b)。具体看上面的两个例子,其中 example1 的两条记录ALT中的方括号方向不一样,它对应的是variant a这种情况; example2 的两条记录中方括号方向一致,对应的是variant b这种情况。

在默认情况下,Manta会用4条BND记录来表述一个倒位事件,并且这四条记录拥有相同的 EVENT 标签。下面是官网上给的例子:

但开发者另外提供了一个脚本 $MANTA_INSTALL_FOLDER/libexec/convertInversion.py 可以将BND记录的Inversion转换成另一种形式(见下),并以 MantaINV 作为 ID 的开头,每条记录表述一个新的连接点的信息,位置信息记录在 CHROM 和 POS 中。一条标准的Inversion应该有两连接点的记录,并且拥有相同的 EVENT 标签。

另外,在Inversion的记录中, INFO 中还提供了 INV3 、 INV5 两个标签,INV3指发生倒位的序列位于此记录报道的连接点的3'端,INV5指发生倒位的序列位于此记录报道的连接点的5'端。在IGV中,INV5标签对应的是"RR" reads,INV3标签对应的是"LL"reads(可参考我的 另一篇笔记 )。
需要注意的是,在实际应用中得到的VCF完成格式转换后,存在很多虽然标注为 Manta:INV ,但只有一条记录情况,因此实际上并不是一个标准的Inversion事件。

不同的SV检测软件都有自己的一套描述规则,有很多细节值得琢磨,以后有新的体会再慢慢补充。
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
...干或者杀人放火伤天害理的事 是不是 说谎对老天爷来也是不应该的事... 海尔BCD-206TD重要参数 海尔冰箱BCD_196TDXZ如何调温 农业银行密码锁定,但父母不在家怎么办? 奥比岛,号被盗,只记得初始密码,密保手机等密报全被改,充值记录也找不到... 拳皇97ol进阶称号获得方法介绍_拳皇97ol进阶称号获得方法是什么 有什么工作是周六日休息节假日的除了厂,列出来,最好初中毕业也能进_百... 广汉市新生代家庭农场怎么样? 想要考心理咨询师证书,合格证书,技能证书,能力证书等又是啥区别? 海盗船K70 RGB MK.2游戏机械键盘这个人体工程学键盘性价比怎么样?_百 ... 江口县有多少家茶叶公司呢 信阳市鸡公山灵山宝峰茶林农民专业合作社怎么样? 求php转swf转换器!!! 简述化学爆炸的分类、特点和危害。 化学爆炸的主要3个特点是什么? 中死汛适合赶海吗 定向选调生招不满时会调剂吗 选调生报考岗位没上可以调剂吗 定向选调生面试落选是否可以调剂后能上岸吗 2012山东选调生报名最好报自己家里的吗?如过报法院系统未被录取能调剂... 山东选调生可以在省内不同的市间调动吗? 普通选调有调剂吗 选调生可以调剂吗? 2020山东选调生可以调剂吗? 我收到了几个关于法律的信息,请大家帮我看看是不是诈骗 安徽江硕法律是真的吗 江硕法律发短信申请延期停息是真的吗 原神中惊艳的神仙句子 鸡尾酒蓝色什么味道? 苹果手机会自动断电吗 宏基4740gATK驱动在哪可以下到呀? 多肉植物叶插发根之后还用浇水吗 仔猪油皮病最佳治疗,是什么原因导致的 密逃的后期,不管是特效还是文字太贴切了吧!这档综艺有什么亮点?_百度... 多肉发根之后要浇水吗 密室大逃脱第四季有剧本吗 财鱼怎么养财鱼的人工繁殖 私人影院有哪些 深圳私人影院有哪些地方 2022武汉哪家私人影院比较好 fresh的玫瑰系列护肤品,适合敏感肌肤吗?我用完脸会一直红,怎么回事啊... 目前流行下载软件的工作原理是什么?能告诉我吗 官网教育优惠和折抵可以一起用吗 买IMAC教育优惠和以旧换新能同时使用吗 返校优惠可以以旧换新吗 肚子上长很多毛;我想知道该怎么办啊 男孩子起名字浩配什么好(给男孩起名,配什么好?) 玻璃吊顶安装的正确姿势 玻璃装运车间常用低压吸盘吊车进行吊运玻璃 运城有哪些比较知名的超市,求名称和公司联系电话。