发布网友 发布时间:2023-03-14 19:16
共1个回答
热心网友 时间:2023-10-23 22:47
第一,低质量和无信息的SNP会影响后续群体结构或GWAS的分析结果,甚至影响后续对生物学问题的解释;第二,群体研究时,由于测序的个体较多检测出来的变异位点经常会数以千万计,进一步过滤会减少后续分析时,对计算资源的需求。
这两个参数并非通用,为什么要考虑它们见图片中的描述
10bp范围内有3个以上的SNP,去除掉
去除indel附近5bp范围内的SNP
除了考虑位点的质量之外,还要考虑每个个体在这个位点上的基因型,只保留基因型上GQ值大于20,大于5条reads覆盖的基因型,否则设为miss即 ./.
MAF是次要等位基因频率。它是指群体中第二多的等位基因频率假设某一位点,检测到了A,T和C三种碱基,A出现20次,T出现10次,C出现5次,则第二多的T的等位基因频率为10/35
下图所示的是不同SNP之间AF的差异。总共有324个二倍体个体,共648个位点,有些变异碱基只出现了1次或2次。
假如缺失比例为0.05,总共100个个体的情况下,则该SNP在100*0.05=5个个体中丢失。
为什么一般只保留bi-allelic SNP,要去除multi-allelic SNP?
bi-allelic位点是指基因组的某个位置上有两个allele,其中参考基因组在该位点上的碱基算作一个allele,样本在该位置上的变异算作一个allele。所以bi-allelic 位点即该位点只有一种变异。例如下图所示的位点7只有一种变异,样本1-3的deletion。
而下图所示的位点7则是一个multi-allelic位点,有参考基因组的G和样本2的C和样本3的T两种SNP。
在将样本的reads比对到参考基因组上后,比对到某个SNP的reads数量越多,则该SNP的Q值越大即越可信。
进行群体遗传结构分析时,如果位点之间有强连锁的关系则会影响分析的结果,因此需要过滤掉互相之间连锁不平衡的SNP。