sam格式的简单了解

发布网友发布时间：2022-09-24 02:35

共1个回答

热心网友时间：2023-09-11 04:26

部分转自生信菜鸟团公众号

SAM的全称是sequence alignment/map format。而BAM就是SAM的二进制文件(B源自binary)。
SAM 格式主要包括两大部分:
1.标头注释部分（header section）
2.比对结果部分（alignment section）

SAM格式是用来来支持高通量测序数据分析：

(1):快速查找与坐标重叠的比对。例如，选择与染色体2上的坐标323,567,334重叠的比对。

(2):根据read的属性进行选择和过滤。例如，我们希望能够快速选择能过比对到反向链上的read。

(3):有效地存储数据。例如，从SAM格式转化成BAM格式，单个压缩文件包含所有样本的数据，每个样本都以某种方式标记。

标头注释部分
标头信息可有可无，都是以@开头，用不同的tag表示不同的信息

比对结果部分
每一列表示一个read的比对信息，包括11个必须的字段和一个可选字段，字段之间用tag分割。必须的字段有11个，顺序固定。这11个字段包括：

第一列: Query Name (QNAME)：
这一列代表着比对片段的（template）的编号

第二列：FLAG：
这是一种常用且高效的保存多个布尔特征值的方法。

举个简单的例子: 在 SAM 格式中，当 flag 为 1，也即对应的二进制为 01 时，表示该 read 有多个测序数据，一般理解为有双端测序数据 (另一条没被过滤掉)，而 flag 为 2，也即二进制 10 时，表示这条 read 的多个片断都有比对结果，通常理解为双端 reads 都比对上了，那么就可以推断出 flag 为 3 时，也即二进制的 11，表示该 read 有另一端的 read 并且比对成功，可以看到，其实就是 01 加 10。
一般flag值不需要自己去算，直接将flag值导入网站即可
http://broadinstitute.github.io/picard/explain-flags.html

所有flag对应值的含义
1 ：代表这个序列采用的是PE双端测序

2：代表这个序列和参考序列完全匹配，没有插入缺失

4：代表这个序列没有mapping到参考序列上

8：代表这个序列的另一端序列没有比对到参考序列上，比如这条序列是R1,它对应的R2端序列没有比对到参考序列上

16：代表这个序列比对到参考序列的负链上

32 ：代表这个序列对应的另一端序列比对到参考序列的负链上

64 ：代表这个序列是R1端序列， read1;

128 : 代表这个序列是R2端序列，read2；

256：代表这个序列不是主要的比对，一条序列可能比对到参考序列的多个位置，只有一个是首要的比对位置，其他都是次要的

512：代表这个序列在QC时失败了，被过滤不掉了（# 这个标签不常用）

1024: 代表这个序列是PCR重复序列（#这个标签不常用）

2048: 代表这个序列是补充的比对（#这个标签具体什么意思，没搞清楚，但是不常用）

第三列： Reference Name (RNAME)：
reference sequence name，实际上就是比对到参考序列上的染色体号。若是无法比对，则是*

第四列： Position (POS)：
比对上的位置，注意是从1开始计数，没有比对上，此处为0

第五列：Mapping Quality (MAPQ)：
比对的质量；比对的质量分数，越高说明该read比对到参考基因组上的位置越准确

第六列：Compact Idiosyncratic Gapped Alignment Representation (CIGAR)
CIGAR 代表着简要比对信息表达式，其以参考序列为基础，使用数字加字母表示比对结果
例如 3S6M1P1I4M
前三个碱基被剪切去除了，然后6个比对上了，然后打开了一个缺口，有一个碱基插入，最后是4个比对上了。

这里的总长度对应的就是测出来的一条序列的长度，如果是PE100，这里加起来就应该是100，如果是PE150，这里加起来就是150，这里的长度和第10列的长度是一致的

第七列：RNEXT：
双端测序中下一个reads比对的参考系列的名称。“＊”是完全没有比对上，“＝”代表完全比对

第3和第7列，可以用来判断某条reads是否比对成功到了基因组的染色体，左右两条reads是否比对到同一条染色体

第八列：PNEXT：
如果是双端测序，是指另一端匹配到参考基因组的位置，如果设置为0，那么该列不可用

第九列：TLEN Template的长度
最左边得为正，最右边的为负，中间的不用定义正负，不分区段（single-segment)的比对上，或者不可用时，此处为0

区别于第6列和第10列是对应测出来的序列的长度。这里第9列的长度是对应插入片段的长度，insert size，也就是建库时，将DN*段打断成的长度。

第十列：Sequence：
序列片段的序列信息，如果不存储此类信息，此处为’*‘，注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度；就是read的碱基序列，如果是比对到互补链上则是reverse completed。
就是测序的reads序列信息

第十一列：ASCII：
read质量值

其实很容易发现，如果将第1，10，11列提取出来的话，就能还原成我们常见的fastq格式信息。

第十二列：Optional fields：
可选的区域
格式如：TAG:TYPE:VALUE，其中TAG有两个大写字母组成，每个TAG代表一类信息，每一行一个TAG只能出现一次，TYPE表示TAG对应值的类型，可以是字符串、整数、字节、数组等。

备注：
看一下KPGP-00001这个韩国人的测序reads比对到hg38的其中一个lane的sam格式部分信息：

可以看出这个是用的PE90测序，测序read长度为90bp，建库打断成约490bp，这个read名称是B80KJTABXX:4:1:1404:2065#CTAGTTAT，flag值是163，代表着

reads是比对到7号染色体，比对的位置是50962731，比对的质量值是60，"90M"意味着90个碱基都match（当然可能是mismatch），“=”意味着双端测序的另一条read也比对上，并且是比对到同一个片段，另一条read比对的位置是
50963137 ，这条read的序列信息是“AGAAAATTATTTAAATGACCCGAGCCTCACCTTCAACATGAGGAACATCAT
ATTCCCTTTGATAAAATGTTGCTGGTGTAAGTGCTCCAT ”
对应质量值分ASCII值为“gggfgfggeggdgggadegggdegegeeggeegedggegggeggegedgggedgggfggeceeggaedgcgggggecgaQ_`X``BBBBB ”

以上。

BAM/SAM文件格式

BAM文件是一种压缩二进制格式，用于表示对齐的序列，是SAM（Sequence Alignment/Map Format）文件的压缩版本。BAM和SAM格式详细描述见samtools.github.io/hts-specs/SAMv1.pdf。文件结构包含以下部分：QNAME（read name）、FLAG（flags）、RNAME(Reference Name)、POS（Postion）、MAPQ（Mapping Quality）、...

如何把doc文件转换成PDF格式？

1.当然可以，首先要确定自己有一个pdf文档，而且确定目的是需要将pdf文档转换为word格式，然后我们将现有文档通过迅捷pdf转换器软件打开。2.通过选择PDF转换页面功能其中的PDF文件转WORD项目拖入文件。3.接着在迅捷pdf转换器下方按自己的需要是...

数据格式(六)——SAM\BAM

SAM（Sequence Alignment/Map format）和BAM（Binary Alignment/Map format）是基因测序领域中的重要数据格式，它们承载着海量的测序数据和比对结果，是生物信息学研究的基石。让我们一起揭开它们神秘的面纱，深入了解这两个关键文件的内部结构。BAM是SAM的二进制版本，通过高效的BGZF压缩库压缩，使得存储和处理...

SAM是何种文件格式?请指教!

安全账号管理器的具体表现就是%SystemRoot%\\system32\\config\\sam文件。sam文件是windows NT的用户帐户数据库,所有NT用户的登录名及口令等相关信息都会保存在这个文件中。sam文件可以认为类似于unix系统中的passwd文件,不过没有这么直观明了。passwd使用的是存文本的格式保存信息，这是一个linux passwd文件...

sam是什么格式

安全账号管理器的具体表现就是%SystemRoot%\system32\config\sam这个文件。sam文件是windows 2000的用户账户数据库,所有用户的登录名及口令等相关信息都会保存在这个文件中。SAM文件可以认为类似于unix系统中的passwd文件,不过没有unix的passwd文件那么直观那么当我们忘记密码的时候，就可以通过删除SAM文件，...

生信数据格式—SAM/BAM文件

SAM（Sequence Alignment/Map）文件，以其直观的文本格式，为每个DNA读取片段的基因组比对提供了详尽的信息。而BAM文件，作为SAM的二进制压缩版本，不仅减小了文件体积，还支持索引，使得随机访问数据变得轻而易举，极大地提升了数据处理的效率。SAM结构严谨，分为头部和比对两部分，头部信息在比对数据之前，...

sam是什么格式的文件,用什么软件可以打开

安全账号管理器SAM(security account manager)的机制,安全账号管理器对账号的管理是通过安全标识进行的，安全标识在账号创建时就同时创建，一旦账号被删除，安全标识也同时被删除。安全标识是唯一的，即使是相同的用户名，在每次创建时获得的安全标识都时完全不同的。因此，一旦某个账号被删除，它的安全标识...

sam结构域是什么意思

SAM 结构域是 SAM 格式中的一部分，包含了对序列比对结果的详细描述。它主要定义了序列的 ID、标志、POS、MAPQ、CIGAR、RNEXT、PNEXT、TLEN、SEQ 和 QUAL 这些属性。通过解析 SAM 结构域，我们可以更全面地了解序列的比对结果。SAM 结构域是序列比对分析中使用最广泛的格式之一。在生物信息学领域中，...

生物信息学分析实用小技巧(五):BAM/SAM两三事

BAM/SAM文件解析是生物信息学中关键的一步。首先，理解BAM和SAM文件的关系至关重要。BAM文件是SAM文件的优化版，前者在存储和检索大量序列比对信息时，更高效且节省磁盘空间。SAM格式是Sequencing Alignment/Map Format的缩写，是早期下一代测序技术（NGS）分析中多种序列比对软件输出的通用格式。解析BAM文件...

bam / sam格式说明

在SAM输出的结果中每一行都包括十二项通过 Tab分隔(\t) ,缺失值使用’*'或者’0’代替,从左到右分别是: 1 QNAME , 序列的名字(Read的名字) 2 FLAG , 概括出一个合适的标记,各个数字分别代表: 如果flag值是0,那么说明测序为单端测序且这条read是primary line,一般是该read的最佳比对。这里说一下secondary...

nanopore测序技术专题(十九):利用samtools处理sam格式文件

使用samtools工具处理sam或bam文件，可以执行如转换文件格式、排序、合并lane数据、添加头部信息等操作。例如，通过`samtools view -o output.sam input.sam`可以进行格式转换，`samtools sort input.sam -o sorted.bam`用于排序，`samtools index sorted.bam`则用于建立索引。尽管比对工具可以直接输出排序和...

简单预算表格式 sam所有格式 sam所有格式形 sam格式文件怎么打开 sam文件格式 sam效果VIP格式申请书的正确格式图片格式信封格式