问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501

sam格式的简单了解

发布网友 发布时间:2022-09-24 02:35

我来回答

1个回答

热心网友 时间:2023-09-11 04:26

部分转自生信菜鸟团公众号

SAM的全称是sequence alignment/map format。而BAM就是SAM的二进制文件(B源自binary)。
SAM 格式主要包括两大部分:
1.标头注释部分(header section)
2.比对结果部分(alignment section)

SAM格式是用来来支持高通量测序数据分析:

(1):快速查找与坐标重叠的比对。例如,选择与染色体2上的坐标323,567,334重叠的比对。

(2):根据read的属性进行选择和过滤。例如,我们希望能够快速选择能过比对到反向链上的read。

(3):有效地存储数据。例如,从SAM格式转化成BAM格式,单个压缩文件包含所有样本的数据,每个样本都以某种方式标记。

标头注释部分
标头信息可有可无,都是以@开头,用不同的tag表示不同的信息

比对结果部分
每一列表示一个read的比对信息,包括11个必须的字段和一个可选字段,字段之间用tag分割。必须的字段有11个,顺序固定。这11个字段包括:

第一列: Query Name (QNAME)
这一列代表着比对片段的(template)的编号

第二列:FLAG
这是一种常用且高效的保存多个布尔特征值的方法。

举个简单的例子: 在 SAM 格式中,当 flag 为 1,也即对应的二进制为 01 时,表示该 read 有多个测序数据 , 一般理解为有双端测序数据 (另一条没被过滤掉), 而 flag 为 2, 也即二进制 10 时, 表示这条 read 的多个片断都有比对结果, 通常理解为双端 reads 都比对上了, 那么就可以推断出 flag 为 3 时, 也即二进制的 11, 表示该 read 有另一端的 read 并且比对成功, 可以看到, 其实就是 01 加 10。
一般flag值不需要自己去算,直接将flag值导入网站即可
http://broadinstitute.github.io/picard/explain-flags.html

所有flag对应值的含义
1 : 代表这个序列采用的是PE双端测序

2: 代表这个序列和参考序列完全匹配,没有插入缺失

4: 代表这个序列没有mapping到参考序列上

8: 代表这个序列的另一端序列没有比对到参考序列上,比如这条序列是R1,它对应的R2端序列没有比对到参考序列上

16:代表这个序列比对到参考序列的负链上

32 :代表这个序列对应的另一端序列比对到参考序列的负链上

64 : 代表这个序列是R1端序列, read1;

128 : 代表这个序列是R2端序列,read2;

256: 代表这个序列不是主要的比对,一条序列可能比对到参考序列的多个位置,只有一个是首要的比对位置,其他都是次要的

512: 代表这个序列在QC时失败了,被过滤不掉了(# 这个标签不常用)

1024: 代表这个序列是PCR重复序列(#这个标签不常用)

2048: 代表这个序列是补充的比对(#这个标签具体什么意思,没搞清楚,但是不常用)

第三列: Reference Name (RNAME)
reference sequence name,实际上就是比对到参考序列上的染色体号。若是无法比对,则是*

第四列: Position (POS)
比对上的位置,注意是从1开始计数,没有比对上,此处为0

第五列:Mapping Quality (MAPQ)
比对的质量;比对的质量分数,越高说明该read比对到参考基因组上的位置越准确

第六列:Compact Idiosyncratic Gapped Alignment Representation (CIGAR)
CIGAR 代表着简要比对信息表达式,其以参考序列为基础,使用数字加字母表示比对结果
例如 3S6M1P1I4M
前三个碱基被剪切去除了,然后6个比对上了,然后打开了一 个缺口,有一个碱基插入,最后是4个比对上了。

这里的总长度对应的就是测出来的一条序列的长度,如果是PE100,这里加起来就应该是100,如果是PE150,这里加起来就是150,这里的长度和第10列的长度是一致的

第七列:RNEXT
双端测序中下一个reads比对的参考系列的名称。“*”是完全没有比对上,“=”代表完全比对

第3和第7列,可以用来判断某条reads是否比对成功到了基因组的染色体,左右两条reads是否比对到同一条染色体

第八列:PNEXT
如果是双端测序,是指另一端匹配到参考基因组的位置,如果设置为0,那么该列不可用

第九列:TLEN Template的长度
最左边得为正,最右边的为负,中间的不用定义正负,不分区段(single-segment)的比对上,或者不可用时,此处为0

区别于第6列和第10列是对应测出来的序列的长度。这里第9列的长度是对应插入片段的长度,insert size,也就是建库时,将DN*段打断成的长度。

第十列:Sequence
序列片段的序列信息,如果不存储此类信息,此处为’*‘,注意CIGAR中M/I/S/=/X对应数字的和要等于序列长度;就是read的碱基序列,如果是比对到互补链上则是reverse completed。
就是测序的reads序列信息

第十一列:ASCII
read质量值

其实很容易发现,如果将第1,10,11列提取出来的话,就能还原成我们常见的fastq格式信息。

第十二列:Optional fields
可选的区域
格式如:TAG:TYPE:VALUE,其中TAG有两个大写字母组成,每个TAG代表一类信息,每一行一个TAG只能出现一次,TYPE表示TAG对应值的类型,可以是字符串、整数、字节、数组等。

备注
看一下KPGP-00001这个韩国人的测序reads比对到hg38的其中一个lane的sam格式部分信息:

可以看出这个是用的PE90测序,测序read长度为90bp,建库打断成约490bp,这个read名称是B80KJTABXX:4:1:1404:2065#CTAGTTAT,flag值是163,代表着

reads是比对到7号染色体,比对的位置是50962731,比对的质量值是60,"90M"意味着90个碱基都match(当然可能是mismatch),“=”意味着双端测序的另一条read也比对上,并且是比对到同一个片段,另一条read比对的位置是
50963137 ,这条read的序列信息是“AGAAAATTATTTAAATGACCCGAGCCTCACCTTCAACATGAGGAACATCAT
ATTCCCTTTGATAAAATGTTGCTGGTGTAAGTGCTCCAT ”
对应质量值分ASCII值为“gggfgfggeggdgggadegggdegegeeggeegedggegggeggegedgggedgggfggeceeggaedgcgggggecgaQ_`X``BBBBB ”

以上。

BAM/SAM文件格式

BAM文件是一种压缩二进制格式,用于表示对齐的序列,是SAM(Sequence Alignment/Map Format)文件的压缩版本。BAM和SAM格式详细描述见samtools.github.io/hts-specs/SAMv1.pdf。文件结构包含以下部分:QNAME(read name)、FLAG(flags)、RNAME(Reference Name)、POS(Postion)、MAPQ(Mapping Quality)、...

如何把doc文件转换成PDF格式?

1.当然可以,首先要确定自己有一个pdf文档,而且确定目的是需要将pdf文档转换为word格式,然后我们将现有文档通过迅捷pdf转换器软件打开。2.通过选择PDF转换页面功能其中的PDF文件转WORD项目拖入文件。3.接着在迅捷pdf转换器下方按自己的需要是...

数据格式(六)——SAM\BAM

SAM(Sequence Alignment/Map format)和BAM(Binary Alignment/Map format)是基因测序领域中的重要数据格式,它们承载着海量的测序数据和比对结果,是生物信息学研究的基石。让我们一起揭开它们神秘的面纱,深入了解这两个关键文件的内部结构。BAM是SAM的二进制版本,通过高效的BGZF压缩库压缩,使得存储和处理...

SAM是何种文件格式?请指教!

安全账号管理器的具体表现就是%SystemRoot%\\system32\\config\\sam文件。sam文件是windows NT的用户帐户数据库,所有NT用户的登录名及口令等相关信息都会保存在这个文件中。sam文件可以认为类似于unix系统中的passwd文件,不过没有这么直观明了。passwd使用的是存文本的格式保存信息,这是一个linux passwd文件...

sam是什么格式

安全账号管理器的具体表现就是%SystemRoot%\system32\config\sam这个文件。sam文件 是windows 2000的用户账户数据库,所有用户的登录名及口令等相关信息都会保存在这个文件 中。SAM文件可以认为类似于unix系统中的passwd文件,不过没有unix的passwd文件那么直观 那么当我们忘记密码的时候,就可以通过删除SAM文件,...

生信数据格式—SAM/BAM文件

SAM(Sequence Alignment/Map)文件,以其直观的文本格式,为每个DNA读取片段的基因组比对提供了详尽的信息。而BAM文件,作为SAM的二进制压缩版本,不仅减小了文件体积,还支持索引,使得随机访问数据变得轻而易举,极大地提升了数据处理的效率。SAM结构严谨,分为头部和比对两部分,头部信息在比对数据之前,...

sam是什么格式的文件,用什么软件可以打开

安全账号管理器SAM(security account manager)的机制,安全账号管理器对账号的管理是通过安全标识进行的,安全标识在账号创建时就同时创建,一旦账号被删除,安全标识也同时被删除。安全标识是唯一的,即使是相同的用户名,在每次创建时获得的安全标识都时完全不同的。因此,一旦某个账号被删除,它的安全标识...

sam结构域是什么意思

SAM 结构域是 SAM 格式中的一部分,包含了对序列比对结果的详细描述。它主要定义了序列的 ID、标志、POS、MAPQ、CIGAR、RNEXT、PNEXT、TLEN、SEQ 和 QUAL 这些属性。通过解析 SAM 结构域,我们可以更全面地了解序列的比对结果。SAM 结构域是序列比对分析中使用最广泛的格式之一。在生物信息学领域中,...

生物信息学分析实用小技巧(五):BAM/SAM两三事

BAM/SAM文件解析是生物信息学中关键的一步。首先,理解BAM和SAM文件的关系至关重要。BAM文件是SAM文件的优化版,前者在存储和检索大量序列比对信息时,更高效且节省磁盘空间。SAM格式是Sequencing Alignment/Map Format的缩写,是早期下一代测序技术(NGS)分析中多种序列比对软件输出的通用格式。解析BAM文件...

bam / sam格式说明

在SAM输出的结果中每一行都包括十二项通过 Tab分隔(\t) ,缺失值使用’*'或者’0’代替,从左到右分别是: 1 QNAME , 序列的名字(Read的名字) 2 FLAG , 概括出一个合适的标记,各个数字分别代表: 如果flag值是0,那么说明测序为单端测序且这条read是primary line,一般是该read的最佳比对。这里说一下secondary...

nanopore测序技术专题(十九):利用samtools处理sam格式文件

使用samtools工具处理sam或bam文件,可以执行如转换文件格式、排序、合并lane数据、添加头部信息等操作。例如,通过`samtools view -o output.sam input.sam`可以进行格式转换,`samtools sort input.sam -o sorted.bam`用于排序,`samtools index sorted.bam`则用于建立索引。尽管比对工具可以直接输出排序和...

简单预算表格式 sam所有格式 sam所有格式形 sam格式文件怎么打开 sam文件格式 sam效果VIP格式 申请书的正确格式图片 格式 信封格式
声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com
电脑开机时怎么进入安全模式 广东医学院大一新生宿舍怎么样,是不是都是学校分配,不能自己选择_百度... 2012高考理科 考到545 想知道怎么填志愿 我的分数545可以报广东医学院边d专业?我系广东考生 高考排名。高考报志愿。广东医学院。 今年545分补录广东医学院还有机会吗? 徒步穿什么鞋 夫妻之间感情再不好都不要去互相伤害 平时可以穿登山鞋吗 大学生都爱去哪些网站? 索金锁银锁锁住一春琐碎事 我的下联,(上联 51岁的陈鲁豫:因瘦被骂,被嘲情商低,却成著名主持人,凭啥? 谁有章含之的《十年风雨情》? 上联:一夜夫妻恩十年风雨情情深意长 求下联 招聘女员工,在劳动合同内要求两年内不准生孩子否则算自动解除劳动合同,是否合法? 劳动合同法对怀孕妇女的规定是什么? 劳动合同约定在岗期间女职工不得怀孕是否有效 用人单位签订两年内不得怀孕 公司让签两年内不怀孕的协议 合同上关于工作期间不得怀孕生育的规定是否有效 EXCEL表格中如何多条件筛选 一键ghost2009.07.15出现乱码 古诗十九首 明月何皎皎 中根据动作描写和神态描写表达了什么样的情感 中秋节的诗句——《明月何皎皎》 《古诗十九首之十九-明月何皎皎》的背景,意思? 谁能告诉我为什么一键GHOST的界面都乱码?? 农民果园除草不用草甘膦,还有什么方法? 积极正能量的简短文案 (集锦60句) 积极向上阳光的正能量文案 (精选60句) 哪些是一次性能源? 2016,1月22曰海南初二英语考试作文答案 怎样让包子很热 乐高补件限制数量吗 乐高零件错误怎么办 乐高拼装缺件怎么办 乐高官方补件有次数限制吗 金贤重,李敏镐,金在中,胡歌,彭于晏,古天乐,为什么都没有结婚? 清政府设立责任内阁产生的影响 简述内阁制,军机处的形成过程及影响 金在中和敏德瑞的事情? 明清内阁的发展变化的原因 清代在中央机构方面的更革措施及其影响有哪些 中国古代内阁权力的演变 清朝时期的“内阁制度”和明朝时期有什么差别? 主要和哪些原因有关,让内阁没变成宰相机构? 海贼王里的恶魔果实有哪些,介绍下能力? 西南理工大学是985,还是211 法兰盘的作用和用途 文艺心情句子60条 双方打视频电话内容网警能看到吗