生物信息常见数据格式

GTF

全称是gene transfer format，主要是对染色体上的基因进行标注。怎么理解呢，其实所谓的基因名，基因座等，都只是后来人们给一段DNA序列起的名字而已，还原到细胞中就是细胞核里面的一条长长的染色体（DNA序列）。而这个GTF文件的主要功能，就是指出我们所谓的基因在染色体上的位置（coordinate），并且还标注了这一段区间的其他信息。
GTF文件我一般喜欢去ensembl下载，gencode也可以。
GTF文件由9列数据组成，这两种文件的前8列都是相同的（一些小的差别），
gtf文件是以tab键分割的9列组成，以下为每一列的对应信息：

seq_id：序列的编号，一般为chr或者scanfold编号；
source: 注释的来源，一般为数据库或者注释的机构，如果未知，则用点“.”代替；
type: 注释信息的类型，比如Gene、cDNA、mRNA、CDS等
start:该基因或转录本在参考序列上的起始位置；
end: 该基因或转录本在参考序列上的终止位置；
score: 得分，数字，是注释信息可能性的说明，可以是序列相似性比对时的E-values值或者基因预测是的P-values值，“.”表示为空；
strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
phase: 仅对注释类型为“CDS”有效，表示起始编码的位置，有效值为0、1、2(对于编码蛋白质的CDS来说，本列指定下一个密码子开始的位置。每3个核苷酸翻译一个氨基酸，从0开始，CDS的起始位置，除以3，余数就是这个值，，表示到达下一个密码子需要跳过的碱基个数。该编码区第一个密码子的位置，取值0,1,2。0表示该编码框的第一个密码子第一个碱基位于其5’末端；1表示该编码框的第一个密码子的第一个碱基位于该编码区外；2表示该编码框的第一个密码子的第一、二个碱基位于该编码区外；如果Feature为CDS时，必须指明具体值。)；
attributes:一个包含众多属性的列表，格式为“标签＝值”（tag=value），标签与值之间以空格分开，且每个特征之后都要有分号；（包括最后一个特征），其内容必须包括gene_id和transcript_id。以多个键值对组成的注释信息描述，键与值之间用“=”，不同的键值用“；

GFF

GFF全称为general feature format，这种格式主要是用来注释基因组。
GTF文件以及GFF文件都由9列数据组成，这两种文件的前8列都是相同的
GTF文件的第9列同GFF文件不同，虽然同样是标签与值配对的情况，但标签与值之间以空格分开，且每个特征之后都要有分号；（包括最后一个特征），其内容必须包括gene_id和transcript_id。
目前两种文件可以方便的相互转化，比如:使用Cufflinks软件的的gffread

SAM

SAM是一种序列比对格式标准，由sanger制定，是以TAB为分割符的文本格式。主要应用于测序序列mapping到基因组上的结果表示

SAM的全称是sequence alignment map format。而BAM就是SAM的二进制文件(B取自binary)

从零开始完整学习全基因组测序数据分析：第5节理解并操作BAM文件

Fasta

Fastq

FASTQ是基于文本的，保存生物序列（通常是核酸序列）和其测序质量信息的标准格式。

基本格式

包含四行，第一行由‘@’开始，后面跟着序列的描述信息，这点跟FASTA格式是一样的；
第二行是序列；
第三行由’+’开始，后面也可以跟着序列的描述信息；
第四行是第二行序列的质量评价（quality values，注：应该是测序的质量评价），字符数跟第二行的序列是相等且对应的。

bed

Browser Extensible Data
BED 文件格式提供了一种灵活的方式来定义的数据行，以用来描述注释信息。BED行有3个必须的列和9个额外可选的列。每行的数据格式要求一致。
必须包含的3列：

chrom - 染色体名字(e.g. chr3，chrY, chr2_random)或scafflold 的名字(e.g. scaffold0671 ).
chromStart - 染色体或scaffold的起始位置，染色体第一个碱基的位置是0
chromEnd - 染色体或scaffold的结束位置，染色体的末端位置没有包含到显示信息里面。例如，首先得100个碱基的染色体定义为chromStart =0 .chromEnd=100, 碱基的数目是0-99
9 个额外的可选列:
name - 指定BED行的名字，这个名字标签会展示在基因组浏览器中的bed行的左侧。
score - 0到1000的分值，如果在注释数据的设定中将原始基线设置为１，那么这个分值会决定现示灰度水平（数字越大，灰度越高），下面的这个表格显示GenomeBrowser
strand - 定义链的方向，’’+” 或者”-”
thickStart - 起始位置（The starting position atwhich the feature is drawn thickly）(例如，基因起始编码位置）
thickEnd - 终止位置（The ending position at whichthe feature is drawn thickly）（例如：基因终止编码位置）
itemRGB - 是一个RGB值的形式, R, G, B (eg. 255, 0,0), 如果itemRgb设置为’On”, 这个RBG值将决定数据的显示的颜色。
blockCount - BED行中的block数目，也就是外显子数目
blockSize - 用逗号分割的外显子的大小, 这个item的数目对应于BlockCount的数目
blockStarts - 用逗号分割的列表, 所有外显子的起始位置，数目也与blockCount数目对应.

vcf

Variant Call Format：VCF是用于描述SNP，InDel和SV结果的文本文件

生物基因数据文件——vcf格式详解

VCF格式详解

CHROM ：参考序列名称
POS ： variant所在的left-most位置(1-base position)（发生变异的位置的第一个碱基所在的位置）
ID ： variant的ID。同时对应着dbSNP数据库中的ID，若没有，则默认使用‘.’
REF ：参考序列的Allele，（等位碱基，即参考序列该位置的碱基类型及碱基数量）
ALT ： variant的Allele，若有多个，则使用逗号分隔，（变异所支持的碱基类型及碱基数量）这里的碱基类型和碱基数量，对于SNP来说是单个碱基类型的编号，而对于Indel来说是指碱基个数的添加或缺失，以及碱基类型的变化
QUAL ： variants的质量。Phred格式的数值，代表着此位点是纯合的概率，此值越大，则概率越低，代表着次位点是variants的可能性越大。（表示变异碱基的可能性）
FILTER ：次位点是否要被过滤掉。如果是PASS，则表示此位点可以考虑为variant。
INFO ： variant的相关信息
FORMAT ： variants的格式，例如GT:AD:DP:GQ:PL
SAMPLES ：各个Sample的值，由BAM文件中的@RG下的SM标签所决定，这些值对应着第9列的各个格式，不同格式的值用冒号分开，每一个sample对应着1列；多个samples则对应着多列，这种情况下列的数多余10列。