这篇文章将为大家详细讲解有关如何解析对比基因组工具hisat2,文章内容质量较高,因此小编分享给大家做个参考,希望大家阅读完这篇文章后对相关知识有一定的了解。
由于测序仪机器读长的限制,在构建文库的过程中首先需要将DNA片段化,测序得到的序列只是基因组上的部分序列。为了确定测序读在基因组上的位置,需要将读取比对回参考基因组上,这个步骤叫做映射。
在进行映射时,需要考虑以下几个因素
1。硬件资源的消耗
通常来说,基因组越大,占用的内存越大。对于大型基因组,比如人类基因组而言,优化内存消耗是很关键的一点。
2。运行速度
随着测序价格的下降和数据深入挖掘的需求,测序量越来越大,海量测序读的比对,要求速度上必须够快。
3。准确性
SNP/indel测序错误率等因素都使得测序的读取和基因组上的原始序列会存在几个bp的误差,所以映射的算法必须支持碱基的错配,或者是差距的存在。同时由于测序的短序列可能和基因组多个位置存在同源,一条读会比对到基因组上多个位置。双端测序技术在一定程度上能够校正多个位置,因为双端读取来自同一个DNA片段,二者在基因组上的位置不会相距太远,但是仅靠这一点并不能解决所有的同源比对,这就要求比对算法对多个位置进行判断和打分,给出比对结果的可靠性。
4。RNA
对于转录组数据,真核生物可变剪切的存在,导致cDNA片段在基因组上的位置并不是连续的,中间可能存在内含子。在比对转录组数据时,就需要考虑跳过剪切位点。
目前映射的工具有很多,比如bwa, hisat,明星等.hisat是其中速度最快的,是大礼帽软件的升级版本。采用了改进的调频指数算法,对于人类基因组,只需要4.3 gb左右的内存。同时支持DNA和RNA数据的比,对软件官网如下
http://ccb.jhu.edu/software/hisat2/index.shtml引用>
目前最新版为为hisat2。安装过程如下
wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/downloads/hisat2-2.1.0-Linux_x86_64.zip unzip hisat2-2.1.0-Linux_x86_64。zip下载解压缩即可。
在进行比对前,首先需要对参考基因组建立索引,基本用法如下
hisat2-build -p 20,,, hg19.fa hg19对于转录组数据,在构建索引时,可以通过<代码> gtf 代码>文件,得到剪切位点和外显子的信息,用法如下
hisat2_extract_splice_sites.py hg19.gtf 祝辞hg19.ss hisat2_extract_exons.py hg19.gtf 祝辞hg19.exon hisat2-build -p 20,,——ss hg19.ss ——exon hg19.exon , hg19.fa hg19hisat2支持多种格式的输入文件,常见格式有以下两种
<李>
fasta
李> <李>fastq
李>
<代码> - f 代码>参数表示输入问下格式为fasta, <代码> q 代码>参数表示输入文件格式为fastq。输入文件可以是经过gzip压缩之后的文件,默认输入文件是fastq格式。
对于单端数据,采用<代码> - u> 代码指定输入文件;对于双端数据,采用<代码> 1 代码>和<代码> 2> 代码分别指定R1端和R2端的输入文件。
读比对到基因组上的一个位置,我们称之为一个对齐。软件会对所有的排列进行打分和判断,能够符合过滤条件的对齐称之为有效,对齐,只有有效的比对,才会输出。
和爆炸类似,每个对齐也有对应的打分机制.hisat从以下几个方面对对齐进行打分
1。错配碱基罚分
错配碱基的罚分通过<代码>——议员> 代码参数指定,其值为逗号分隔的两个数字,第一个数字为最大的罚分,第二个数字为最小的罚分
2。读上的差距罚分
差距的罚分通过分成两个部分,第一次出现差距的罚分差距和延伸的罚分,读上的差距罚分通过<代码>——读数> 代码参数指定,其值为逗号分隔的两个数字,第一个数字第为差距一个位置的罚分,第二个数字为差距延伸的罚分。
3。引用上的差距罚分
引用上的差距罚分通过<代码>——读数> 代码参数指定,其值为逗号分隔的两个数字,第一个数字第为差距一个位置的罚分,第二个数字为差距延伸的罚分。
经过一系列的罚分机制,每个对齐会有一个对应的得分,然后会根据一个阈值,来判断这个得分是否满足有效,对齐的要求。
hisat通过<代码>——分数min 代码>参数指定该阈值,指定方式是一个和读取程度相关的函数,默认值为L, 0, -0.2,对应函数为
如何解析对比基因组工具hisat2