RNA-seq :TopHat2 + Cufflinks分析流程（转帖）

RNA-seq :TopHat2 + Cufflinks分析流程：
   1、测序数据质量控制：fastqc软件
      1）使用方法：/life/rjian/software/fastQC/FastQC/fastqc -o /life/rjian/data/liyan/filename_fastqc \filename.fq >>filename.log
      2）参数说明：-o:输出文件所在目录，并且是已经存在的目录,如：filename_fastqc
                   –noextract:不解压缩输出文件
                   最后加上fastq文件：filename.fq;重定向结果到日志文件：filename.log,以便查看。
           filename:表示是一个样品的一个生物学重复,一般有多个样品，每个样品有多个重复，如：C1_R1; 如果是双端测序则后面会加上数字，如：filename_1.fq和filename_2.fq

   2、reads trim工具——trimmomatic
      1)使用方法：java -jar /life/rjian/software/Trimmomatic-0.32/trimmomatic-0.32.jar SE -threads 5 \-phred33 -trimlog filename_trimmomatic.log filename.fq filename_out.fq ILLUMINACLIP:adapter.fa:2:30:10 \SLIDINGWINDOW:4:15 MINLEN:36
      2)参数说明：SE：指定单端测序，PE：双端测序
                  -threads:指定线程数
                  -phred33:指定fastq文件的质量格式，或者：-phred64
                  -trimlog:指定日志文件，后加上输入和输出文件
                  ILLUMINACLIP:adapter.fa:2:30:10   ：adapter.fa为adapter文件，2:允许的最大mismatch 数，30:palindrome模式下匹配碱基数阈值,10:simple模式下的匹配碱基数阈值
                  SLIDINGWINDOW:4:15 MINLEN:36 :滑动窗口的size是4个碱基，其平均碱基质量小于15，则切除。
                  MINLEN:36 ：最低reads长度为36

3、bowtie2建立参考基因组的索引——bowtie2-build
1）使用方法： bowtie2-build <要生成的索引文件前缀名>；比如：
nohup /home/cuckoo/software/bowtie2-2.2.3/bowtie2-build genome.fa bowtie2index/genome>>bowtie2.log &
2）参数说明：genome.fa是fasta文件；
     genome是要生成的索引文件的前缀名；
     bowtie2index是一个文件夹，用来存放索引文件，方便日后查看和使用；
     注意：程序运行完后genome.fa文件要放在bowtie2index索引目录中，tophat2软件才能正确运行。

4、reads mapping到参考基因组——tophat2软件：基于bowtie2
1）使用方法：/home/cuckoo/software/tophat-2.0.12.Linux_x86_64/tophat2 -p 8 -G \/home/cuckoo/data/liyan/train/genes.gtf -o filename_thout/ \/home/cuckoo/data/liyan/train/bowtie2index/genome /home/cuckoo/data/liyan/train/filename.fq \>filenametophat.log
2）参数说明：-p ：指定线程数，默认为1
     -G ：指定已有的基因组注释信息，gtf或gff文件；
     -o ：指定输出目录，默认为”./tophat_out“；
     后面加上索引文件：与前面的bowtie2建立的索引相对应，只取前缀名。
     最后加上fastq文件：filename.fq；如果是双端测序则是filename_1.fq和filename_2.fq 两个文件。

5、转录本组装——Cufflinks：Cufflinks是一套拼接转录本，定量表达量。
    1）使用方法：/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cufflinks -p 8 -o \filename_clout filename_thout/accepted_hits.bam >filename_cufflinks.log
2）参数说明：-p ：指定线程数；
     -o ：指定输出文件所在目录；
     后面跟上Tophat2中生成的bam文件：

6、转录本合并——Cuffmerge
1）使用方法：/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffmerge -g genes.gtf -s \/home/cuckoo/data/liyan/train/bowtie2index/genome.fa -p 8 assemblies.txt
2）参数说明：-g ：参考基因组注释文件
     -s ：参考基因组序列文件
     -p ：指定线程数
     -o ：指定输出文件merged.gtf所在目录，默认情况下是 merged_asm
     最后assemblies.txt ：一个包含每个样品（重复）拼接后的gtf文件的列表；如下：两个文件分别是在上一步中生成的样品的转录本注释文件。
     ./s0924fb_clout/transcripts.gtf
     ./sCal27_clout/transcripts.gtf

7、基因和转录本表达定量——cuffquant
1）使用方法：/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffquant -o sample_quant -p 8 \-u AT.gff sample_thout/accepted_hits.bam
2）参数说明：-o ：指定结果输出目录：包含结果文件abundances.cxb
     -p ：指定线程数
     -u ：指定对比对上基因组上多个位置的reads进行统计分析。

     加上参考基因组注释文件：AT.gff

     最后加上Tophat2产生的该样本的比对结果文件：accepted_hits.bam

8、基因和转录本表达水平标准化——cuffnorm
1）使用方法：/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffnorm -o cuffnorm_out -p 8 \-L 0h_1,12h_CK1,12h_E1 AT.gff /data/disk2/liyan/AT/0h_1_quant/abundances.cxb \/data/disk2/liyan/AT/12h_CK1_quant/abundances.cxb /data/disk2/liyan/AT/12h_E1_quant/abundances.cxb
2）参数说明：-o ：指定结果输出目录
     -p ：指定线程数
     -L ：为每个样本（处理）作标记
     –total-hits-norm ：计算所有的fragments，包括与所有的参考转录本不容的，默认不激活。
     –compatible-hits-norm ：只计算与一些参考转录本相容的fragments,默认激活。
     加上参考基因组注释文件：AT.gff
     最后加上每个样本（处理）的cuffquant产生的abundances.cxb文件，样本的每个重复之间用逗号”，“分割；样本之间则由空格分割。

9、转录本差异表达分析——Cuffdiff：分析差异表达基因的工具。
1）使用方法：/home/cuckoo/software/RNAseq/cufflinks-2.2.1.Linux_x86_64/cuffdiff -o diff_out -b \bowtie2index/genome.fa -p 8 -L C1,C2 -u merged_asm/merged.gtf ./C1_thout/accepted_hits.bam \./C2_thout/accepted_hits.bam
2）参数说明：-o ：指定输出目录
     -b ：参考基因组序列文件
     -p ：指定线程数
     -L ：为每个样本标上名称    -u：-u命令指cuffdiff对回帖的基因组中多个位置的read进行一个初步的估计，然后加权分配到各个基因组位置。而不是简单的平均分配，其功能与Cufflinks中的u命令相同。

     加上合并后的转录本：merged.gtf;由cuffmerge产生。
     最后是TopHat产生的样本的bam文件，如果一个样本有多个生物学重复，那么我们需要提供每个重复的bam文件，文件名之间以逗号隔开并且样本名应与-L参数相对应。

10、转录本与参考基因组注释文件比较——Cuffcompare，发现新基因，转录本
    1）使用方法：cuffcompare -i gtf_out_list.txt -r genes.gtf
    2）参数说明：-i ：输入文件，是cufflinks组装转录本的结果文件——transcripts.gtf的列表；
                   其中gtf_out_list.txt是由find . -name transcripts.gtf > gtf_out_list.txt命令产生的集合了所有样本转录本文件的列表。
                 -o ：指定输出文件的前缀，如果没有指定默认为cuffcmp。
                 -r ：指定参考基因组注释文件。

     注：结果文件大部分位于cmp_out（自己先建立好）目录中，统计汇总所有转录本的比较情况；而单个样本转录本的比较结果文件：cuffcmp.transcripts.gtf.tmap 和 cuffcmp.transcripts.gtf.refmap 分别位于样本的cufflinks运行结果transcripts.gtf所在目录中，统计单个样本的比较情况以鉴定新转录本。

小生这厢有礼了(BioFaceBook Personal Blog)

分类

Recent Comments

链接表

RNA-seq :TopHat2 + Cufflinks分析流程（转帖）

Leave a Reply Cancel reply

Archives

Meta

小生这厢有礼了(BioFaceBook Personal Blog)

分类

Recent Comments

链接表

RNA-seq :TopHat2 + Cufflinks分析流程 （转帖）