ChIPseeker for ChIP peak annotation (转贴)

https://guangchuangyu.github.io/2014/04/chipseeker-for-chip-peak-annotation/

ChIPpeakAnno WAS the only R package for ChIP peak annotation. I used it for annotating peak in my recent study.

I found it does not consider the strand information of genes. I reported the bug to the authors, but they are reluctant to change.

So I decided to develop my own package, ChIPseeker, and […]

Chip-seq流程报告(转贴)

一、摘要

实验旨在了解Chip-seq的基本原理。通过模仿文献《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,学会利用NCBI和EBI数据库下载数据,熟悉Linux下的基本操作,并使用R语言画图,用Python或者shell写脚本进行基本的数据处理,通过FastQC、Bowtie、Macs、samtools、ROSE等软件进行数据处理,并对预测结果进行分析讨论。

二、材料

1、硬件平台

处理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz 2.50GHz

安装内存(RAM):16.0GB

2、系统平台

Windows 8.1,Ubuntu

3、软件平台

① Aspera connect ② FastQC ③ Bowtie

④ Macs 1.4.2 ⑤ IGV ⑥ ROSE

4、数据库资源

NCBI数据库:https://www.ncbi.nlm.nih.gov/;

EBI数据库:http://www.ebi.ac.uk/;

5、研究对象

加入H3K27Ac 抗体处理过的TE7细胞系测序数据和其空白对照组

加入H3K27Ac 抗体处理过的KYSE510细胞系和其空白对照组

背景简介:食管鳞状细胞癌(OSCC)是一种侵袭性的恶性肿瘤,本文章通过高通量小分子抑制剂进行筛选,发现了一个高度有效的抗癌物,特异性的CDK7抑制剂THZ1。RNA-Seq显示,低剂量THZ1会对一些致癌基因的产生选择性抑制作用,而且,对这些THZ1敏感的基因组功能的进一步表征表明他们经常与超级增强子结合(SE)。ChIP-seq解读在OSCC细胞中,CDK7的抑制作用的机制。

本文亮点:确定了在OSCC细胞中SE的位置,以及识别出许多SE有关的调节元件;并且发现小分子THZ1特异性抑制SE有关的转录,显示强大的抗癌性。

文章PMID: 27196599

三、方法

1、Aspera软件下载及安装

进入Aspera官网的Downloads界面,选中aspera connect server,点击Wwindows图标,选择v3.6.2版本,点击Download进行下载。

[…]

Dating a node with BEAST2.0

For details, read http://beast2.cs.auckland.ac.nz/index.php/Main_Page and http://beast2.cs.auckland.ac.nz/index.php/FAQ . For any problem, do not hesitate to browse through the list of questions on the BEAST forum https://groups.google.com/forum/#!forum/beast-users .

Exercise description

The exercise is mainly based on the Divergence Dating tutorial, but also includes a few screen captures.

Sequences files for this exercise are taken from a […]

Chip seq

何謂ChIP-Seq?

ChIP–seq ( Chromatin immunoprecipitation sequencing )是指染色質免疫沉澱後,所獲得的DNA片段進行高通量定序,並將此片段利用生物資訊的軟體對回至基因體,可以瞭解DNA-binding proteins及histone modifications的狀況,進而得知染色質及相结合的調控因子之間的相互作用關係。

ChIP-chip與ChIP-Seq差異?

次世代定序較ChIP-chip提供更高的解析度,較少的雜訊,較少的ChIP-DNA的量,及可偵測的動態範圍及基因體範圍較廣,因此可呈現較真實的基因調控及表觀遺傳學現況。

如何分析ChIP-Seq資料?

從次世代定序儀所得到的影像檔,會轉換成核苷酸序列,並計算每個核苷酸的錯誤率,將正確性高的序列對到基因體,找到Peak後,與對照組(通常是Input DNA)比較,利用統計學的計算此Enriched region的錯誤率,之後可進行其它的分析。

如何找到Protein binding site?

DNA是雙股的結構,因此ChIP-Seq是從DNA的5’端定序,會對到基因體的正反股,如下圖可看到藍色序列對到的是正股,紅色序列對到的是反股,因序列的數量畫出常態分佈後找到Peak,而兩者高峰處之間為Protein binding site (可稱為Enriched region)。

ChIP-Seq對照組

(1) Input DNA:免疫沉澱實驗前,取打斷的DNA當對照組,

(2) Mock IP DNA:打斷的DNA有經過免疫沈殿的實驗,但沒有加入抗體。

(3) Nonspecific IP DNA:打斷的DNA經過免疫沉澱的實驗,但有加入IgG。

這3個對照組最常用的是Input DNA,是為了矯正DNA打斷及PCR產生的bias。另外,也可以藉由Input DNA核苷酸序列的數量以及免疫沉澱後的核苷酸序列的數量之間比較,瞭解ChIP的效率,如下圖,而此圖也可以瞭解ChIP-Seq及ChIP-chip差異,前者可獲得高解析度及高敏感性的資料。

[…]

BACTERIAL GENOMICS TUTORIAL (repost)

[Originally posted by Kat on her BacPathGenomics blog, April 2013]

This is a shameless plug for an article and accompanying tutorial I’ve just published together with David Edwards, my excellent MSc Bioinformatics student from the University of Melbourne. It’s currently available as a PDF pre-pub from BMC Microbial Informatics and Experimentation, but the web version […]

TOOLS FOR BACTERIAL COMPARATIVE GENOMICS

Yesterday I spoke at a workshop for JAMS TOAST (Sydney’s Joint Academic Microbiology Seminars – bioinformatics workshop)… I was asked to cover tools for comparative genomics, so I put together a list of the tried and tested programs that I find most useful for this kind of analysis. So here is the list.

Bowtie2-manual (转贴)

getting started with Bowtie 2: Lambda phage example-从这里开始使用Bowtie2:λ噬菌体的例子

Bowtie2自带了一些入门级的示例文件,这些示例文件并不具有科学含义,我们用λ噬菌体的参考基因组只是因为它很短,并且例子里面的reads是由一个电脑程序生成的而不是测序的结果。但是,这些文件能让你立即开始运行Bowtie2和下游的程序。

首先按照获取Bowtie2的指导下载它。设置Bowtie2环境变量BT2_HOME,把它指向含有bowtie2, bowtie2-build和bowtie2-inspect二进制文件的新Bowtie2的文件夹。这一步很重要,因为在下面的命令当中,变量BT2_HOME被用来代表那个文件夹的位置。

Indexing a reference genome-对参考基因组建立索引

为了对Bowtie2内置的λ噬菌体的参考基因组建索引,先新建一个临时文件夹(建在哪里无所谓),进入那个文件夹,然后运行:

$BT2_HOME/bowtie2-build $BT2_HOME/example/reference/lambda_virus.fa lambda_virus

这条命令在结束前应该会打印很多行输出。当其运行完毕时,当前文件夹会产生4个新的文件,它们的文件名都以lambda_virus开始,分别以.1.bt2, .2.bt2, .3.bt2, .4.bt2, .rev.1.bt2和.rev.2.bt2结束。这些文件构成了索引——你完成了!

你可以使用bowtie2-build对一组任意来源的FASTA文件构建索引,包括像UCSC,NCBI,和Ensembl这些站点。当对多个FASTA文件建立索引时,你要在指定所有的文件,并用逗号隔开。更多关于如何用bowtie2-build建立索引的信息,请查看使用手册的建立索引部分。你可能也会直接获取一个已经建好的索引,从而绕过这一步。使用已建好的索引给出了例子。

Aligning example reads-比对示例reads

在上一步创建的文件夹中,现在含有lambda_virus的索引文件。接下来,运行:

$BT2_HOME/bowtie2 -x lambda_virus -U $BT2_HOME/example/reads/reads_1.fq -S eg1.sam

这个命令会运行Bowtie2的比对软件,它会使用上一步建立的索引,把一组非双端测序的reads比对到λ噬菌体的参考基因组上。这步比对的结果是SAM格式的,输出文件是eg1.sam,同时比对的总结会被输出到终端控制台。(事实上,总结是被写进了“standard error” 或 “stderr”,即标准错误句柄里面,通常它会被输出到终端。)

要查看SAM结果的前几行,运行:

head eg1.sam

你会看到类似于下面的东西:

@HD VN:1.0 SO:unsorted @SQ SN:gi|9626243|ref|NC_001416.1| LN:48502 @PG ID:bowtie2 PN:bowtie2 VN:2.0.1 r1 […]

RNA-seq :TopHat2 + Cufflinks分析流程 (转帖)

RNA-seq :TopHat2 + Cufflinks分析流程: 1、测序数据质量控制:fastqc软件 1)使用方法:/life/rjian/software/fastQC/FastQC/fastqc -o /life/rjian/data/liyan/filename_fastqc \filename.fq >>filename.log 2)参数说明:-o:输出文件所在目录,并且是已经存在的目录,如:filename_fastqc –noextract:不解压缩输出文件 最后加上fastq文件:filename.fq;重定向结果到日志文件:filename.log,以便查看。 filename:表示是一个样品的一个生物学重复,一般有多个样品,每个样品有多个重复,如:C1_R1; 如果是双端测序则后面会加上数字,如:filename_1.fq和filename_2.fq

2、reads trim工具——trimmomatic 1)使用方法:java -jar /life/rjian/software/Trimmomatic-0.32/trimmomatic-0.32.jar SE -threads 5 \-phred33 -trimlog filename_trimmomatic.log filename.fq filename_out.fq ILLUMINACLIP:adapter.fa:2:30:10 \SLIDINGWINDOW:4:15 MINLEN:36 2)参数说明:SE:指定单端测序,PE:双端测序 -threads:指定线程数 -phred33:指定fastq文件的质量格式,或者:-phred64 -trimlog:指定日志文件,后加上输入和输出文件 ILLUMINACLIP:adapter.fa:2:30:10 :adapter.fa为adapter文件,2:允许的最大mismatch 数,30:palindrome模式下匹配碱基数阈值,10:simple模式下的匹配碱基数阈值 SLIDINGWINDOW:4:15 MINLEN:36 :滑动窗口的size是4个碱基,其平均碱基质量小于15,则切除。 MINLEN:36 :最低reads长度为36 3、bowtie2建立参考基因组的索引——bowtie2-build 1)使用方法: bowtie2-build <要生成的索引文件前缀名>;比如: nohup /home/cuckoo/software/bowtie2-2.2.3/bowtie2-build genome.fa bowtie2index/genome>>bowtie2.log & 2)参数说明:genome.fa是fasta文件; […]

getfasta (bedtools)

getfasta

bedtools getfasta extracts sequences from a FASTA file for each of the intervals defined in a BED/GFF/VCF file.

Tip

1. The headers in the input FASTA file must exactly match the chromosome column in the BED file.

2. You can use the UNIX fold command to set the line width of […]

Quick guide for parameters in tophat-cufflinks in nematode RNA-seq analysis

The summary of tophat-cufflinks protocol is like that:

step1: generate a tophat_out folder with bam files tophat -G genes.gtf <index> sample1_1.fq sample1_2.fq tophat -G genes.gtf <index> sample2_1.fq sample2_2.fq step2: generate new .gtf files (assemble isoform) cufflinks sample1/accepted_hits.bam cufflinks sample2/accepted_hits.bam step3: prepare a text file named assemblies.txt with following gtf files cat << EOF > assemblies.txt […]