y叔的ChIP-seq数据分析大礼包(转贴)

熟悉我们生信技能树团队的应该都知道大名鼎鼎的y叔啦,作为我们论坛的荣誉顾问,y叔一直勤勤恳恳的指出我们的错误,特意在此谢谢y叔!并奉上y叔的ChIP-seq数据分析大礼包,已经征得y叔同意啦!

关注Y叔微信公众账号biobabble

CS0: ChIPseq从入门到放弃

接下来要出一个ChIPseq系列,讲一讲ChIPseq和我的ChIPseeker包,从入门到放弃是我自己的个人写照。我做ChIPseq总共也就3个月的时间,做的事情并不多,在一知半解的情况下写下了ChIPseeker包。

正如我在《话题投票》里说的,我当时被要求做ChIPseq分析是为他人做嫁衣,而且是完全白干那种,但做为学生,白干也得干。

当时一开始使用ChIPpeakAnno做注释,但用UCSC genome browser检验结果的时候,发现对不上。在对ChIPpeakAnno包不满意的情况下,开始着手写ChIPseeker,其实在使用ChIPpeakAnno的时候,我就有写代码对结果做一些可视化,所以未有ChIPseeker先有ChIPseeker的部分可视化功能。当时写了篇博客文说ChIPpeakAnno的问题,一个月后就在Bioconductor上发表了ChIPseeker,这包完全是我半夜在宿舍里写出来的。

当时还在生物系,被我炒掉的前老板每天要求必须起码在实验室待够12小时,我每天都待到10点半左右才回宿舍,日常在实验室里啥都干不了,白天各种瞎折腾,晚上还要陪他聊天,但说来说去,每天几乎都差不多,无非是他很牛逼,我们这帮人读他phd实在太幸运,日复一日传销式洗脑。而我因为结婚了,家又离得近,周末回家,白天经常多一段单独对我的洗脑,做为一个PhD学生,在发表文章之前是不能够有周末的。每天10半从实验室里出来,回到宿舍11点,跟老婆打电话再洗澡,12点。然后从12点开始写代码到2点睡觉,才有了这个包。

虽然是一知半解的时候开发的,但还是受到大家的欢迎,半年前Matt邀请我去人大做报告时,也专门提到了ChIPseeker。

也有美国的助理教授,跟我要paper,说是上课的时候,要给学生读的,这广告效果我给满分。

文章发表了一年,已经被33篇文章引用,其中不乏有影响因子比较高的杂志:

下面是其中一些引用文章的图:

虽然ChIPseeker是我写给自己做ChIPseq注释的,但Ming Tang (https://github.com/crazyhottommy/ChIP-seq-analysis)用它去做DNA breakdown注释,当然像lincRNA注释也是有人做并且完全是支持的。有一些我以前从没在文档里提到的东西,也应该会在这个系列里写出来。

这个系列基本上是围绕着ChIPseeker的功能而来,名副其实从入门到放弃,因为我自己也是入了门然后放弃,如果想看从入门到精通的,这显然不适合你。

然而今天只是个剧透,敬请期待。

CS1: ChIPseq简介

ChIP是指染色质免疫沉淀,它通特异结合抗体将DNA结合蛋白免疫沉淀,可以用于捕获蛋白质(如转录因子,组蛋白修饰)的DNA靶点。这技术存在非常久了,在二代测序之前,结合microarray,它的名字叫ChIP-on-chip,二代测序出来之后,显而易见的,免疫沉淀拉下来的DNA拿去NGS测序,这必然是下一代的ChIP技术,优点也是显而易见的,不再需要设计探针(往往存在着一定的偏向性)。所以NGS出来以后,不差钱的牛逼实验室显然占据上风,谁先做出来,谁就定义了新技术。这是有钱人的竞赛,没钱的只能等着技术烂大街的时候跟风做。 这是显而易见的下一代技术,外加技术上完全是可行的,所以这是一场单纯的时间竞赛,于是几乎同时出来CNS文章,基本上谁也不比谁差地同时扔出来。

Johnson DS, Mortazavi A et al. (2007) Genome-wide mapping of in vivo protein–DNA interactions. Science 316: 1497–1502 Robertson G et al.(2007) Genome-wide profiles of […]

ChIPseeker for ChIP peak annotation (转贴)

https://guangchuangyu.github.io/2014/04/chipseeker-for-chip-peak-annotation/

ChIPpeakAnno WAS the only R package for ChIP peak annotation. I used it for annotating peak in my recent study.

I found it does not consider the strand information of genes. I reported the bug to the authors, but they are reluctant to change.

So I decided to develop my own package, ChIPseeker, and […]

Chip-seq流程报告(转贴)

一、摘要

实验旨在了解Chip-seq的基本原理。通过模仿文献《Targeting super enhancer associated oncogenes in oesophageal squamous cell carcinoma》的流程,学会利用NCBI和EBI数据库下载数据,熟悉Linux下的基本操作,并使用R语言画图,用Python或者shell写脚本进行基本的数据处理,通过FastQC、Bowtie、Macs、samtools、ROSE等软件进行数据处理,并对预测结果进行分析讨论。

二、材料

1、硬件平台

处理器:Intel(R) Core(TM)i7-4710MQ CPU @ 2.50GHz 2.50GHz

安装内存(RAM):16.0GB

2、系统平台

Windows 8.1,Ubuntu

3、软件平台

① Aspera connect ② FastQC ③ Bowtie

④ Macs 1.4.2 ⑤ IGV ⑥ ROSE

4、数据库资源

NCBI数据库:https://www.ncbi.nlm.nih.gov/;

EBI数据库:http://www.ebi.ac.uk/;

5、研究对象

加入H3K27Ac 抗体处理过的TE7细胞系测序数据和其空白对照组

加入H3K27Ac 抗体处理过的KYSE510细胞系和其空白对照组

背景简介:食管鳞状细胞癌(OSCC)是一种侵袭性的恶性肿瘤,本文章通过高通量小分子抑制剂进行筛选,发现了一个高度有效的抗癌物,特异性的CDK7抑制剂THZ1。RNA-Seq显示,低剂量THZ1会对一些致癌基因的产生选择性抑制作用,而且,对这些THZ1敏感的基因组功能的进一步表征表明他们经常与超级增强子结合(SE)。ChIP-seq解读在OSCC细胞中,CDK7的抑制作用的机制。

本文亮点:确定了在OSCC细胞中SE的位置,以及识别出许多SE有关的调节元件;并且发现小分子THZ1特异性抑制SE有关的转录,显示强大的抗癌性。

文章PMID: 27196599

三、方法

1、Aspera软件下载及安装

进入Aspera官网的Downloads界面,选中aspera connect server,点击Wwindows图标,选择v3.6.2版本,点击Download进行下载。

[…]

Dating a node with BEAST2.0

For details, read http://beast2.cs.auckland.ac.nz/index.php/Main_Page and http://beast2.cs.auckland.ac.nz/index.php/FAQ . For any problem, do not hesitate to browse through the list of questions on the BEAST forum https://groups.google.com/forum/#!forum/beast-users .

Exercise description

The exercise is mainly based on the Divergence Dating tutorial, but also includes a few screen captures.

Sequences files for this exercise are taken from a […]

Chip seq

何謂ChIP-Seq?

ChIP–seq ( Chromatin immunoprecipitation sequencing )是指染色質免疫沉澱後,所獲得的DNA片段進行高通量定序,並將此片段利用生物資訊的軟體對回至基因體,可以瞭解DNA-binding proteins及histone modifications的狀況,進而得知染色質及相结合的調控因子之間的相互作用關係。

ChIP-chip與ChIP-Seq差異?

次世代定序較ChIP-chip提供更高的解析度,較少的雜訊,較少的ChIP-DNA的量,及可偵測的動態範圍及基因體範圍較廣,因此可呈現較真實的基因調控及表觀遺傳學現況。

如何分析ChIP-Seq資料?

從次世代定序儀所得到的影像檔,會轉換成核苷酸序列,並計算每個核苷酸的錯誤率,將正確性高的序列對到基因體,找到Peak後,與對照組(通常是Input DNA)比較,利用統計學的計算此Enriched region的錯誤率,之後可進行其它的分析。

如何找到Protein binding site?

DNA是雙股的結構,因此ChIP-Seq是從DNA的5’端定序,會對到基因體的正反股,如下圖可看到藍色序列對到的是正股,紅色序列對到的是反股,因序列的數量畫出常態分佈後找到Peak,而兩者高峰處之間為Protein binding site (可稱為Enriched region)。

ChIP-Seq對照組

(1) Input DNA:免疫沉澱實驗前,取打斷的DNA當對照組,

(2) Mock IP DNA:打斷的DNA有經過免疫沈殿的實驗,但沒有加入抗體。

(3) Nonspecific IP DNA:打斷的DNA經過免疫沉澱的實驗,但有加入IgG。

這3個對照組最常用的是Input DNA,是為了矯正DNA打斷及PCR產生的bias。另外,也可以藉由Input DNA核苷酸序列的數量以及免疫沉澱後的核苷酸序列的數量之間比較,瞭解ChIP的效率,如下圖,而此圖也可以瞭解ChIP-Seq及ChIP-chip差異,前者可獲得高解析度及高敏感性的資料。

[…]

Mapping reads with bwa and bowtie

In this tutorial, we’re going to take a set of Illumina reads from an inbred Drosophila melanogaster line, and map them back to the reference genome. (After these steps, we could do things like generate a list of SNPs at which this line differs from the reference strain, or generate a genome sequence for this […]