How to measure codon usage bias

Codon adaptation index (CAI) is one of them. To examine the CAI value of a gene, a reference table of RSCU (relative synonymous codon usage) values for highly expressed genes is compiled.

A software call CodonW, you can download it from: http://codonw.sourceforge.net/. There is also a PhD thesis associated to it.

shenzy@shenzy-ubuntu:~/Downloads/CondonW/codonW$ codonw input.dat -all_indices […]

利用tophat和Cufflinks做转录组差异表达分析的步骤详解

今天一个同学给我推荐一篇Nature Protocol 上文章,关于转录组差异表达分析。尚在正式通读之前习惯性浏览一遍图表,说实在这篇文章着实让我觉得有点“另类”。这是一篇活生生的利用Bowtie、tophat和Cufflinks做转录组差异表达分析的protocol。里面详细讲解每一步需要分析什么,用哪些些软件,已经相关命令和参数。

根据文章介绍的workflow,做转录组分析,无论是链特异性转录组数据(Strand-specific RNA-seq)还是非特异性数据,主要内容包括下面几个部分:

1)reads mapping,这里面推荐两款软件一个是Bowtie,另一个是tophat(此软件相对于Bowtie或者bwa,可以识别转录本的可变剪接)

2)转录组本组装(利用Cufflinks),转录本与已有基因组注释比较(利用Cuffcompare)、合并(利用Cuffmerge),转录组本差异表达分析(利用Cuffdiff)。

下面附上原文中的两张图片供大家快速预览转录组分析大致过程,其中图1是转录组分析中可能会用到的软件以及相关功能,图2:是转录本分析的一般流程。

图1

图2

关于转录组分析的相关软件在分析数据过程中的命令和参数,这里就不附加上来了,请大家直接阅读原文。

Cole Trapnell, Adam Roberts, Loyal Goff, Geo Pertea, Daehwan Kim, David R Kelley, Harold Pimentel, Steven L Salzberg, John L Rinn & Lior Pachter. Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks. Nature Protocols 7, 562–578 […]

Illumina MiSeq 与GS FLX/Junior、Ion Torrent PGM性能比较

Illumina MiSeq 与GS FLX/Junior性能比较表

Illumina MiSeq

GS FLX/Junior

实验流程和周期 提供最快的二代测序的实验流程, 可在8小时内完成从DNA样本其实到分析后的数据,比GS FLX/Junior快5倍。流程包括:l 文库制备:1.5小时,使用快速、transposon-based Nextera方法

l 在一个仪器系统内、以不到4.5小时(1 X 36 bp)的时间完成从自动话的簇生成到测序

l 在同一个仪器系统内,以不到2小时的时间完成初级和次级测序数据分析

l 2 X 150 bp运行约需27小时* GS FLX/Junior 完整实验流程需要几天,包括:l 建库: 1 天

l emPCR: off-instrument and labor-intensive, 2-3 天手工操作

l 测序:10 hours

l 初级和次级测序数据分析8小时(GS FLX), >2 小时(GS Junior) 通量 最高通量的个人化测序仪:l 每次运行可产出1-1.5 […]

各大序列数据库序列号之间的关联查询

来NCBI后自己的一个工作就是对其他人多年前的一些数据进行再分析,期望发现新的规律。其中涉及到很多序列号与序列对应,蛋白与核酸序列对应,不同数据库数据对应的问题,这里做个总结,希望对其他人也有用。

先说说NCBI序列数据库中的编号问题。NCBI序列数据中我们常用到两种编号:一个是GI,一个是ACCESSION。ACCESSION形式为CC_#####,其中CC为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;GI则全为数字表示。ACCESSION后面又会加版本号,以CC_####.#形式表示,最后的尾数递增表示序列信息较之前的版本有所修改。这样ACCESSION+版本号就是一个唯一的表示,代表一个唯一的序列,而且这个编号不会改变。而GI原则上也是一个序列一个编号,但因为序列经常会变,因此GI号也会改变,而一些GI号可能会被删除,大家可以通过NCBI的Sequence Revision History查询来看每个GI的变迁历史,包括被删除的GI。原则上讲GI并不是一个很好的序列代号,但因为其组成比较单一(全是数字),结构比较简单,因此用脚本语言比较好处理,用的很多,因此也就会导致很多问题(例如多个GI号可能会对应一个ACCESSION,而你可能无法用GI号从BioPerl中调用相应序列)。 现在讲序列数据关联的第一个问题,那就是GI与ACCESSION关联问题,以及蛋白序列与核算序列关联问题。我们很可能拿到手一些GI号,我们想知道其对应的蛋白序列,以及蛋白序列对应的核酸序列是什么。原则上这些信息都在数据库中存在,关键是我们如何获得,如果是少数几个那就好说了,把GI号拿去NCBI数据库查询,它会给出对应的蛋白,根据网站的链接,我们就会获得其相应的核算序列。但如果是大量GI呢,这种情况在比较基因组分析中很常见。NCBI提供了其文本关联文件,可以在其ftp上找到,例如gene2refseq中就包含了所有这些信息(还有更多信息,例如gene id, tax id,chromsome位置等等)。 而第二个问题是关于跨数据库间数据的关联问题。我们经常遇到这样的情况,我们得到一套数据,但其中基因用一套代号表示,而我们知道的序列信息却是另外一套编号,如何关联呢(还是大量数据的问题)?EMBL的数据如何跟与NCBI的数据关联呢,UniProt的数据如何跟NCBI关联呢,一些特殊物种的数据库(例如FlyBase,WormBase)如何跟NCBI数据关联呢?EBI上有专门的问题解答,其中提到各种服务以及数据资源。而NCBI也给出跟不同数据库的关联信息,存放在其ftp上,定期更新。一些专门的网站也来提供相应的服务,自己接触的一个是bioDBnet,其不仅给出大量数据库之间的关联查询,还能帮助你找到你需要的数据库! 先写这么多,有更新再加上。

本文引用地址:http://blog.sciencenet.cn/blog-286438-424412.html

ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

名称 大小 修改日期 [上级目录] ASN_BINARY/ 12-12-20 下午12:30:00 ASN_OLD/ 05-8-2 上午8:00:00 GENE_INFO/ 12-12-20 下午12:31:00 README 0 B 12-2-10 上午8:00:00 README_ensembl 1000 B 12-11-3 下午5:14:00 gene2accession.gz 416 MB 12-12-20 上午11:02:00 gene2ensembl.gz 5.5 MB 12-12-20 上午11:11:00 gene2go.gz 13.1 MB 12-12-20 上午11:14:00 gene2pubmed.gz 31.1 MB 12-12-20 上午11:14:00 […]

KEGG的独创使用经验分享

KEGG,Kyoto encyclopedia of Genes and Genomes ,不多说。

KEGG的数据

KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从NCBI等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外KEGG中有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签。下面就首先来讲一下KEGG orthology。

任找一个代谢通路图,在上方有pathway meue | payhway entry | Show(Hide) description | 这3个选项,点击pathway entry, 出现了一个页面,这个随时被连接出来的页面相信大家一定再熟悉不过了。在这个页面中的pathway map项中点击按钮状的链接Ortholog table 。就进入了Ortholog table如下的页面:

 

在这个表中,行与物种对应,3个字母都是相应物中的英文单词缩写,比如has表示Homo sapiens,mcc表示Macaca mulatta;列就表示相应的Ortholog分类,比如K00844就表示生物体内的己糖激酶hexokinase 这一类序列和功能相似的蛋白质类(酶类)。如上图has后有3101,3098,3099这3个条目,它表示在人类细胞中中存在3中不同的己糖激酶,它们分别由以上这3组数字代表的基因所编码,这3组数字应该是这3个基因的登录号。空白则表示在该物种中不存在这种酶。

点击K00844则这一KO分类信息及成员列表都可显示出来;点击has则链接到物种(人类)基因组去了;点击P,则显示相应的代谢通路。下面我们点击3101,如下:

 

如上图,就是我们常见的一个页面,3101是KEGG中的基因ID(登录号), H.sapiens表示物种,然后是基因的名称,表达的酶,属于哪个KO分类以及参与哪些代谢途径;下面还有结构、序列信息等等。

所以从Ortholog table中可以很容易地知道一张代谢通路上有哪些KO分类(酶类),并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。

 

怎么看KEGG中代谢通路图

比如以上这个图,方框一般就是酶,方框里面的5.4.2.2不是IP 而是EC编号;小圆圈代表代谢物,你把鼠标放上去,(别放我这上面,放KEGG中去)会出现C00668的东西,C代表compound,00668是这种化合物在KEGG中的编号,一般在KEGG中数据条目都是这样的,前面一个标志,后面一个五位数编号;大的圆方块,就表示是另一个代谢图了,所以就不展开了。

[…]

Batch download sequences from uniprot based on protein names

Ok, I’ll do mine in English:

go to UniProt.org. click tab “retrieve” Paste list into text box. Click Retrieve button. On results page, click FASTA download [ Download (30 KB*) | Open ] (Or you could click open just to have a look).

RDP Tutorials (16s Analysis)

Contents

 

Workflows:

Processing 16S rRNA data using a unsupervised method

Processing 16S rRNA data using a supervised method

Processing functional gene data using a supervised method

Individual tools:

Using the Pipeline Initial Process

Align 16S rRNA sequences using Infernal Aligner

Using the RDP Classifier

Using the RDP MultiClassifier

Performing Complete Linkage Clustering

–Using the […]

Circos 安装和学习 (一)

http://circos.ca/documentation/ Tutorials and Course

The tutorials serve as a walkthrough through Circos. The course is a more structured set of materials that takes you through creating an image from scratch.

The tutorials act as documentation — each lesson presents a specific feature of Circos.

Example Image

Once you download and install Circos,

# install circos […]

RAD-SEQ 测序

Rainbow v2.0

Rainbow package consists of several programs used for RAD-seq related clustering and de novo assembly.

http://sourceforge.net/projects/bio-rainbow/files/

 

Motivation: The innovation of Restriction site Associated DNA sequencing (RAD-seq) method takes full advantage of next-generation sequencing technology. By clustering paired-end short reads into groups with their own unique tags, RAD-seq assembly problem is divided […]

Bio3D in R Utilities for the analysis of protein structure and sequence data

http://users.mccammon.ucsd.edu/~bgrant/bio3d/user_guide/user_guide.html#example

Some Beginner Examples

 

library(bio3d) # load the bio3d package

lbio3d() # list the functions within the package

 

 

## See the help pages of individual functions for full documentation and worked examples.

help(read.pdb) # type “q” to exit help page and return to the R prompt

example(read.pdb)

 

## Read a PDB […]