Mothur 命令手册-Mothur命令中文解释

Align.check 这个命令使你计算16S rRNA基因序列中潜在的错配碱基对数目。如果你对ARB(http://www.arb-home.de/)的编辑窗口熟悉的话,这与计算~,#,-和=这些符号的数目相同。用greengenes的二级结构图谱和esophagus dataset运行这个命令。要运行这个命令,你必须提供FASTA格式的序列文件。 Align.seqs 这个命令把用户提供的FASTA格式的候选序列文件对齐到用户提供的同样格式的模板序列。通用的方法是: 1.采用kmer searching(http://sourceforge.net/apps/mediawiki/kmer/index.php?title=Main_Page),blastn或suffix tree searching找到每个候选序列的最接近模板 2.在候选序列文件和空位模板序列之间进行碱基配对,采用Needleman-Wunsch,Gotoh,或者blastn算法规则。 3.重新在候选和模板序列对之间插入间隔(空位),采用NAST算法,这样候选序列就能与原始模板序列兼容。 我们提供了一些16S和18S基因序列的数据库,这些是与greengenes和SILVA队列兼容的。然而,自定义的任何DNA序列的排列都可以用作模板,所以鼓励用户分享他们的排列供其他人使用。普遍来说,进行排列是很快的-我们能在3小时内将超过186000个的全长序列排序到SILVA排列中,而且质量像SINA aligner做的一样好。另外,这个速率可以由多个处理器加倍。 Amova 分子方差分析(Analysis of molecular variance)是一种传统方差分析的非参数模拟。这种方法被广泛应用在种群遗传学以检测关于两个种群的遗传多样性不是显著不同于由这两个种群的共同联合导致的多样性这样一个假设。 Anosim 参考文献:Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落结构变化的非参数多元分析《澳大利亚生态学报》 Bin.seqs 这个命令输出一个fasta格式的文件,其中序列根据它们所属的OTU进行排序。这样的输出也许对一个OTU生成特异性引物有帮助,用来对序列进行分类。 Catchall 这个命令使mothur与Linda Woodard,Sean Connolly和John Bunge开发的catchall程序连接。获取更多信息,请参看http://www.northeastern.edu/catchall/index.html。catchall的可执行程序必须与你的mothur在同一个文件夹里。如果你是一个Mac或Linux用户,你必须也安装了mono,在catchall的网页中有一个关于mono的链接。 Chimera.bellerophon 采用Bellerophon方法生成一个挑选的优先嵌合序列的得分列表。 Chimera.ccode 采用Ccode方法。对每个词语,在查询序列和参考序列之间对比距离的差异,以及参考序列与它们自己。 Chimera.check 采用chimeraCheck方法…注意:从RDP模型中,这个方法不能决定一个序列是否是嵌合的,但是让你决定那些基于产生的IS值的序列。 查看“查询的序列的左边到它的最近的匹配的距离+查询的右边到它最近的匹配的距离-整个查询序列到它最近的匹配的距离”,通过多个窗口 Chimera.perseus 这个命令读取并命名一个fasta文件,输出潜在的嵌合序列。 […]

Cytoscape基础教程笔记

昨天开始学用Cytoscape,其tutorial分为两个部分,基础的和高级的。基础教程又分成了四课:Getting Started、Filters & Editor、Fetching External Data和Expression Analysis。为防忘记,做个摘记。 第一课 新手上路,地址见http://goo.gl/FJLxp。 Cytoscape可以本地安装,也可以web start。软件得用java,所以要装JRE。我在Ubuntu下装了OpenJDK,可以运行。因为以前一直没把jnlp文件和java关联起来,所以从没成功web start过,试了一下“课文”里给出的链接,似乎不太靠谱,总之是没法启动。 启动Cytoscape后,得下载两个样例文件。以sif为后缀名的是蛋白相互作用网络信息,里面的蛋白以数字形式区别,以na为后缀名的是各数字id的注释,似乎两者的文件名必须相同才能关联起来。 sif文件的打开\导入有两种方式:File → Import → Network(Multiple File Types)或者直接Ctrol+L,na文件是File → Import → Node Attributes。Network导入之后有多种显示风格,2.8版默认风格下,圆圈是各蛋白,称为节点(node),其间各线为edge,代表相互作用。点中圆圈就选中了一个节点,想要多选,可以采用同时按Shift的方法,也可以先在Select → Mouse Drag Selects设置好选node还是选edge,然后鼠标拖放,一选一大片。 此外还可以有目的地选择。比如可以Select → Nodes → By Name,然后输入蛋白id,即可选中此节点。大海捞针即告完成。此操作的快捷键是Ctrl+F。 如果已经选中了节点,还可以Select → Nodes → First neighbors of selected nodes,可将所选蛋白的直接相互作用蛋白选中,再选File → New → Network → From selected nodes, all edges,即将相互作用网络的一个子网络剥离出来。 […]

Reading the NCBI’s GEO microarray SOFT files in R/BioConductor

http://www2.warwick.ac.uk/fac/sci/moac/people/students/peter_cock/r/geo/

This page discusses how to load GEO SOFT format microarray data from the Gene Expression Omnibus database (GEO) (hosted by the NCBI) into R/BioConductor. SOFT stands for Simple Omnibus Format in Text. There are actually four types of GEO SOFT file available:

GEO Platform (GPL) These files describe a particular type of microarray. They […]

Meta分析(Meta-analysis)简介

Meta分析的由来: Meta分析(Meta-analysis)是心理学家Glass于1976年首次提出,原文是这样的: Meta-analysis refers to the analysis of analyses. I use it to refer to the statistical analysis of a large collection of results from individual studies for the purpose of integrating the findings. It connotes a rigorous alternative to the casual, narrative discussions of research studies which typify our attempts to make sense of […]

MrBayes Tree

Use clustalw to generate nexus format file

#NEXUS BEGIN DATA; dimensions ntax=55 nchar=534; format missing=? symbols=”ABCDEFGHIKLMNPQRSTUVWXYZ” interleave datatype=DNA gap= -;

Change to as follows: #NEXUS BEGIN DATA; dimensions ntax=55 nchar=534; format datatype=dna interleave=yes gap=- missing=?;

then type mb -i *.nex

MrBayes > lset nst=6 rates=invgamma

Setting Nst to 6 Setting Rates to Invgamma Successfully […]

微生物基因组中的GC-skew(zhuantie)

如果给出两个关键词:生物信息、GC,可能很多人的第一反应是“GC含量”(GC-content)或者“CpG岛”(CpG island)吧。这两个星期开始做非编码RNA(Non-coding RNA)预测(对象是Sinorhizobium meliloti,草木樨中华根瘤菌),接触到一个以前没听说过的新的“GC理论”:GC-skew.查国内文献,几乎找不到对它的详细介绍(也没有对应的中文翻译,skew有“ 歪,偏, 斜”的意思,通过我对这个理论的理解,就把GC-skew翻译为“GC偏移”吧)。这里翻译一篇Nature上的Review,和大家分享一下。

微生物基因组中的GC-skew 在大多数细菌基因组中,我们注意到前导链(leading strand)和滞后链(lagging strand)在碱基组成上存在很明显的不同——前导链富含G和T,而滞后链中的A和C更多一些。打破A=T和C=G的碱基频率发生的偏移,被称之为“AT偏移(AT-skew)”和“GC偏移(GC-skew)”。由于通常GC偏移比AT偏移发生的更明显,所以我们更多地只考虑GC偏移。衡量GC偏移的一个方法是延基因序列做一个滑动窗口(sliding window),计算(G-C)/(G+C)的值并绘图。这个公式给出了G超过C的百分比含量——值为正,则代表的是前导链;值为负,则为滞后链。 (图片来源:Nature.com) 是什么引起了GC偏移呢?我们对此还知之甚少。可能是因为前导链和滞后链在以单链DNA(single-stranded DNA)形态进行复制的时候两者花费的时间不同,所以易受不同的突变压力影响,从而导致暴露在不同的DNA受损环境之中。由于T-G和G-T的碱基互补配对错位(mispair)多于C-A和A-C,所以更容易出错的链(error-prone strand)可能相对地富含G和T.另一个理论依托于胞嘧啶脱氨水解(hydrolytic deamination of cytosine),这一过程显著地发生在单链DNA之中。复制叉(Replication fork)的非对称结构使得滞后链模板产生暂时性单链,使之更容易发生胞嘧啶脱氨。胞嘧啶脱氨导致生成尿嘧啶,其在复制过程中和鸟嘌呤互补配对,实质是引起了C到T的突变。因此,C到T的脱氨基作用将增加那条链中G和T的百分比含量和其互补链中的C和A的百分比含量。 为什么分析GC偏移很重要呢?因为GC偏移在前导链中是正值而在滞后链中为负值,所以GC偏移值是前导链起点、终点以及转变成滞后链的信号,反之亦然。这使得GC偏移成为在环状染色体(circular chromosomes)中标记起点和终点的一个有用的工具。曲线图中显而易见的局部的变化,可以标记出例如近来反向序列的重组或者与外源DNA的同化。DNA的丢失不会造成GC偏移曲线基本形状的改变,尽管和外部DNA新近的合成可能将会对局部方差产生影响。 实际上,GC偏移的可视化会遭受局部波动的影响。所以最好利用GC偏移的累积量,其值是计算序列中任意某一起点到指定点中相邻滑动窗口GC偏移值的总和。图中所示为Wolinella succinogenes DSM1740基因组的GC偏移值和GC偏移累加值,并表明了GC偏移值如何改变了复制起点和终点的信号。GC偏移累加值分别在这些位置上标记出了最大值和最小值。

文章来源:http://www.nature.com/nrmicro/journal/v2/n11/box/nrmicro1024_BX1.html

[…]

3d printing living things DNA by Cambrian Genomics

http://www.youtube.com/watch?feature=player_detailpage&v=HjR6hzAYygk

DNAPLOTTER circos tool

DNAPlotter

DNAPlotter is a collaborative project between Jemboss and Artemis. It makes use of the existing circular plot in Jemboss and the Artemis sequence libraries.

The DNAPlotter is interactive. The sections below describe how the circular / linear plot can be altered and enhanced to arrive at the best view.

Links Artemis – a […]

Batch download protein sequences from CMR (comprehensive microbial resource)

NCBI 有时批量下载的protein sequence会有不一致时,可以从以下资源数据库下载(eg, eth195)

http://cmr.jcvi.org/cgi-bin/CMR/shared/MakeFrontPages.cgi?page=batchdownload

 

DSK: k-mer counting with very low memory usage

Summary: Counting all the k-mers (substrings of length k) in DNA/RNA sequencing reads is the preliminary step of many bioinformatics applications. However, state of the art k-mer counting methods require that a large data structure resides in memory. Such structure typically grows with the number of distinct k-mers to count.

We present a […]