小生这厢有礼了(BioFaceBook Personal Blog) » mothur

Mothur 命令手册-Mothur命令中文解释

szypanther — Thu, 17 Oct 2013 08:47:10 +0000

Mothur命令中文解释——Mothur中文简易教程
Mothur命令教程
从这个页面http://www.mothur.org/wiki/Category:Commands
上查阅的所有命令，根据个人理解翻译了一下。个人能力有限，会有不当之处。

A-G (查看时请用Ctrl+F快捷键)

http://drive5.com/uchime/

Chop.seqs
这个命令读取一个fasta文件，输出一个.chop.fasta，包含着修剪的整理的序列。它可以用于排序的和未排序的序列。
Classify.otu
这个命令用来为一个OTU得到一个共有序列分类.
Classify.seqs
这个命令允许用户使用多个不同的方法把他们的序列分配到他们选择的分类提纲（轮廓）中。当前的方法包括采用一个k-nearest邻近共有序列和Bayesian方法。分类提纲和参考序列可以在taxonomy outline（http://www.mothur.org/wiki/Taxonomy_outline）的页面中获得。这个命令需要你提供一个fasta格式的输入文件和数据库序列文件，还要有一个为了参考序列的分类文件。
Classify.tree
这个命令用来为一个进化树的每个节点获得一个共有序列。
Clear.memory
这个命令从内存中删除保存的参考数据，你可以在已经用以下命令(align.seqs, chimera.ccode, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用过保存参数之后使用chear.memory.
Clearcut
这个让mothur用户在mothur内部运行clearcut程序。chearcut程序是由Idaho大学的Initiative for Bioinformatics和Evolutionary Studies（IBEST）编写。了解更多clearcut相关信息，参看http://bioinformatics.hungry.com/clearcut/。注意，在版本1.13.0中，clearcut源码已经加进mothur，所以你不再需要clearcut的可执行程序。当然，如果你愿意，你仍可以从这里下载clearcut的可执行文件http://www.mothur.org/wiki/Download_Clearcut
Cluster
一旦一个距离矩阵读进mothur，cluster命令就能用来给OTUs分派序列。目前，mothur采用三个分簇方式。
最近邻：从OTU的最相似序列，一个OTU内的每一个序列都最多x%的距离
最远邻：一个OTU内的所有序列与OTU内的所有其它序列最多有X%的距离
平均邻近：这个方法介于另外两个算法的中间水平
如果您有一个算法，请考虑一下贡献给mothur项目。
Cluster.classic
这个命令可用于把序列分配到OTUs.它是cluster的dotur工具，目前mothur采用三个分簇方式。
Cluster.fragments
这个命令需要一个fasta格式的文件，也要提供
一个命名的文件而且当一个序列被确定为一个更大的序列的一部分时，列出的与序列名相关的指明文件就会被合并。
Cluster.split
这个命令用来分配序列到OTUs并输出一个.list, .rabund, .sabund文件.它把大的距离矩阵拆分为小的部分。
Collect.shared
这个命令给计算器生成一个收集曲线，描绘出不同群落间的相似性或它们的共有丰度。Collector’s curves描绘随着你样本增加的个体，丰富度和多样性的变化。如果Collector’s curves变得与x轴平行，你可以合理的确信你在采样这个工作上做的很好，并且相信曲线上的最终值。否则，你需要继续抽样（采样），mothur能为collector’s curves生成数据，就像sons做的那样。当时sons将数据呈现在sons文件中，实际上不可能被新手分析解读。mothur解决了许多这样的问题，因为mothur为每一个估计值产生分离的文件。
Collect.single
Collect.single利用计算器（http://www.mothur.org/wiki/Calculators）生成collector’s curves，描述了丰度，多样性和样本的其他特征。Collector’s curves描绘了你抽取额外的个体时丰度和多样性的变化。
Consensus.seqs
这个命令可以以两种方式使用：从fasta文件创建一个共有序列，或者由一个list文件为每个OTU创建一个共有序列。序列必须进行排列。
Consensus.seqs的参数（特征，因素）是fasta, list, name和label
Cooccurrence
这个命令计算四个度量并且测试他们的显著性以评估是否样式的存在与否比起那些随机期待的有所不同。
Corr.axes
这个命令将会计算在shared/relabund文件中每一行（或列）的相关系数，记录在一个pcoa文件所显示的轴线上。
Count.groups
这个命令从一个特定的组(group)或者一套组算出序列，从下面这些文件类型：group或者shared文件.
Count.seqs
这个命令计算在一个name文件中的代表性序列所代表的序列的数目。如果提供了一个group文件，它也会提供使group计数崩溃。
Create.database
这个命令读取一个list文件，*.cons.taxonomy, *.rep.fasta, *.rep.names和可选的group文件，并且创建一个数据库（database）文件.
Degap.seqs
这个命令读取一个fasta文件并输出一个.ng.fasta文件，它包含所有间隔字符都被移除后的序列。
Deunique.seqs
这个命令是unique.seqs的反向命令，从一个fasta和name文件创建一个fasta文件。
Deunique.tree
这个命令把冗余序列标识符重新插入一个唯一的系统树。
Dist.seqs
这个命令将计算两个排序的DNA序列间不正确的成对距离。这个方法比通用的DNADIST更好，因为这些距离不是存储在RAM（随机存储器）中，它们直接打印到一个文件。而且，通过它可以忽略可能不感兴趣的“大的”距离。这个命令将产生一个列格式的距离矩阵，这个矩阵与read.dist命令中的“列选项”相互兼容。这个命令也能生成一个phylip格式的距离矩阵。它有多个如何操纵gap比较和末端gap的选项。
Dist.shared
这个命令将会生成一个phylip格式的距离矩阵，描述多个组的差异性。这个命令将会计算任何一个描述群落成员或结构相似性的计算子（calculator）。
Fastq.info
这个命令读取一个fastq文件，并创建一个fasta和quality文件。
Filter.seqs
filter.seqs从基于一个由用户定义标准的排列删除列。例如，生成的与参照排列相对的排列经常有一些列的每一个字符是“.”或者“-”。这些列不会包含用于计算距离，因为他们本身没有信息。通过删除这些列，计算大量的距离这一过程就会加快。同样，人们也喜欢用温和的或强制的屏蔽方式（比如Lane’ mask）屏蔽他们的序列来移除可变区域。这类屏蔽只在深层次系统进化分析时鼓励使用，而在精细水平的分析比如需要计算OTUs中不建议。
Get.coremicrobiome
这个命令决定可变数目的样本中的OTUs的片段，为了不同的最小相关丰富度。
Get.current
这个命令允许你找出mothur已经为每个类型保存为current的一些文件，你也可以清空current文件。
Get.group
这个命令允许你为储存在内存中的多个样本的OTU数据获得一个已有的不同群组的目录。这个特征应该在为其它命令使用group选项时有帮助。
Get.groups
这个命令从一个特定group或一套groups选择序列。group来自以下文件类型：fasta，name，group，list，taxonomy.
Get.label
这个命令是你为当前储存在内存中的每行OTU数据获得一个标签的目录。这个特征应该在为其他命令使用label选项时有帮助。
Get.lineage
这个命令读取一个taxonomy文件和一个分类（taxon），并产生一个新的文件只包含有来自分类的序列。你也许也会把一个fasta, name, group, list或者align.report 文件包括到这个命令中，mothur将会为那些只包含有选定序列的文件生成新的文件。
Get.otulist
这个命令解析一个list文件并且为每一个包含两列的距离创建一个.otu文件。第一列是OTU数目，第二列是那个OTU中的序列的列表（list）。
Get.oturep
bin.seqs命令能为所有序列报告OTU号码（即编号），get.oturep命令生成一个fasta格式的序列文件，为每个OTU只包含一个代表性序列。为每个OTU的定义生成一个.rep.fasta和.rep.names文件。
Get.otus
这个命令选择出包含有来自一个特定group或一副groups的序列的OTUs.
Get.rabund
这个命令将生成一个rabund文件，它基于你输入到mothur的OTU数据。
Get.relabund
这个命令计算一个样本中的每个OTU的相对丰富度。它将输出一个.relabund文件。
Get.sabund
这个命令将产生一个sabund文件，基于你读入mothur的OTU数据。例如，如果你读入一个list文件，get.sabund将产生对应的sabund文件。
Get.seqs
这个命令把一个序列名字的列表（list）和一个fasta，name，group，list或align.report文件生成一个新的文件，只包含在list中出现的文件。这个命令也许用于和list.seqs命令结合以帮助显示一个序列结合。
Get.sharedseqs
这个命令取一个list和group文件并为每个距离输出一个*.shared.seqs文件。这对于那些情况有用，即你或许对于确定特殊groups中特定的或共有的序列感兴趣。这样接下来你就可以分类。

这些是mothur H-Z的目前所有命令的说明的翻译，第二部分。（使用Ctrl+F搜索你所查命令）
参看http://www.mothur.org/wiki/Category:Commands 页面上查阅的所有命令
我查了一下网上的中文教程，似乎没有。
现在国内使用Mothur的人还很少，不过国外有不少做生态的都用到mothur了。毕竟有很多都是命令行操作。
前天我还搜到了一个印度人在网上发的询问帖子，想问哪里有关于mothur的简单教程呢，他说mothur官方网站的教程有点难，看不太懂。
今天这些命令里有三个可能会比较常用，一个是help，就类似于Linux中的man命令，也就是你在windows中常见的帮助文件。
还有两个，sffinfo和pipeline.pds，在处理sff文件时会用上。
其中sffinfo就能将sff文件转化为fasta格式的文件，fasta是mothur处理的文件中最常见的格式。
由于最近我要处理一个sff文件，所以特别关注了与sff有关的命令，呵呵。

Hcluster
这个命令可以用来给OTUs分配序列，并输出一个.list, .rabund, .sabund和.sorted.dist文件。它不会像cluster命令那样把距离矩阵（distance matrix）保存在RAM(随机存储器)中，允许大距离文件被处理。Hcluster对小文件的处理比cluster要慢，但在大文件上更有竞争力。目前，hcluster实行4种成簇方式：
1.最近相邻：一个OTU内的每个序列与OTU中最相似的序列有最多X%的距离。
2.最远相邻：一个OTU内的所有序列与OTU内的其它序列有最多X%的距离。
3.平均相邻：这个方法介于其他两种方法之间的水平
4.重量相邻：
Heatmap.bin
这个命令从一个*.list或*.shared文件提供的数据生成一个heat map。heatmap中的每一行呈现一个不同的OTU，每个组中的OTU的颜色根据那个组内那个OTU的丰富度在黑与红之间形成成比例。这个命令会生成一个SVG文件（图片格式），它可以在GIMP或Adobe Illustrator中被进一步修改。有一些选项用于为每个采取不同方法的OTU相对丰度按比例绘制或排列。
Heatmap.sim
这个命令将会产生一个表明多个样本之间成对相似性的heatmap，采用了多个对比群落成员和结构的calculators（http://www.mothur.org/wiki/Calculators）
Help
help命令将会输出mothur中有效命令的表单。或者，如果你想要针对一个特定命令的帮助信息，用help作为选项，比如 mothur > read.list(help)，就会输出read.list的帮助信息。
Homova
分子方差的同质性（Homogeneity of molecular variance）是一个为方差同质的Bartlett’s test的非参数模拟，这已经被用于种群遗传学，检测以下假设：两个或多个种群的基因多样性是同类的或同质的（Stewart and Excoffier，1996）;这个测试还没有用于微生物生态学文献。
Indicator
这个命令可以三种方式运行：
1.用一个shared或relabund文件和一个design文件
2.用一个shared或relabund文件和一个tree文件
3.用一个shared或relabund，tree文件和design文件
Indicator命令输出一个.indicator.summary文件和一个.indicator.tre文件，如果给了一个tree。新的tree在每个内部的节点包含了标签。标签是节点号码，所以你可以把tree关联到summary文件。Summary文件为每个OTU的每个节点列出了indicator的值。
Libshuff
这个命令像以前在s-libshuff和libshuff程序中那样实施libshuff方法。libshuff法是一个描述两个或更多群落是否拥有相同结构的通用测试，采用Cramer-von Mises检测统计。这个检测统计值的显著性表明了群落（偶然）拥有同样结构的可能性。因为每个成对的对比需要两个显著测试，所以为多个对比进行一个矫正（比如Bonferroni’s correction）。
List.seqs
这个命令将会写出在一个fasta，name，group，list或align.report文件中发现的序列名字。这对于使用get.seqs，remove.seqs命令和生成group文件时有用。
Make.biom
make.biom命令让你把你的shared文件转换为一个biom文件。关于biom格式：http://biom-format.org/documentation/biom_format.html
Make.fastq
这个命令读取一个fasta和一个quality文件并创建一个fastq文件。
Make.group
这个命令读取一个fasta文件或一系列fasta文件，并创建一个group文件。
Make.shared
这个命令读取一个list和group或biom文件，并为每个group创建一个.shared和一个rabund文件。
Mantel
Mantel命令计算两个矩阵的mantel相关系数。Sokal, R. R., & Rohlf, F. J. (1995). Biometry, 3rd edn. New York: Freeman.
Merge.files
这个命令将把多个文件连结（使连续）起来并把结果输出到一个新文件。这对于合并多个fasta格式的序列文件，454 quality文件，group文件，name文件或其它等等是有用的。
Merge.groups
这个命令读取一个shared文件和一个design文件并把shared文件中同样也在design文件中分组的groups合并。
Metastats
这个命令基于White.J.R.，Nagarajan.N.和Pop.M.开发的Metastats程序。统计方法用来检测客观宏基因组样本的差异丰度特征。
Mgcluster
该命令解释暂无，需要blast参数，官方网站有使用方法。

http://www.mothur.org/wiki/Mgcluster

Nmds
这个命令是Sarah Goslee在R（http://www.r-project.org/）中所写nmds代码的模型化。采用非矩阵多维尺度分析功能，使用的Borg & Groenen的优化算法。
Normalize.shared
这个命令创建一个.norm.shared文件。
Otu.association
这个命令计算一个shared/relabund文件中的OTUs的相关系数。
Otu.hierarchy
这个命令把不同距离上的OTUs关联起来。
Pairwise.seqs
这个命令将计算序列之间不正确的成对距离。这会生成一个列格式的距离矩阵，与read.dist中的列选项兼容。这个命令也能产生一个phylip格式的距离矩阵，关于如何操作gap对比和末端gaps有多个选项。
Parse.list
这个命令读取一个list文件和group文件，并为group文件中的每个group生成一个list。
Parsimony
这个命令采用parsimony方法（aka P-test），以前在TreeClimber中使用过，现在在MacClade和UniFac网站中也有。这个Parsimony方法是一个通用的检测，用来描述两个或更多群落是否拥有同样的结构。检测统计值的显著性只表明群落随机具有相同结构的可能性。这个值不表明相似度水平。
Pca
运行这个命令需要一个shared或relabund文件。
Pcoa
需要一个plylip格式的距离矩阵文件。
Pcr.seqs
这个命令将根据用户自定义的选项修剪输入的序列。
Phylo.diversity
这个命令需要输入一个tree文件。两个文件将被输出：phylo.diversity和（如果你设置rarefy=T）.rarefaction。
Phylotype
这个命令可根据他们的分类用于给OTUs分配序列，输出一个.list，.rabund和.sabund文件。
Pipeline.pds
这个命令被设计用于指导你使用mothur（完成）通过你的分析。为了展示这个命令的各种特性，我们将使用Pat’s Pipeline Files(点击下载http://www.mothur.org/w/images/0/0f/Pipeline.tutorial.zip)
Pre.cluster
这个命令执行一个移除序列这个目标的假单链接算法，之所以移除这些序列，由于焦磷酸测序过程的错误。这个算法的一个版本是由Sue Huse开发，将在接下来的环境微生物学一篇论文中发表。基本的理念是丰富的序列比稀少序列更可能产生一些错误序列。考虑到这些，这个算法根据它们的丰富度给序列排名。然后大略读过序列表单在原始序列的一些阈值内以寻找更稀少的序列。在阈值内的那些序列与更大的序列合并。最初的Huse方法在一个距离矩阵上完成这个任务，然而现在我们基于原始序列做这个。我们的方法的优点是这个算法在排列的序列上完成而不是距离矩阵。因为通过pre-clustering你移除了大量的序列使距离计算更为快速。
Quit
quit 命令没有选项，可带或不带括号调用。
Rarefaction.shared
这个命令将产生使用，无需更换方法重新取样的样品间稀疏曲线。生态学家用稀薄（rarefaction）的传统方式是没有内随机样本的抽样秩序，而样本之间。举例来说，如果我们想知道OTU在人类结肠癌的数量，我们可以从结肠内，不同地点取样和测定一堆16S rRNA基因序列。通过确定个OTU在每个样品的数量，并比较这些样品的组成，就有可能确定你们在单个范围内的生物多样性的采样的好坏。 mothur有能力观察到的物种数量的样品间稀疏曲线生成数据。对于本教程，你应该下载并解压缩Patient70Data.zip（http://www.mothur.org/w/images/b/b2/Patient70Data.zip）
Rarefaction.single
这个命令将会产生样本内的rarefaction曲线，采取无需更换方法的重新采样。Rarefaction曲线提供一个对比不同样品中的观察到的丰度的方法。大体来说，如果你没有采的许多个体作样本你将期望已经观察了你平均获得的OTUs的数目。尽管有一个公式可产生rarefaction曲线（参看http://www.mothur.org/wiki/Rarefaction），但mothur使用随机步骤。它也能帮你评估你的样本密度（强度）。如果一个rarefaction曲线变得与X轴平行，你可以合理相信你的采样工作做的很好，而且相信观察到的丰富度水平。否则，你需要继续采样。Rarefaction实际上对多样性的测量比它对丰度的测定更好。
Read.dist
注意：从mothur1.18.0开始，read.list命令不复存在。你可以直接输入你的距离矩阵文件的名称到命令行中来使用它们。
Read.tree

注意：从mothur1.18.0开始，这个命令不复存在，你可以直接输入文件名字到命令行来使用它们。
Remove.groups

这个命令从一个特定的group或一套groups中移除序列。你可以输入一下这些文件类型：fasta, name, group, list, taxonomy和shared。
Remove.lineage

这个命令读取一个taxonomy文件和一个taxon，并生成一个新的文件，只包含不在taxon中的序列。你也可以把一个fasta，name，group，list，或align.report文件包括到这个命令中，mothur将会为每个生成新的“只包含不在taxon中的序列”的文件。
Remove.otus

这个命令删除这样的OTUs，它们含有“来自特定group或一套groups的序列”。
Remove.rare

这个命令读取以下文件类型之一：list，rabund，sabund或者shared文件，它输出一个删除了稀有OTUs的新文件。
Remove.seqs

这个命令把一个list中的序列名称和一个fasta, name, group, list或align,report文件生成一个新的文件，不包含list中的序列。这个命令与list.seqs连结对于显示序列集群（collection）有帮助。
Reverse.seqs

提供一个fasta格式的文件，reverse.seqs将生成一个包含有它们互补序列的文件。
Screen.seqs

这个命令使你保留满足特定用户所定标准的序列。而且，它能使你剔除那些不符合来自names，group或align.report文件的标准的序列。
Sens.spec

说明暂无。
Seq.error

这个命令读取一个查询的alignment文件和一个参考的alignment文件，并创建…(后面未说明)
Set.current

这个命令使你为mothur的使用设置current文件，你也可以清空current文件。
Set.dir

这个命令使你重新指向mothur创建的output文件，或者设置mothur将要查找input文件的所在目录。如果它不能在input位置找到你的文件你也可以设置一个缺省的（或默认的）位置供mothur查找。这使你把你的参考文件保留在一个位置。
Set.logfile

你或许想给你的logfile（日志文件）起一个特定的名字或者附加一系列的logfiles。set.logfile可以使你做这件事。
Sffinfo

这个命令从一个.sff文件释放读取序列。
Shhh.flows

这个命令是Chris Quince的PyroNoise算法的Pat Schloss翻译，使用的mothur的bells和whistles的合并从C到C++。基于Qunice提供的测试数据资料组的处理，shhh.flows把同样或相似的输出结果给AmpliconNoise. 这个命令采用期望最大算法以纠正流程图，确认每个流程图的理想化形式。并且把流程图转译到DNA序列。我们的测试表明当使用trim.flows命令把Titanium数据消减到450flows时，shhh.flows为任何其他已有的方法提供质量最高的数据。对比之下，当我们使用Quince建议的最小/最大数目（360/720）flows时，错误率没有那么大。这较大提高的错误率不是来自计算花费。然而，在trim.seqs的特征采取分钟的顺序，shhh.flows可以采取小时的次序。没有多个处理器或MPI时不建议对较大数据资料组运行shhh.flows命令。你可以为你的操作系统获得合适版本的MPI(http://www.open-mpi.org/).你也需要一个lookup文件告诉shhh.flows对一个给定同源多聚长度观察到一个强度值的可能性。你可以在这儿（http://www.mothur.org/wiki/Lookup_files）获得mothur兼容的文件，你将需要把这些文件与你的数据或mothur可执行程序放在一起。
Shhh.seqs

这个命令是基于mothur的，对Chris Quince’s序列表示程序——SeqNoise的重新编写。
Sort.seqs

这个命令把来自fasta，name，group，quality，flow或taxonomy文件的序列放在同样的次序（order）下。
Split.abund

这个命令读取一个fasta文件，和一个list或一个names文件，把序列分割为稀有和丰富groups.
Split.groups

这个命令读取一个fasta和group文件，并为group文件中的每个group生成一个fasta文件。
Sub.sample

这个命令用来作为一个使你的数据标准化的路径，或者从你的原始set创建一个小的set。它把以下这些文件类型作为输入：fasta, list, shared, rabund和sabund，并产生一个包含你原始文件样本的新文件。
Summary.qual

这个命令读取一个quality文件和一个作为选项的name，并概括总结quality信息。
Summary.seqs

这个命令将会总结（概述）一个未排序或排序过的fasta格式文件的序列质量。
Summary.shared

这个命令将会产生一个summary文件，对OTU数据的每一行都有calculator值，为group文件中不同groups间有所有可能的对比。这个命令在你对你的多样本数据分析产生collector’s或者rarefaction曲线不感兴趣时有用。但是，如果你对于确定这些值对于样本有多敏感感兴趣，这值得你花点时间查看那些为calculators生成的collector‘s曲线。如果这些值对样本不敏感，那么你可以相信这些值。否则，你需要继续采样（抽样）。
Summary.single
这个命令将产生一个summary文件，其它解释同summary.shared命令，不过使用方法有所不同。
Summary.tax
这个命令读取一个taxonomy文件和一个作为选项的名字或者group文件，总结taxonomy的信息。
System
这个命令使用户在不离开mothur环境的情况下，运行mothur以外的程序。这个命令对于改变目录和重命名文件有用。这个命令的语法不同于其它命令——实际需要运行的命令应该放在括号内。如果你对于shell程序不熟悉，你也许可以使你在不同的Mac/Linux和Windows的已有的shell程序中熟悉一下。
Tree.shared
这个命令将会产生一个newick格式的tree文件，描述多个groups之间的差异性（1-similarity）。采用UPGMA算法的groups使用群落间的距离被分簇，就像使用描述群落成员或结构相似性的任何calculators 那样被计算。差异性作为相似性的一个负值被计算。
Trim.flows
这个命令是与trim.seqs命令的功能是相似的，除了他使用由454测序产生的sff文件中汇集的flowgram数据。trim.flows的主要用法是作为运行shhh.seqs的一个预备步骤。Chris Qunice有一系列的perl脚本可以完成类似的任务。这个命令使你根据基于条形码的样本把你的flowgram数据分块，削减flows到一个特定的长度范围，剔除太短或有太多错配而不能编入条形码和引物的序列。
Trim.seqs
这个命令提供对需要显示和排序的pyrosequences（一种测序方法）的预处理功能。RDP(http://rdp.cme.msu.edu/)可以提供类似的分析，这里我们给你增加了灵活性和速度。这个命令将是你能修剪掉引物和条形码序列，使用条形码信息生成一个group文件并把一个fasta文件分割为次级文件，显示基于来自454测序方法的qual文件序列，剔除基于序列长度和当前不明碱基的序列，获得你的序列的反向互补。当这个分析清楚的朝着pyrosequencing 汇集（collection）开始工作，它也可以和传统的Sanger 测序方法一起使用。
Unifrac.unweighted
这个命令执行unweighted UniFrac算法。unifac.weighted命令实行这个命令weighted版本。这两个方法在UniFrac网站（http://bmf2.colorado.edu/unifrac/）都有。UniFac方法是通用的测试，描绘两个或多个群落是不是具有同样的结构。这个测试统计值的显著性只能表明群落随机具有同样结构的可能性。这个值不表明相似度水平。
Unifrac.weighted
解释见Unifrac.unweighted
Unique.seqs
这个命令只返回这样的特定序列，它们来自一个fasta格式的序列文件和一个表明这些序列与参考序列相同的文件。经常有一些序列的集合有相当数目的相同序列。它占用大量的处理时间来排序，计算距离以及给每个单独的序列分簇。
Venn
这个命令从一个提供的*.shared文件的数据生成一个Venn示意图。这个命令能产生示意图（以SVG格式）以对比2个，3个或4个group共有的丰富度。这个SVG文件可以进一步在像Gimp或Adobe Illustrator的程序中修改，根据面积的部分按比例显示由区域表示的丰富度。基于观察到的丰富度或估计的丰富度（采用chao和sharedchao calculators）这里有一些选项来测定丰度

mothur analysis pipeline script

szypanther — Tue, 13 Aug 2013 01:37:55 +0000

trim.seqs(fasta=CN.fa,qfile=CN.quala, maxambig=0, maxhomop=8, flip=T, bdiffs=1, pdiffs=2, qwindowaverage=35, qwindowsize=50, processors=7)
system(./grupp_CN.pl CN.trim.fasta > CN.groups)
unique.seqs(fasta=CN.trim.fasta)
align.seqs(fasta=CN.trim.unique.fasta, reference=gg.ref.fasta, processors=7,flip=T)
summary.seqs(fasta=CN.trim.unique.align)
screen.seqs(fasta=CN.trim.unique.align, name=CN.trim.names, group=CN.groups, end=4951,start=4655,minlength=65,processors=7)
summary.seqs(fasta=current)
filter.seqs(fasta=CN.trim.unique.good.align, vertical=T, trump=., processors=7)
unique.seqs(fasta=CN.trim.unique.good.filter.fasta, name=CN.trim.good.names)
pre.cluster(fasta=CN.trim.unique.good.filter.unique.fasta, name=CN.trim.unique.good.filter.names, group=CN.good.groups, diffs=1)
chimera.uchime(fasta=CN.trim.unique.good.filter.unique.precluster.fasta, name=CN.trim.unique.good.filter.unique.precluster.names, group=CN.good.groups, processors=7)
remove.seqs(accnos=CN.trim.unique.good.filter.unique.precluster.uchime.accnos, fasta=CN.trim.unique.good.filter.unique.precluster.fasta, name=CN.trim.unique.good.filter.unique.precluster.names, group=CN.good.groups)
system(mv CN.trim.unique.good.filter.unique.precluster.pick.names CN.final.names)
system(mv CN.trim.unique.good.filter.unique.precluster.pick.fasta CN.final.fasta)
system(mv CN.good.pick.groups CN.final.groups)
system(./gr_puhas CN.final.groups > CN.proovikaupa.groups)
remove.groups(fasta=CN.final.fasta, name=CN.final.names, group=CN.proovikaupa.groups, groups=11A-13A-11B-13B)
classify.seqs(fasta=CN.final.pick.fasta,template=gg_99.pds.ng.fasta, taxonomy=gg_99.pds.tax, cutoff=80, processors=7, method=knn)
remove.lineage(taxonomy=CN.final.pick.pds.taxonomy, name=CN.final.pick.names, group=CN.proovikaupa.pick.groups, fasta=CN.final.pick.fasta, taxon=k__Archaea;unclassified;-k__Bacteria;unclassified;, dups=T)
system(mv CN.final.pick.pick.names CNP.final.names)
system(mv CN.final.pick.pick.fasta CNP.final.fasta)
system(mv CN.proovikaupa.pick.pick.groups CNP.proovikaupa.groups)
system(mv CN.final.pick.pds.pick.taxonomy CNP.final.taxonomy)
system(./gr_suureks CNP.proovikaupa.groups > CNP.final.groups)
dist.seqs(fasta=CNP.final.fasta, cutoff=0.10, processors=7)
cluster(column=CNP.final.dist, name=CNP.final.names,method=furthest)
make.shared(list=CNP.final.fn.list, group=CNP.proovikaupa.groups, label=0.05)
count.groups()
sub.sample(shared=CNP.final.fn.shared, size=8326)
#everything fine and dandy to this point (only few notifications, at classify.seqs > There are no common levels for sequence #DBNW5DQ1:84:B04B8ABXX:5:1101:10800:19470:1:N:0:_80bp_80.0_0.86_CN_6A. #DBNW5DQ1:84:B04B8ABXX:5:1101:10800:19470:1:N:0:_80bp_80.0_0.86_CN_6A will be #disregarded.)
#Might this be the source of problems?
#Now the next command(classify) will produce these error messages.
#DBNW5DQ1:84:B04B8ABXX:5:1101:10800:19470:1:N:0:_80bp_80.0_0.86_CN_6A is not in your taxonomy file. I will not include it in the consensus.
#Warning: cannot find taxon no_consensus in reference taxonomy tree at level 0. This may cause totals of daughter levels not to add up in summary file.
#DBNW5DQ1:84:B04B8ABXX:5:1101:10800:19470:1:N:0:_80bp_80.0_0.86_CN_6A is represented by #DBNW5DQ1:84:B04B8ABXX:5:1101:9982:18199:1:N:0:_80bp_80.0_0.86_CN_6A #and is not in your taxonomy file. I will not include it in the consensus.
#so yeah this might mbe the source of my problems
classify.otu(list=CNP.final.fn.list, name=CNP.final.names, taxonomy=CNP.final.taxonomy, label=0.05, cutoff=80, reftaxonomy=gg_99.pds.tax)
#next command(make.shared(list=CNP.final.tx.list, group=CNP.proovikaupa.groups, label=1)) will cause error messages like
#[ERROR]: DBNW5DQ1:84:B04B8ABXX:5:2208:9429:200091:1:N:0:_80bp_80.0_0.86_CN_14B is in your groupfile and not your listfile. Please correct.
#Your group file contains 4021388 sequences and list file contains 4020773 sequences. Please correct.
#For a list of names that are in your group file and not in your list file, please refer to CNP.final.tx.missing.name.
#it also seems to hang up(mothur using processor but doesn’t seem to get anywhere for an hour or so, screen stays on the last lines of these notifications
#(please refer to CNP.final.tx.missing.name etc.) though no *missing* or other new files are created.)
#Is it the same problem caused by sequences that were disregarded at the classify.seqs command?
make.shared(list=CNP.final.tx.list, group=CNP.proovikaupa.groups, label=1)

Mothur 命令手册-Mothur命令中文解释

szypanther — Wed, 10 Jul 2013 06:10:57 +0000

Align.check
这个命令使你计算16S rRNA基因序列中潜在的错配碱基对数目。如果你对ARB(http://www.arb-home.de/)的编辑窗口熟悉的话，这与计算~，#，-和=这些符号的数目相同。用greengenes的二级结构图谱和esophagus dataset运行这个命令。要运行这个命令，你必须提供FASTA格式的序列文件。
Align.seqs
这个命令把用户提供的FASTA格式的候选序列文件对齐到用户提供的同样格式的模板序列。通用的方法是：
1.采用kmer searching（http://sourceforge.net/apps/mediawiki/kmer/index.php?title=Main_Page），blastn或suffix tree searching找到每个候选序列的最接近模板
2.在候选序列文件和空位模板序列之间进行碱基配对，采用Needleman-Wunsch，Gotoh，或者blastn算法规则。
3.重新在候选和模板序列对之间插入间隔（空位），采用NAST算法，这样候选序列就能与原始模板序列兼容。
我们提供了一些16S和18S基因序列的数据库，这些是与greengenes和SILVA队列兼容的。然而，自定义的任何DNA序列的排列都可以用作模板，所以鼓励用户分享他们的排列供其他人使用。普遍来说，进行排列是很快的-我们能在3小时内将超过186000个的全长序列排序到SILVA排列中，而且质量像SINA aligner做的一样好。另外，这个速率可以由多个处理器加倍。
Amova
分子方差分析（Analysis of molecular variance）是一种传统方差分析的非参数模拟。这种方法被广泛应用在种群遗传学以检测关于两个种群的遗传多样性不是显著不同于由这两个种群的共同联合导致的多样性这样一个假设。
Anosim
参考文献：Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落结构变化的非参数多元分析《澳大利亚生态学报》
Bin.seqs
这个命令输出一个fasta格式的文件，其中序列根据它们所属的OTU进行排序。这样的输出也许对一个OTU生成特异性引物有帮助，用来对序列进行分类。
Catchall
这个命令使mothur与Linda Woodard，Sean Connolly和John Bunge开发的catchall程序连接。获取更多信息，请参看http://www.northeastern.edu/catchall/index.html。catchall的可执行程序必须与你的mothur在同一个文件夹里。如果你是一个Mac或Linux用户，你必须也安装了mono，在catchall的网页中有一个关于mono的链接。
Chimera.bellerophon
采用Bellerophon方法生成一个挑选的优先嵌合序列的得分列表。
Chimera.ccode
采用Ccode方法。对每个词语，在查询序列和参考序列之间对比距离的差异，以及参考序列与它们自己。
Chimera.check
采用chimeraCheck方法…注意：从RDP模型中，这个方法不能决定一个序列是否是嵌合的，但是让你决定那些基于产生的IS值的序列。
查看“查询的序列的左边到它的最近的匹配的距离+查询的右边到它最近的匹配的距离-整个查询序列到它最近的匹配的距离”，通过多个窗口
Chimera.perseus
这个命令读取并命名一个fasta文件，输出潜在的嵌合序列。
Chimera.pintail
采用Pintall 方法。在不同的窗口中查询一个序列，查看期望的差异与观察到的差异之间的不同
Chimera.seqs
这个命令已经被拆分为6个分离的命令。
目前，mothur执行六种方法以确定一个序列是不是嵌合的。如果有一个你喜欢看到的算法可以实施，请考虑一下或者贡献给mothur项目，或者联系开发者，我们将会考虑我们能做什么。
chimera.bellerophon
chimera.pintail
chimera.check
chimera.ccode
chimera.slayer
chimera.uchime
Chimera.slayer
这个命令读取一个fasta文件和参照文件，并输出潜在的嵌合序列。原始算法的开发者建议采用一个特殊的模版参照（例如，gold）。我们用silva参照文件提供silva-based 排列的数据库。你将需要在blast/bin文件夹中有megablast和formatdb可执行文件的拷贝，这里blast文件夹与mothur可执行程序相邻。megablast/formatdb的版本可以在这里
ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/2.2.25/找到，或者它们就包含在mothur的程序版本中。
Chimera.uchime
这个命令读取一个fasta文件和参考文件，并输出潜在的嵌合序列。原始的uchime程序是由Robert C. Edgar编写的，并且贡献为公共所有。
http://drive5.com/uchime/
Chop.seqs
这个命令读取一个fasta文件，输出一个.chop.fasta，包含着修剪的整理的序列。它可以用于排序的和未排序的序列。
Classify.otu
这个命令用来为一个OTU得到一个共有序列分类.
Classify.seqs
这个命令允许用户使用多个不同的方法把他们的序列分配到他们选择的分类提纲（轮廓）中。当前的方法包括采用一个k-nearest邻近共有序列和Bayesian方法。分类提纲和参考序列可以在taxonomy outline（http://www.mothur.org/wiki/Taxonomy_outline）的页面中获得。这个命令需要你提供一个fasta格式的输入文件和数据库序列文件，还要有一个为了参考序列的分类文件。
Classify.tree
这个命令用来为一个进化树的每个节点获得一个共有序列。
Clear.memory
这个命令从内存中删除保存的参考数据，你可以在已经用以下命令(align.seqs, chimera.ccode, chimera.check, chimera.pintail, chimera.slayer和classify.seqs)之一使用过保存参数之后使用chear.memory.
Clearcut
这个让mothur用户在mothur内部运行clearcut程序。chearcut程序是由Idaho大学的Initiative for Bioinformatics和Evolutionary Studies（IBEST）编写。了解更多clearcut相关信息，参看http://bioinformatics.hungry.com/clearcut/。注意，在版本1.13.0中，clearcut源码已经加进mothur，所以你不再需要clearcut的可执行程序。当然，如果你愿意，你仍可以从这里下载clearcut的可执行文件http://www.mothur.org/wiki/Download_Clearcut
Cluster
一旦一个距离矩阵读进mothur，cluster命令就能用来给OTUs分派序列。目前，mothur采用三个分簇方式。
最近邻：从OTU的最相似序列，一个OTU内的每一个序列都最多x%的距离
最远邻：一个OTU内的所有序列与OTU内的所有其它序列最多有X%的距离
平均邻近：这个方法介于另外两个算法的中间水平
如果您有一个算法，请考虑一下贡献给mothur项目。
Cluster.classic
这个命令可用于把序列分配到OTUs.它是cluster的dotur工具，目前mothur采用三个分簇方式。
Cluster.fragments
这个命令需要一个fasta格式的文件，也要提供
一个命名的文件而且当一个序列被确定为一个更大的序列的一部分时，列出的与序列名相关的指明文件就会被合并。
Cluster.split
这个命令用来分配序列到OTUs并输出一个.list, .rabund, .sabund文件.它把大的距离矩阵拆分为小的部分。
Collect.shared
这个命令给计算器生成一个收集曲线，描绘出不同群落间的相似性或它们的共有丰度。Collector’s curves描绘随着你样本增加的个体，丰富度和多样性的变化。如果Collector’s curves变得与x轴平行，你可以合理的确信你在采样这个工作上做的很好，并且相信曲线上的最终值。否则，你需要继续抽样（采样），mothur能为collector’s curves生成数据，就像sons做的那样。当时sons将数据呈现在sons文件中，实际上不可能被新手分析解读。mothur解决了许多这样的问题，因为mothur为每一个估计值产生分离的文件。
Collect.single
Collect.single利用计算器（http://www.mothur.org/wiki/Calculators）生成collector’s curves，描述了丰度，多样性和样本的其他特征。Collector’s curves描绘了你抽取额外的个体时丰度和多样性的变化。
Consensus.seqs
这个命令可以以两种方式使用：从fasta文件创建一个共有序列，或者由一个list文件为每个OTU创建一个共有序列。序列必须进行排列。
Consensus.seqs的参数（特征，因素）是fasta, list, name和label
Cooccurrence
这个命令计算四个度量并且测试他们的显著性以评估是否样式的存在与否比起那些随机期待的有所不同。
Corr.axes
这个命令将会计算在shared/relabund文件中每一行（或列）的相关系数，记录在一个pcoa文件所显示的轴线上。
Count.groups
这个命令从一个特定的组(group)或者一套组算出序列，从下面这些文件类型：group或者shared文件.
Count.seqs
这个命令计算在一个name文件中的代表性序列所代表的序列的数目。如果提供了一个group文件，它也会提供使group计数崩溃。
Create.database
这个命令读取一个list文件，*.cons.taxonomy, *.rep.fasta, *.rep.names和可选的group文件，并且创建一个数据库（database）文件.
Degap.seqs
这个命令读取一个fasta文件并输出一个.ng.fasta文件，它包含所有间隔字符都被移除后的序列。
Deunique.seqs
这个命令是unique.seqs的反向命令，从一个fasta和name文件创建一个fasta文件。
Deunique.tree
这个命令把冗余序列标识符重新插入一个唯一的系统树。
Dist.seqs
这个命令将计算两个排序的DNA序列间不正确的成对距离。这个方法比通用的DNADIST更好，因为这些距离不是存储在RAM（随机存储器）中，它们直接打印到一个文件。而且，通过它可以忽略可能不感兴趣的“大的”距离。这个命令将产生一个列格式的距离矩阵，这个矩阵与read.dist命令中的“列选项”相互兼容。这个命令也能生成一个phylip格式的距离矩阵。它有多个如何操纵gap比较和末端gap的选项。
Dist.shared
这个命令将会生成一个phylip格式的距离矩阵，描述多个组的差异性。这个命令将会计算任何一个描述群落成员或结构相似性的计算子（calculator）。
Fastq.info
这个命令读取一个fastq文件，并创建一个fasta和quality文件。
Filter.seqs
filter.seqs从基于一个由用户定义标准的排列删除列。例如，生成的与参照排列相对的排列经常有一些列的每一个字符是“.”或者“-”。这些列不会包含用于计算距离，因为他们本身没有信息。通过删除这些列，计算大量的距离这一过程就会加快。同样，人们也喜欢用温和的或强制的屏蔽方式（比如Lane’ mask）屏蔽他们的序列来移除可变区域。这类屏蔽只在深层次系统进化分析时鼓励使用，而在精细水平的分析比如需要计算OTUs中不建议。
Get.coremicrobiome
这个命令决定可变数目的样本中的OTUs的片段，为了不同的最小相关丰富度。
Get.current
这个命令允许你找出mothur已经为每个类型保存为current的一些文件，你也可以清空current文件。
Get.group
这个命令允许你为储存在内存中的多个样本的OTU数据获得一个已有的不同群组的目录。这个特征应该在为其它命令使用group选项时有帮助。
Get.groups
这个命令从一个特定group或一套groups选择序列。group来自以下文件类型：fasta，name，group，list，taxonomy.
Get.label
这个命令是你为当前储存在内存中的每行OTU数据获得一个标签的目录。这个特征应该在为其他命令使用label选项时有帮助。
Get.lineage
这个命令读取一个taxonomy文件和一个分类（taxon），并产生一个新的文件只包含有来自分类的序列。你也许也会把一个fasta, name, group, list或者align.report 文件包括到这个命令中，mothur将会为那些只包含有选定序列的文件生成新的文件。
Get.otulist
这个命令解析一个list文件并且为每一个包含两列的距离创建一个.otu文件。第一列是OTU数目，第二列是那个OTU中的序列的列表（list）。
Get.oturep
bin.seqs命令能为所有序列报告OTU号码（即编号），get.oturep命令生成一个fasta格式的序列文件，为每个OTU只包含一个代表性序列。为每个OTU的定义生成一个.rep.fasta和.rep.names文件。
Get.otus
这个命令选择出包含有来自一个特定group或一副groups的序列的OTUs.
Get.rabund
这个命令将生成一个rabund文件，它基于你输入到mothur的OTU数据。
Get.relabund
这个命令计算一个样本中的每个OTU的相对丰富度。它将输出一个.relabund文件。
Get.sabund
这个命令将产生一个sabund文件，基于你读入mothur的OTU数据。例如，如果你读入一个list文件，get.sabund将产生对应的sabund文件。
Get.seqs
这个命令把一个序列名字的列表（list）和一个fasta，name，group，list或align.report文件生成一个新的文件，只包含在list中出现的文件。这个命令也许用于和list.seqs命令结合以帮助显示一个序列结合。
Get.sharedseqs
这个命令取一个list和group文件并为每个距离输出一个*.shared.seqs文件。这对于那些情况有用，即你或许对于确定特殊groups中特定的或共有的序列感兴趣。这样接下来你就可以分类。

本文引用地址：http://blog.sciencenet.cn/blog-556410-675154.html

RDP Tutorials (16s Analysis)

szypanther — Wed, 12 Sep 2012 07:43:23 +0000

Workflows:

Processing 16S rRNA data using a unsupervised method

Processing 16S rRNA data using a supervised method

Processing functional gene data using a supervised method

Individual tools:

Using the Pipeline Initial Process

Align 16S rRNA sequences using Infernal Aligner

Using the RDP Classifier

Using the RDP MultiClassifier

Performing Complete Linkage Clustering

–Using the .clust File Results (for abundance stats, diversity stats, OTU matrix or rarefaction)

Performing statistical analysis (coming soon)

Align protein using HMMER3 Aligner

Frameshift-correction and closest match assignment by RDP FrameBot

R tutorial for Mothur results plot

szypanther — Tue, 28 Aug 2012 08:30:38 +0000

#	--Dot/Line graphs--
#	We might be interested in plotting the first two dimensions of a PCoA or 
#	NMDS plot.  Let's do this with data generated in the Costello stool analysis
#	tutorial.  The necessary file is in your folder.

nmds<-read.table(file="stool.final.an.thetayc.0.03.lt.nmds.axes", header=T)
plot(nmds$axis1, nmds$axis2)

#	or

plot(nmds$axis2~nmds$axis1)

#	Looking at the group names in the nmds table we see that the first 12 sample
#	names are from women ("F") and the last 12 are from men ("M").  There are
#	more elegant ways to do this, but for beginners, this will work...

nmds.col<-c(rep("pink", 12), rep("blue", 12))

plot(nmds$axis2~nmds$axis1, col=nmds.col, xlab="Axis 1", ylab="Axis 2")
legend(x=0.3, y=0.6, legend=c("Female", "Male"), pch=1, col=c("pink", "blue"))

plot(nmds$axis2~nmds$axis1, col=nmds.col, xlab="Axis 1", ylab="Axis 2", pch=18,
	cex=2)
legend(x=0.3, y=0.6, legend=c("Female", "Male"), pch=18, cex=1, col=c("pink", 
	"blue"))

#	Although these points aren't linked you could connect them...

plot(nmds$axis2~nmds$axis1, col=nmds.col, xlab="Axis 1", ylab="Axis 2", pch=18, 
	cex=2, type="b")
legend(x=0.3, y=0.6, legend=c("Female", "Male"), pch=18, cex=1, lty=1, 
	col=c("pink", "blue"))

#	You can also overlay two graphs on top of each other using the points
#	command.  Here we'll put the cumulative number of sequences that have that 
#	sequence length or higher.

hist(seq.sum$nbases, col="skyblue", freq=T, xlab="Sequence Length",
	main="Distribution of Sequence Lengths", ylim=c(0,length(seq.sum$nbases)))
points(sort(seq.sum$nbases), length(seq.sum$nbases):1, type="l")
box()

TaxCollector: Modifying Current 16S rRNA Databases for the Rapid Classification at Six Taxonomic Levels

szypanther — Wed, 08 Aug 2012 02:50:10 +0000

Our project TaxCollector has been published in MPDI Diversity.

Abstract

The high level of conservation of 16S ribosomal RNA gene (16S rRNA) in all Prokaryotes makes this gene an ideal tool for the rapid identification and classification of these microorganisms. Databases such as the Ribosomal Database Project II (RDP-II) and the Greengenes Project offer access to sets of ribosomal RNA sequence databases useful in identification of microbes in a culture-independent analysis of microbial communities. However, these databases do not contain all of the taxonomic levels attached to the published names of the bacterial and archaeal sequences. TaxCollector is a set of scripts developed in Python language that attaches taxonomic information to all 16S rRNA sequences in the RDP-II and Greengenes databases. These modified databases are referred to as TaxCollector databases, which when used in conjunction with BLAST allow for rapid classification of sequences from any environmental or clinical source at six different taxonomic levels, from domain to species. The TaxCollector database prepared from the RDP-II database is an important component of a new 16S rRNA pipeline called PANGEA. The usefulness of TaxCollector databases is demonstrated with two very different datasets obtained using samples from a clinical setting and an agricultural soil.

TaxCollector is available at SourceForge and GitHub and is licensed under the Open Source GNU GPL v3.

Microbial Community Analysis GUI–Bioconducter

szypanther — Wed, 08 Aug 2012 02:47:48 +0000

http://www.bioconductor.org/packages/release/bioc/html/mcaGUI.html

mcaGUI

Microbial Community Analysis GUI

Bioconductor version: Release (2.10)

Microbial community analysis GUI for R using gWidgets.

Author: Wade K. Copeland, Vandhana Krishnan, Daniel Beck, Matt Settles, James Foster, Kyu-Chul Cho, Mitch Day, Roxana Hickey, Ursel M.E. Schutte, Xia Zhou, Chris Williams, Larry J. Forney, Zaid Abdo, Poor Man’s GUI (PMG) base code by John Verzani with contributions by Yvonnick Noel

Maintainer: Wade K. Copeland

To install this package, start R and enter:

    source("http://bioconductor.org/biocLite.R")
    biocLite("mcaGUI")

To cite this package in a publication, start R and enter:

    citation("mcaGUI")

Documentation

PDF	R Script	An_Introduction_and_User_Guide_for_mcaGUI.pdf
PDF		Reference Manual
Text		README

Details

biocViews	Bioinformatics, Clustering, GUI, Sequencing, Software, Visualization
Depends	lattice, MASS, proto, foreign, gWidgets(>= 0.0-36), gWidgetsRGtk2(>= 0.0-53),OTUbase, vegan, bpca
Imports
Suggests
System Requirements
License	GPL (>= 2)
URL	http://www.ibest.uidaho.edu/ibest/index.php
Depends On Me
Imports Me
Suggests Me
Version	1.4.0
Since	Bioconductor 2.8 (R-2.13)

Package Downloads

Package Source	mcaGUI_1.4.0.tar.gz
Windows Binary	mcaGUI_1.4.0.zip (32- & 64-bit)
MacOS 10.5 (Leopard) binary	mcaGUI_1.4.0.tgz
Package Downloads Report	Download Stats

序列长度分布直方图

szypanther — Wed, 04 Jul 2012 07:32:41 +0000

step1:通过mothur 中的summary.seqs 可以很方便获取长度分布信息

mothur > summary.seqs(fasta=AMIgene_11a.pep)
Start End NBases Ambigs Polymer NumSeqs
Minimum: 1 20 20 16 4 1
2.5%-tile: 1 55 55 42 8 35
25%-tile: 1 144 144 112 14 350
Median: 1 242 242 189 17 699
75%-tile: 1 380 380 293 21 1048
97.5%-tile: 1 828 828 646 33 1363
Maximum: 1 2117 2117 1678 48 1397
Mean: 1 288.745 288.745 223.646 17.6886
# of Seqs: 1397

Output File Name:
AMIgene_11a.pep.summary

step2: 利用R 画图 histogram

> setwd("~/public/11a_annotation_work")
> AMIgene_seq.sum <- read.table(file="AMIgene_11a.pep.summary",header=T)

> hist(AMIgene_seq.sum$nbases, col="skyblue", freq=T, xlim=c(0,1500),ylim=c(0,600),xlab="Sequence Length",main="AMIgene Distribution of Sequence Lengths")

小生这厢有礼了(BioFaceBook Personal Blog) » mothur

Mothur 命令手册-Mothur命令中文解释

mothur analysis pipeline script

Mothur 命令手册-Mothur命令中文解释

RDP Tutorials (16s Analysis)

Contents

Workflows:

Individual tools:

R tutorial for Mothur results plot

TaxCollector: Modifying Current 16S rRNA Databases for the Rapid Classification at Six Taxonomic Levels

Microbial Community Analysis GUI–Bioconducter

mcaGUI

Microbial Community Analysis GUI

Documentation

Details

Package Downloads

序列长度分布直方图