linux command line skill (display and sort the file based on their size)

ll -S -h| grep ‘^[^d]’

 

-rw-r–r– 1 shenzy shenzy 3.3M 2012-01-18 10:13 Patrick_Lee_lastVersion.rar -rw-r–r– 1 shenzy shenzy 3.2M 2012-01-18 17:50 Patrick_Lee_update.rar -rw-r–r– 1 shenzy shenzy 899K 2011-11-25 18:10 metagenomic_phylogenetic_tree.ppt -rw-r–r– 1 shenzy shenzy 448K 2011-12-22 11:53 journal.pgen.1000714.pdf -rw-r–r– 1 shenzy shenzy 249K 2011-12-22 11:53 Science-2005-Seshadri-105-8.pdf -rw-r–r– 1 shenzy shenzy 240K 2012-04-12 10:51 chris_aob.shortname_closed58aob_shortname_outgroup_last_n=159.phylip.pcoa.axes -rw-r–r– […]

R abundance curve

install.packages(“BiodiversityR”) library(BiodiversityR) library(vegan) data(dune.env) data(dune) RankAbun.1 <- rankabundance(dune) RankAbun.1 rankabunplot(RankAbun.1,scale=’abundance’, addit=FALSE, specnames=c(1,2,3)) rankabuncomp(dune, y=dune.env, factor=’Management’, scale=’proportion’, legend=FALSE) mcranndata<-read.csv(file=”mcra.nn.shared.csv”, header=T, sep=”\t”) row.names(mcranndata)<-mcranndata$Group; mcranndata_matrix<mcranndata[,3:623] rankabuncomp(mcranndata_matrix, y=reladata, factor=’Group’, scale=’logabun’,scaledx=T, type=’l’, xlim=c(5,200)) Functions ‘rankabundance’ and ‘rankabuncomp’ allow to calculate rank abundance curves for subsets of the community and environmental data sets. Function ‘rankabundance’ calculates the rank abundance curve for […]

awk 一些简单的用法

# 打印每行,并删除第二列

awk ‘{ $2 = “”; print }’ file1 awk ‘{ $2 = “”;$1 = “”; print }’ test1 # 打印部分文本

bash-3.2$ # 打印文件的前十行 (模拟 “head”)

 

bash-3.2$ awk ‘NR < 11′ test1

 

 

# 打印文件的最后两行 (模拟 “tail -2″)

awk ‘{y=x “\n” $0; x=$0};END{print y}’

 

# 打印文件的最后一行 (模拟 “tail -1″)

awk ‘END{print}’

[…]

Cake: a bioinformatics pipeline for the integrated analysis of somatic variants in cancer genomes.

 

Description

 

Cake is a bioinformatics tool to identify putative somatic mutations from cancer genome/exome data. Cake combines somatic calls from a number of publicly available SNP/somatic variant calling tools with an array of variant filtering modules to discard unwanted

 

http://sourceforge.net/projects/cakesomatic/

Mothur 命令手册-Mothur命令中文解释

Align.check 这个命令使你计算16S rRNA基因序列中潜在的错配碱基对数目。如果你对ARB(http://www.arb-home.de/)的编辑窗口熟悉的话,这与计算~,#,-和=这些符号的数目相同。用greengenes的二级结构图谱和esophagus dataset运行这个命令。要运行这个命令,你必须提供FASTA格式的序列文件。 Align.seqs 这个命令把用户提供的FASTA格式的候选序列文件对齐到用户提供的同样格式的模板序列。通用的方法是: 1.采用kmer searching(http://sourceforge.net/apps/mediawiki/kmer/index.php?title=Main_Page),blastn或suffix tree searching找到每个候选序列的最接近模板 2.在候选序列文件和空位模板序列之间进行碱基配对,采用Needleman-Wunsch,Gotoh,或者blastn算法规则。 3.重新在候选和模板序列对之间插入间隔(空位),采用NAST算法,这样候选序列就能与原始模板序列兼容。 我们提供了一些16S和18S基因序列的数据库,这些是与greengenes和SILVA队列兼容的。然而,自定义的任何DNA序列的排列都可以用作模板,所以鼓励用户分享他们的排列供其他人使用。普遍来说,进行排列是很快的-我们能在3小时内将超过186000个的全长序列排序到SILVA排列中,而且质量像SINA aligner做的一样好。另外,这个速率可以由多个处理器加倍。 Amova 分子方差分析(Analysis of molecular variance)是一种传统方差分析的非参数模拟。这种方法被广泛应用在种群遗传学以检测关于两个种群的遗传多样性不是显著不同于由这两个种群的共同联合导致的多样性这样一个假设。 Anosim 参考文献:Clarke, K. R. (1993). Non-parametric multivariate analysis of changes in community structure. _Australian Journal of Ecology_ 18, 117-143. 群落结构变化的非参数多元分析《澳大利亚生态学报》 Bin.seqs 这个命令输出一个fasta格式的文件,其中序列根据它们所属的OTU进行排序。这样的输出也许对一个OTU生成特异性引物有帮助,用来对序列进行分类。 Catchall 这个命令使mothur与Linda Woodard,Sean Connolly和John Bunge开发的catchall程序连接。获取更多信息,请参看http://www.northeastern.edu/catchall/index.html。catchall的可执行程序必须与你的mothur在同一个文件夹里。如果你是一个Mac或Linux用户,你必须也安装了mono,在catchall的网页中有一个关于mono的链接。 Chimera.bellerophon 采用Bellerophon方法生成一个挑选的优先嵌合序列的得分列表。 Chimera.ccode 采用Ccode方法。对每个词语,在查询序列和参考序列之间对比距离的差异,以及参考序列与它们自己。 Chimera.check 采用chimeraCheck方法…注意:从RDP模型中,这个方法不能决定一个序列是否是嵌合的,但是让你决定那些基于产生的IS值的序列。 查看“查询的序列的左边到它的最近的匹配的距离+查询的右边到它最近的匹配的距离-整个查询序列到它最近的匹配的距离”,通过多个窗口 Chimera.perseus 这个命令读取并命名一个fasta文件,输出潜在的嵌合序列。 […]