在亚马逊EC2上部署Apache和Django

EC2是亚马逊(Amazon.com)提供的弹性云计算服务; Apache是一个跨平台的Web服务器端软件,可以使Python、PHP、Perl等语言编写的程序运行在服务器上; Django是一个Web程序框架,应用这个框架,可以使Python Web程序的编写变得更加简单; Amazon S3是亚马逊提供的云存储服务; Amazon EC2与Amazon S3结合, 几乎可以提供无限的存储空间和无限的计算能力。

以上这些东西综合在一起,就可以用简单易用的Python做出一个提供海量数据处理功能的网站,感觉这玩意儿应该在高通量测序数据数据处理方面有点用。

下面是在亚马逊EC2上部署Apache和Django的步骤:

0. 首先需要AWS上在建立一个EC2 Instance,使用Ubuntu Linux系统,可以直接在Community AMI中直接选择Ubuntu官方的AMI,ID为ami-cef405a7,EC2 Instance的建立过程并不复杂,这里就不细说了。注意:建好之后用SSH登录的时候,用户名是ubuntu,不是ec2-user,也不是 root.

1. 安装apache sudo apt-get install apache2

2. 下载安装Django wget http://www.djangoproject.com/download/1.3/tarball/ 下载下来的文件名是index.html,改一下名 mv index.html Django-1.3.tar.gz 解压 tar xzvf Django-1.3.tar.gz 安装 cd Django-0.91 sudo python setup.py install

3. 安装 mod_python apt-get install libapache2-mod-python

4. 重启Apache /etc/init.d/apache2 start

5. […]

序列相似搜索blast Qblast psiblast

BLAST主页 — 访问BLAST程序,概要,帮助文件,和FAQs。

Gapped BLAST (2.0) — 一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。统计有效性的评估是基于使用随机序列的优先模拟。在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。

QBLAST — 一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。到1999年秋季,QBLAST系统用于所有的BLAST搜索。

PSI-BLAST — 位点特异迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起 来。这个矩阵被用来搜索数据库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。

PHI-BLAST — 模式发现迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。仅仅找出那些查询序列中含有的特殊模式的对齐。

BLAST两个序列 — 一个基于BLAST的工具,对齐两个核酸或蛋白的序列,产生一个成对的DNA-DNA或蛋白—蛋白序列比较。

IgBLAST —IgBLAST被开发出来以便于分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr数据库或一个由免疫球蛋白生 殖系变化区基因的特殊的数据库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三个主要的功能:1)报告与查询序列最相似的可变,D,或J区,2) 根据Kabat et al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对于搜索核酸或蛋白nr数据库,通过匹配IgBLAST的发现和最接近的生殖系变化 区基因来简化识别相关序列的过程。

PowerBLAST —PowerBLAST是一个程序,允许对非常长的序列进行快速的gapped BLAST搜索,它把序列分割开,对每个部分搜索,然后把结果组装起来。包含在Sequin中的PowerBlast版本使用了新的强大的gapped BLAST算法,过滤和物种特异的输出特点还仍旧保留。

BLAST E-mail服务器 — 基于e-mail的序列相似搜索服务,接受FASTA格式的核酸或蛋白序列。如果要获得帮助文件,给blast@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。

网络BLAST — 一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。有PC,Mac,Unix,版本的客户软件。

单独的BLAST — 下载可用于本地执行使用的BLAST。二进制版本有IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. […]

linux 增加虚拟内存

mkdir /swaps dd if=/dev/zero of=/swapfile bs=1024 count=20480000 ##20G

mkswap /swaps/1.swap swapon /swaps/1.swap # check state swapon -s

# turn off swapoff # set auto boot

# 随机启动:添加一行到/etc/fstab /swaps/1.swap none swap sw 0 0

blast2go

 

 

shenzy@shenzy-ubuntu:/mnt/disk_xp/linux_shenzy$ wget http://www.blast2go.com/data/blast2go/local_b2g_db_tutorial_0809.zip –2012-06-25 16:29:42– http://www.blast2go.com/data/blast2go/local_b2g_db_tutorial_0809.zip Resolving www.blast2go.com… 85.25.117.102 Connecting to www.blast2go.com|85.25.117.102|:80… connected. HTTP request sent, awaiting response… 200 OK Length: 90614 (88K) [application/zip] Saving to: `local_b2g_db_tutorial_0809.zip’

100%[=======================================================================================================================================>] 90,614 52.5K/s in 1.7s

shenzy@shenzy-ubuntu:/mnt/disk_xp/linux_shenzy/local_b2g_db_tutorial$ mysql -u shenzy -p blast2go < go_201206-assocdb-data

 

 

Bioinformatics Training Network (BTN): a community resource for bioinformatics trainers

Maria V. Schneider, Peter Walter, Marie-Claude Blatter, James Watson, Michelle D. Brazas, Kristian Rother, Aidan Budd, Allegra Via, Celia W. G. van Gelder, Joachim Jacob, Pedro Fernandes, Tommi H. Nyrönen, Javier De Las Rivas, Thomas Blicher, Rafael C. Jimenez, Jane Loveland, Jennifer McDowall, Phil Jones, Brendan W. Vaughan, Rodrigo Lopez, Teresa K. Attwood, and Catherine […]

Command-line tools for processing biological sequencing data. Barcode demultiplexing, adapter trimming, etc.

http://code.google.com/p/ea-utils/

 

Primarily written to support an Illumina based pipeline – but should work with any FASTQs.

Overview: fastq-mcf

Scans a sequence file for adapters, and, based on a log-scaled threshold, determines a set of clipping parameters and performs clipping. Also does skewing detection and quality filtering.

fastq-multx

Demultiplexes a fastq. Capable of auto-determining barcode […]

Venn diagram online software

http://bioinformatics.psb.ugent.be/webtools/Venn/

An approximate workflow for repeating the phylogenetic analysis of strawberry

An approximate workflow for repeating the phylogenetic analysis of strawberry and other plant genomes would consist of the following steps: 1) Obtain protein and nucleotide sets from the identified sources. Extract subregions of protein and nucleotide sequences specified in the gene identifiers spreadsheet and group into files by family. 2) Search nucleotide sequences for papaya […]

网站版权copyright后面的符号输出显示

copyright是著作版权声明,一般出现在网站底部。 示例:Copyright © 1998 表示:在1998所有拷贝权(也就是使用权),所有的权利都给所有者使用。当然,著作版权声明还有好多其他的写法,你可以在网络上搜索到相关示例,这里就不啰嗦了。 但是Copyright © 1998 后面这个圈C的标记符号很多站长输入到网页中却无法输出显示出来,不是不识别,就是变成小点。 怎么办呢?问题的核心主要是这个圈C的符号字体编码设置不当,这里提供了几种copyright后面符号输出显示的方法: (1)DW中,插入-特殊符号-版权即可;</P> (2)或者直接在源代码中输入” &copy “; (3)在PS里,制作效果图的时候,会显示成小一点的,在网页中,如果字体为12PX的话,会显示正常的; (4)这是font-family的设置问题…只要把那些个字的font-family设为Arial, Helvetica, sans-serif就可以了

【转】PBS环境qsub, qstat, qdel(1)

PBS 是公开源代码的作业管理系统,在此环境下运行,用户不需要指定程序在哪些节点上运行,程序 所需的硬件资源由PBS 管理和分配。 1、PBS 命令 PBS 提供4 条命令用于作业管理。 (1) qsub 命令—用于提交作业脚本 命令格式: qsub [-a date_time] [-c interval] [-C directive_prefix] [-e path] [-I] [-j join] [-k keep] [-l resource_list] [-m mail_options] [-M user_list][-N name] [-o path] [-p priority] [-q destination] [-r c] [-S path_list] [-u user_list][-v variable_list] [-V] [-W additional_attributes] [-z] [script] 参数说明:因为所采用的选项一般放在pbs 脚本中提交,所以具体见PBS 脚本选项。 […]