blast 批量查询

问题是这样的:有很多很多序列,几百条,想大致了解一下这些序列分别是什么样的微生物,如果一条一条去blast,那是相当的累。想找一个工具告诉我每条序列blast结果的前几条的名称是什么即可,不需要其它信息。

在网上找了一下,没找到合适的软件或工具,虽然有些关于批量blast的教程之类的,比如这个,但是给出的结果及其繁琐,很多不需要的信息。

后来发现Biopython可以很简单就进行批量Blast。只需先安装Python和Biopython,Python和Biopython的下载地址分别为: http://www.python.org/download/ http://www.biopython.org/wiki/Download

Windows版本下载后直接双击安装即可,非常简单。 然后打开IDLE(Python GUI),”File”->”New Window”, 分如下两步进行:

第一步,运行下面的代码进行Blast

from Bio.Blast import NCBIWWW from Bio import SeqIO import time SeqNumber = 0 for record in SeqIO.parse(“allseq.seq”, “fasta”): SeqNumber += 1 try: result_handle = NCBIWWW.qblast(“blastn”, “nr”, record.seq) save_file = open(‘xml\\’+str(SeqNumber)+’.xml’, ‘w’) save_file.write(result_handle.read()) save_file.close() print SeqNumber,’ OK!’ except: print SeqNumber,’ Error! Will try again later!’ […]

BLAST+使用方法

BLAST+与BLAST相比,有很多改进和提高,NCBI强烈推荐放弃BLAST,使用BLAST+, 这里说的BLAST和BLAST+,都是本地的,与之前的那个批量BLAST小程序不是一回事。BLAST下载地址:NCBI BLAST+ 。BLAST+的一般用法如下:

格式化数据库 makeblastdb -in db.fasta -dbtype prot -parse_seqids -out dbname 参数说明: -in:待格式化的序列文件 -dbtype:数据库类型,prot或nucl -out:数据库名

蛋白序列比对蛋白数据库(blastp) blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_threads 8 参数说明: -query: 输入文件路径及文件名 -out:输出文件路径及文件名 -db:格式化了的数据库路径及数据库名 -outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式 -evalue:设置输出结果的e-value值 -num_descriptions:tabular格式输出结果的条数 -num_threads:线程数

核酸序列比对核酸数据库(blastn)以及核酸序列比对蛋白数据库(blastx) 与上面的blastp用法类似: blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue […]

高通量测序与云计算

高通量测序(下一代测序)最大的特点就是产生海量的数据,454测序运行一次可以产生400M左右的数据,Illumina HiSeq运行一次产生的数据量高达200G!这么多数据出来以后,必然需要大量的计算,而随着高通量测序在各个领域的广泛应用,个人计算机和工作站显然将无法完成这种数据处理工作。一些大公司或高校可以用他们自己的超级计算机进行计算,如华大拥有数个大型生物信息学超级计算中心,港大有HPC。那一些小的公司和科研单位怎么办呢?

云计算是个非常合适的选择。云计算(Cloud computing)是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。整个运行方式很像电网(摘自维 基百科)。简单地说就是可以通过互联网,把数据放到“云”中进行计算。目前Google、亚马逊(Amazon)和微软都在开发并提供云计算服务,比较适 合进行高通量测序数据处理的应该是亚马逊的AWS。

今天简单了解了一下亚马逊提供的云计算,觉得挺不错的,灵活且价格便宜:

(1) 进行计算的时候才收费,不用的时候不收费; (2) 操作系统可以自由选择Windows和Linux,而港大的HPC只有Linux可用…… (3) 价格非常便宜,以EC2为例,标准情况下,1个Instance(大致相当于一台普通电脑的计算能力吧)使用1小时只要0.085美元。这样,租20台电脑运行1天(24小时),才40美元多一点,大致相当于260RMB,简直是太便宜了。

事实上,已经有很多人在用云计算在进行高通量测序数据处理了。请看:这里。

一个生物领域的新技术,一个计算机领域的新技术,这么一碰,火花就产生了。有点可惜的是,在这两个领域,中国都没有掌握核心技术,远远落后,需要加油!

转载自:有个博客 [ http://www.yelinsky.com/blog/ ]

本文链接地址:http://www.yelinsky.com/blog/archives/349.html

网站地图制作工具 Sitemap Creator 2.1

网站地图制作工具 (Sitemap Creator ver2.1)是优异搜索有限责任公司(www.ueseo.org)制作的,旨在帮助广大站长和网商更快速地推广网站的工具。优异搜索将永久免费提供网站地图制作工具的序列号。

使用 Python + PyQt 开发,py2exe 打包,使用 sis 制作 installer,主要原理是通过爬虫爬取一个网站的链接,然后制作sitemap.xml。

网站地图制作工具可以自动抓取一个网站的所有网页链接,制作sitemap.xml。站长将sitemap.xml上传到网站服务器上,然后提交到主要的 搜索引擎,如必应(Bing.com),百度,Google,Yahoo!,和Ask.com等。这样可以使搜索引擎更好地索引您的网站,从而提高搜索引 擎排名。制作网站地图是最基本和非常重要的搜索引擎优化(Search Engine Optimization, SEO)工作。

 

下载地址:

下载绿色免安装版本

下载独立安装包

下载用户手册

使用说明:

将绿色免安装版下载后解压缩。在解压后的文件里点击SitemapCreator.exe直接运行。

如果您希望有桌面和开始菜单快捷键,请下载独立安装包。安装完后,即可使用。

 

常见问题 (Q & A)

什么是网站地图 (Sitemap)?

网站地图是一个html格式的网页文件,提供网站的结构信息。用户可以阅读网站地图,更方便地了解一个网站的内容、布局、架构。通过网站地图,用户可以快速查找他想找的内容。

网站地图文件的链接一般放在网站的显眼处 (通常为网页底部最后一行),以便于网站浏览者更方便地看到并浏览。

网站地图也为搜索引擎提供了一个良好的入口去快速抓取网站的所有页面。制作网站地图,可以让搜索引擎更多更好地抓取您的网站,提高您的搜索引擎排名。这是搜索引擎优化(SEO)很重要的工作。

如何获得网站地图制作工具的序列号?

所有用户都可以免费获得网站地图制作工具的序列号。您可以在优异搜索的网站上申请序列号。序列号申请网站为:

http://www.ueseo.org/sitemap_creator.html

一个序列号只能在一台电脑上使用。请妥善保管您的序列号。

如何获得帮助?

如果不太清楚如何使用网站地图制作工具软件或者如何向搜索引擎提交sitemap.xml,您可以到优异搜索提供的论坛中求助。论坛网址为:

http://bbs.ueseo.org/

您也可以直接与优异搜索联系。

如何提交sitemap.xml?

目前只有Google,Yahoo!,必应(Bing.com)和Ask.com支持提交sitemap.xml。百度目前不支持。下面是主要搜索引擎的 sitemap.xml提交地址。请注意,您需要将下面网站中的http://www.ueseo.org/sitemap.xml 替换成您的sitemap.xml文件的网址。

[…]

在亚马逊EC2上部署Apache和Django

EC2是亚马逊(Amazon.com)提供的弹性云计算服务; Apache是一个跨平台的Web服务器端软件,可以使Python、PHP、Perl等语言编写的程序运行在服务器上; Django是一个Web程序框架,应用这个框架,可以使Python Web程序的编写变得更加简单; Amazon S3是亚马逊提供的云存储服务; Amazon EC2与Amazon S3结合, 几乎可以提供无限的存储空间和无限的计算能力。

以上这些东西综合在一起,就可以用简单易用的Python做出一个提供海量数据处理功能的网站,感觉这玩意儿应该在高通量测序数据数据处理方面有点用。

下面是在亚马逊EC2上部署Apache和Django的步骤:

0. 首先需要AWS上在建立一个EC2 Instance,使用Ubuntu Linux系统,可以直接在Community AMI中直接选择Ubuntu官方的AMI,ID为ami-cef405a7,EC2 Instance的建立过程并不复杂,这里就不细说了。注意:建好之后用SSH登录的时候,用户名是ubuntu,不是ec2-user,也不是 root.

1. 安装apache sudo apt-get install apache2

2. 下载安装Django wget http://www.djangoproject.com/download/1.3/tarball/ 下载下来的文件名是index.html,改一下名 mv index.html Django-1.3.tar.gz 解压 tar xzvf Django-1.3.tar.gz 安装 cd Django-0.91 sudo python setup.py install

3. 安装 mod_python apt-get install libapache2-mod-python

4. 重启Apache /etc/init.d/apache2 start

5. […]

序列相似搜索blast Qblast psiblast

BLAST主页 — 访问BLAST程序,概要,帮助文件,和FAQs。

Gapped BLAST (2.0) — 一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。统计有效性的评估是基于使用随机序列的优先模拟。在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。

QBLAST — 一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。到1999年秋季,QBLAST系统用于所有的BLAST搜索。

PSI-BLAST — 位点特异迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起 来。这个矩阵被用来搜索数据库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。

PHI-BLAST — 模式发现迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。仅仅找出那些查询序列中含有的特殊模式的对齐。

BLAST两个序列 — 一个基于BLAST的工具,对齐两个核酸或蛋白的序列,产生一个成对的DNA-DNA或蛋白—蛋白序列比较。

IgBLAST —IgBLAST被开发出来以便于分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr数据库或一个由免疫球蛋白生 殖系变化区基因的特殊的数据库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三个主要的功能:1)报告与查询序列最相似的可变,D,或J区,2) 根据Kabat et al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对于搜索核酸或蛋白nr数据库,通过匹配IgBLAST的发现和最接近的生殖系变化 区基因来简化识别相关序列的过程。

PowerBLAST —PowerBLAST是一个程序,允许对非常长的序列进行快速的gapped BLAST搜索,它把序列分割开,对每个部分搜索,然后把结果组装起来。包含在Sequin中的PowerBlast版本使用了新的强大的gapped BLAST算法,过滤和物种特异的输出特点还仍旧保留。

BLAST E-mail服务器 — 基于e-mail的序列相似搜索服务,接受FASTA格式的核酸或蛋白序列。如果要获得帮助文件,给blast@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。

网络BLAST — 一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。有PC,Mac,Unix,版本的客户软件。

单独的BLAST — 下载可用于本地执行使用的BLAST。二进制版本有IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. […]