BLAST+使用方法

BLAST+与BLAST相比,有很多改进和提高,NCBI强烈推荐放弃BLAST,使用BLAST+, 这里说的BLAST和BLAST+,都是本地的,与之前的那个批量BLAST小程序不是一回事。BLAST下载地址:NCBI BLAST+ 。BLAST+的一般用法如下:

格式化数据库 makeblastdb -in db.fasta -dbtype prot -parse_seqids -out dbname 参数说明: -in:待格式化的序列文件 -dbtype:数据库类型,prot或nucl -out:数据库名

蛋白序列比对蛋白数据库(blastp) blastp -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue 1e-5 -num_descriptions 10 -num_threads 8 参数说明: -query: 输入文件路径及文件名 -out:输出文件路径及文件名 -db:格式化了的数据库路径及数据库名 -outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式 -evalue:设置输出结果的e-value值 -num_descriptions:tabular格式输出结果的条数 -num_threads:线程数

核酸序列比对核酸数据库(blastn)以及核酸序列比对蛋白数据库(blastx) 与上面的blastp用法类似: blastn -query seq.fasta -out seq.blast -db dbname -outfmt 6 -evalue […]

高通量测序与云计算

高通量测序(下一代测序)最大的特点就是产生海量的数据,454测序运行一次可以产生400M左右的数据,Illumina HiSeq运行一次产生的数据量高达200G!这么多数据出来以后,必然需要大量的计算,而随着高通量测序在各个领域的广泛应用,个人计算机和工作站显然将无法完成这种数据处理工作。一些大公司或高校可以用他们自己的超级计算机进行计算,如华大拥有数个大型生物信息学超级计算中心,港大有HPC。那一些小的公司和科研单位怎么办呢?

云计算是个非常合适的选择。云计算(Cloud computing)是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。整个运行方式很像电网(摘自维 基百科)。简单地说就是可以通过互联网,把数据放到“云”中进行计算。目前Google、亚马逊(Amazon)和微软都在开发并提供云计算服务,比较适 合进行高通量测序数据处理的应该是亚马逊的AWS。

今天简单了解了一下亚马逊提供的云计算,觉得挺不错的,灵活且价格便宜:

(1) 进行计算的时候才收费,不用的时候不收费; (2) 操作系统可以自由选择Windows和Linux,而港大的HPC只有Linux可用…… (3) 价格非常便宜,以EC2为例,标准情况下,1个Instance(大致相当于一台普通电脑的计算能力吧)使用1小时只要0.085美元。这样,租20台电脑运行1天(24小时),才40美元多一点,大致相当于260RMB,简直是太便宜了。

事实上,已经有很多人在用云计算在进行高通量测序数据处理了。请看:这里。

一个生物领域的新技术,一个计算机领域的新技术,这么一碰,火花就产生了。有点可惜的是,在这两个领域,中国都没有掌握核心技术,远远落后,需要加油!

转载自:有个博客 [ http://www.yelinsky.com/blog/ ]

本文链接地址:http://www.yelinsky.com/blog/archives/349.html

序列相似搜索blast Qblast psiblast

BLAST主页 — 访问BLAST程序,概要,帮助文件,和FAQs。

Gapped BLAST (2.0) — 一种BLAST版本,允许在它产生的对齐(alignments)中存在缺口。统计有效性的评估是基于使用随机序列的优先模拟。在不久的将来,所有对Gapped BLAST的访问都要通过QBLAST。

QBLAST — 一种新的系统,允许用户以他们方便的方式检索Gapped BLAST结果,并且可以用各种格式选项多次格式化他们的结果。这个系统也使NCBI更有效的使用计算资源,更好的为大家服务。到1999年秋季,QBLAST系统用于所有的BLAST搜索。

PSI-BLAST — 位点特异迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。所有被BLAST发现的统计有效的对齐被总和起来形成一个多次对齐,从这个对齐,一个位置特异的分值矩阵建立起 来。这个矩阵被用来搜索数据库,以找到额外的显著对齐,这个过程可能被反复迭代一直到没有新的对齐可以被发现。

PHI-BLAST — 模式发现迭代BLAST — 用蛋白查询来搜索蛋白数据库的一个程序。仅仅找出那些查询序列中含有的特殊模式的对齐。

BLAST两个序列 — 一个基于BLAST的工具,对齐两个核酸或蛋白的序列,产生一个成对的DNA-DNA或蛋白—蛋白序列比较。

IgBLAST —IgBLAST被开发出来以便于分析在GenBank中的免疫球蛋白的序列。它允许用blastp或blastn来搜索nr数据库或一个由免疫球蛋白生 殖系变化区基因的特殊的数据库。搜索可以限制在人类或小鼠的基因。IgBLAST执行三个主要的功能:1)报告与查询序列最相似的可变,D,或J区,2) 根据Kabat et al.来注解免疫球蛋白domains(从FWR1到FWR3),3)对于搜索核酸或蛋白nr数据库,通过匹配IgBLAST的发现和最接近的生殖系变化 区基因来简化识别相关序列的过程。

PowerBLAST —PowerBLAST是一个程序,允许对非常长的序列进行快速的gapped BLAST搜索,它把序列分割开,对每个部分搜索,然后把结果组装起来。包含在Sequin中的PowerBlast版本使用了新的强大的gapped BLAST算法,过滤和物种特异的输出特点还仍旧保留。

BLAST E-mail服务器 — 基于e-mail的序列相似搜索服务,接受FASTA格式的核酸或蛋白序列。如果要获得帮助文件,给blast@ncbi.nlm.nih.gov写一封只有内容为HELP的E-Mail。

网络BLAST — 一个WWW Entrez基于TCP/IP的客户-服务器版本。直接通过Internet来连接NCBI的数据库来检索数据。有PC,Mac,Unix,版本的客户软件。

单独的BLAST — 下载可用于本地执行使用的BLAST。二进制版本有IRIX 6.2, Solaris 2.6, DEC OSF1 (ver. […]

blast2go

 

 

shenzy@shenzy-ubuntu:/mnt/disk_xp/linux_shenzy$ wget http://www.blast2go.com/data/blast2go/local_b2g_db_tutorial_0809.zip –2012-06-25 16:29:42– http://www.blast2go.com/data/blast2go/local_b2g_db_tutorial_0809.zip Resolving www.blast2go.com… 85.25.117.102 Connecting to www.blast2go.com|85.25.117.102|:80… connected. HTTP request sent, awaiting response… 200 OK Length: 90614 (88K) [application/zip] Saving to: `local_b2g_db_tutorial_0809.zip’

100%[=======================================================================================================================================>] 90,614 52.5K/s in 1.7s

shenzy@shenzy-ubuntu:/mnt/disk_xp/linux_shenzy/local_b2g_db_tutorial$ mysql -u shenzy -p blast2go < go_201206-assocdb-data

 

 

Bioinformatics Training Network (BTN): a community resource for bioinformatics trainers

Maria V. Schneider, Peter Walter, Marie-Claude Blatter, James Watson, Michelle D. Brazas, Kristian Rother, Aidan Budd, Allegra Via, Celia W. G. van Gelder, Joachim Jacob, Pedro Fernandes, Tommi H. Nyrönen, Javier De Las Rivas, Thomas Blicher, Rafael C. Jimenez, Jane Loveland, Jennifer McDowall, Phil Jones, Brendan W. Vaughan, Rodrigo Lopez, Teresa K. Attwood, and Catherine […]

An approximate workflow for repeating the phylogenetic analysis of strawberry

An approximate workflow for repeating the phylogenetic analysis of strawberry and other plant genomes would consist of the following steps: 1) Obtain protein and nucleotide sets from the identified sources. Extract subregions of protein and nucleotide sequences specified in the gene identifiers spreadsheet and group into files by family. 2) Search nucleotide sequences for papaya […]

ELPH : Estimated Locations of Pattern Hits

ELPH : Estimated Locations of Pattern Hits

Overview

ELPH is a general-purpose Gibbs sampler for finding motifs in a set of DNA or protein sequences. The program takes as input a set containing anywhere from a few dozen to thousands of sequences, and searches through them for the most common motif, […]

usually bioinformatics tools

http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/

This directory contains applications for stand-alone use, built specifically for a Linux 64-bit machine. For help on the bigBed and bigWig applications see: http://genome.ucsc.edu/goldenPath/help/bigBed.html http://genome.ucsc.edu/goldenPath/help/bigWig.html View the file ‘FOOTER’ to see the usage statement for each of the applications. Name Last modified Size Description Parent Directory – FOOTER 12-Jun-2012 18:01 65K bedClip 12-Jun-2012 18:01 […]

LOCAS, a new NGS assembler particularly designed for low coverage assembly of eukaryotic genome

Next Generation Sequencing (NGS) is a frequently applied approach to detect sequence variationsbetween highly related genomes. Recent large-scale re-sequencing studies as the Human 1000 GenomesProject utilize NGS data of low coverage to afford sequencing of hundreds of individuals. Here, SNPsand micro-indels can be detected by applying an alignment-consensus approach. However,computational methods capable of […]

ANNOVAR: Functional annotation of genetic variants from high-throughput sequencing data

Description

ANNOVA is an efficient software tool to utilize update-to-date information to functionally annotategenetic variants detected from diverse genomes. Given a list of variants with chromosome, startposition, end position and observed nucleotides, ANNOVAR can identify whether SNPs or indels causeprotein coding changes and what is the amino acids that were changed, or identify variants […]