gff3 to gft method

The easiest way is to use the gffread program that comes with the Cufflinks software suite (Tuxedo)

gffread my.gff3 -T -o my.gtf

See gffread -h for more information

ADD REPLY • link

KEGG annotation pipeline

KEGG Pathway Pipeline:

blastall -p blastp -d KEGG -i Haiyan.Pep.fasta -m 7 -a 10 -o Haiyan.Pep.fasta.blastp.m7 & ./tBLASTnParser.pl Haiyan.Pep.fasta.blastp.m7 Haiyan.Pep.fasta.blastp.m8 sed ‘1,1d’ Haiyan.Pep.fasta.blastp.m8 > Haiyan.Pep.fasta.blastp.m8.delhead

/home/zhouzh/lib/454-2.5/bin/runAssembly -m -cpu 16 -cdna -nobig -o Test sff/GV1NGBM02.sff

./draw_png.py -i ACYPIprot.KO.file -p /home/shenzy/KEGG/ko_org -o map_result5

step 1: /home/soft/blast-2.2.23/bin/blastall -p blastp -d KEGG -i MBL_relation.fa -a 15 -b 30 […]

Reordering contigs in draft genomes by MAUVE

When to use Mauve Contig Mover (MCM)

The Mauve Contig Mover (MCM) can be used to order a draft genome relative to a related reference genome. The functionality of this software module has been described in Rissman et al. 2009 , a publication in Bioinformatics. The Mauve Contig Mover can ease a comparative study between […]

PyroHMMvar: a sensitive and accurate method to call short INDELs and SNPs for Ion Torrent and 454 data

Motivation: The identification of short indels and SNPs from Ion Torrent and 454 reads is a challenging problem, essentially because these techniques are prone to sequence erroneously at homopolymers and can, therefore, raise indels in reads. Most of the existing mapping programs do not model homopolymer errors when aligning reads against the reference. The […]

微生物基因组中的GC-skew(zhuantie)

如果给出两个关键词:生物信息、GC,可能很多人的第一反应是“GC含量”(GC-content)或者“CpG岛”(CpG island)吧。这两个星期开始做非编码RNA(Non-coding RNA)预测(对象是Sinorhizobium meliloti,草木樨中华根瘤菌),接触到一个以前没听说过的新的“GC理论”:GC-skew.查国内文献,几乎找不到对它的详细介绍(也没有对应的中文翻译,skew有“ 歪,偏, 斜”的意思,通过我对这个理论的理解,就把GC-skew翻译为“GC偏移”吧)。这里翻译一篇Nature上的Review,和大家分享一下。

微生物基因组中的GC-skew 在大多数细菌基因组中,我们注意到前导链(leading strand)和滞后链(lagging strand)在碱基组成上存在很明显的不同——前导链富含G和T,而滞后链中的A和C更多一些。打破A=T和C=G的碱基频率发生的偏移,被称之为“AT偏移(AT-skew)”和“GC偏移(GC-skew)”。由于通常GC偏移比AT偏移发生的更明显,所以我们更多地只考虑GC偏移。衡量GC偏移的一个方法是延基因序列做一个滑动窗口(sliding window),计算(G-C)/(G+C)的值并绘图。这个公式给出了G超过C的百分比含量——值为正,则代表的是前导链;值为负,则为滞后链。 (图片来源:Nature.com) 是什么引起了GC偏移呢?我们对此还知之甚少。可能是因为前导链和滞后链在以单链DNA(single-stranded DNA)形态进行复制的时候两者花费的时间不同,所以易受不同的突变压力影响,从而导致暴露在不同的DNA受损环境之中。由于T-G和G-T的碱基互补配对错位(mispair)多于C-A和A-C,所以更容易出错的链(error-prone strand)可能相对地富含G和T.另一个理论依托于胞嘧啶脱氨水解(hydrolytic deamination of cytosine),这一过程显著地发生在单链DNA之中。复制叉(Replication fork)的非对称结构使得滞后链模板产生暂时性单链,使之更容易发生胞嘧啶脱氨。胞嘧啶脱氨导致生成尿嘧啶,其在复制过程中和鸟嘌呤互补配对,实质是引起了C到T的突变。因此,C到T的脱氨基作用将增加那条链中G和T的百分比含量和其互补链中的C和A的百分比含量。 为什么分析GC偏移很重要呢?因为GC偏移在前导链中是正值而在滞后链中为负值,所以GC偏移值是前导链起点、终点以及转变成滞后链的信号,反之亦然。这使得GC偏移成为在环状染色体(circular chromosomes)中标记起点和终点的一个有用的工具。曲线图中显而易见的局部的变化,可以标记出例如近来反向序列的重组或者与外源DNA的同化。DNA的丢失不会造成GC偏移曲线基本形状的改变,尽管和外部DNA新近的合成可能将会对局部方差产生影响。 实际上,GC偏移的可视化会遭受局部波动的影响。所以最好利用GC偏移的累积量,其值是计算序列中任意某一起点到指定点中相邻滑动窗口GC偏移值的总和。图中所示为Wolinella succinogenes DSM1740基因组的GC偏移值和GC偏移累加值,并表明了GC偏移值如何改变了复制起点和终点的信号。GC偏移累加值分别在这些位置上标记出了最大值和最小值。

文章来源:http://www.nature.com/nrmicro/journal/v2/n11/box/nrmicro1024_BX1.html

[…]

Solexa与Hiseq测序技术中常见术语名词解释

第二代测序技术中Solexa以及它的升级版Hiseq,目前使用最多。为了帮助PLoB网友进一步了解Solexa相关的概念。与大家分享一篇网上看到的文章《Solexa测序技术中常见术语解释》,文章后面有参考来源链接。更多相关信息欢迎加入PLoB 2000人的生物信息QQ群(群号:235461986)来讨论,有相关测序以及生物信息学问题需要解答欢迎前来。下面直接附上相关的解释。大家同时可以结合上面的示意图,了解Solexa与Hiseq的基本结构。

SBS:边合成边测序反应,每次SBS会延伸一个碱基,大约耗时70分钟。

Run:单次上机测序反应,可以产生4G-75G测序通量不等。

Lane:单泳道,每条泳道可以直接物理区分测序样品,1次run最多可以同时上样8条Lane。

Channel:Lane的同义词。

Tile:小区,每条Lane中排有2列tile,合计120个小区。每个小区上分布数目繁多的簇结合位点。

Cluster:簇,在Solexa测序技术中会采用桥式PCR方式生产DNA簇,每个DNA簇才能产生亮度达到CCD可以分辨的荧光点。

Index:标签,在Solexa多重测序(Multiplexed Sequencing)过程中会使用Index来区分样品,并在常规测序完成后,针对Index部分额外进行7个循环的测序,通过Index的识别,可以在1条Lane中区分12种不同的样品。

Barcode: Index同义词

Fasta:一种序列存储格式。一个序列文件若以FASTA格式存储,则每一条序列的第一行以“>”开 头,而跟随“>”的是序列的ID号(即唯一的标识符)及对该序列的描述信息;第二行开始是序列内容,序列短于61nt的,则一行排列完;序列长于 61nt的,则每行存储61nt,最后剩下小于61nt的,在最后一行排列完;第二条序列另起一行,仍然由“>”和序列的ID号开始,以此类推。

Fastq:Fastq是Solexa测序技术中一种反映测序序列的碱基质量的文件格式。第一行以“@”符号开头,后面紧跟一个序列的描述信息;第二行是该序列的内容;第三行以“+”符号开头,后面紧跟的内容与第一行一样,同样是该序列的描述信息;而第四行是第二行中的序列内容每个碱基所对应的测序质量值。

PF%:PF%是指符合测序质量标准的簇的百分比(Multiplexed Sequencing),与测序的通量相关联。

Read:Solexa是成簇反应的,每个簇对应一条DNA序列片段,成为一个read。

名词解释与图片的参考来源:http://www.igenomics.com.cn:7001/ajgene/jsp/ajweb/News.jsp?cid=C47825F27EC00001B8BF8B8D11C01D10

[…]

Illumina MiSeq 与GS FLX/Junior、Ion Torrent PGM性能比较

Illumina MiSeq 与GS FLX/Junior性能比较表

Illumina MiSeq

GS FLX/Junior

实验流程和周期 提供最快的二代测序的实验流程, 可在8小时内完成从DNA样本其实到分析后的数据,比GS FLX/Junior快5倍。流程包括:l 文库制备:1.5小时,使用快速、transposon-based Nextera方法

l 在一个仪器系统内、以不到4.5小时(1 X 36 bp)的时间完成从自动话的簇生成到测序

l 在同一个仪器系统内,以不到2小时的时间完成初级和次级测序数据分析

l 2 X 150 bp运行约需27小时* GS FLX/Junior 完整实验流程需要几天,包括:l 建库: 1 天

l emPCR: off-instrument and labor-intensive, 2-3 天手工操作

l 测序:10 hours

l 初级和次级测序数据分析8小时(GS FLX), >2 小时(GS Junior) 通量 最高通量的个人化测序仪:l 每次运行可产出1-1.5 […]

RazerS 3: Faster, fully sensitive read mapping

Motivation: During the last years NGS sequencing has become a key technology for many applications in the biomedical sciences. Throughput continues to increase and new protocols provide longer reads than currently available. In almost all applications, read mapping is a first step. Hence, it is crucial to have algorithms and implementations that perform fast, […]

Qualimap: evaluating next generation sequencing alignment data

Motivation: The sequence alignment/map (SAM) and the binary alignment/map (BAM) formats have become the standard method of representation of nucleotide sequence alignments for next-generation sequencing data. SAM/BAM files usually contain information from tens to hundreds of millions of reads. Often, the sequencing technology, protocol, and/or the selected mapping algorithm introduce some unwanted biases in […]

第三代测序技术

如果有人告诉你用显微镜实时观测单分子DNA聚合酶复制DNA,并用它来测序,你一定会 认为他异想天开,没有一点生物的sense。 我最初就是这样认为的,然而它不仅可以实现,而且已经实现了!这个就是被称为第三 代的测序技术,Pacific Biosciences公司推出的“Single Molecule Real Time (SMRT ™) DNA Sequencing”(单分子实时DNA测序)。 我有幸在NIH听到了这个技术发明人Stephen Turner博士的讲座,根据自己粗浅的理解 记录整理一下。

要实现单分子实时测序,有三个关键的技术。 第一个是荧光标记的脱氧核苷酸。显微镜现在再厉害,也不可能真的实时看到“单分子 ”。但是它可以实时记录荧光的强度变化。当荧光标记的脱氧核苷酸被掺入DNA链的时 候,它的荧光就同时能在DNA链上探测到。当它与DNA链形成化学键的时候,它的荧光基 团就被DNA聚合酶切除,荧光消失。这种荧光标记的脱氧核苷酸不会影响DNA聚合酶的活 性,并且在荧光被切除之后,合成的DNA链和天然的DNA链完全一样。 第二个是纳米微孔。因为在显微镜实时记录DNA链上的荧光的时候,DNA链周围的众多的 荧光标记的脱氧核苷酸形成了非常强大的荧光背景。这种强大的荧光背景使单分子的荧 光探测成为不可能。Pacific Biosciences公司发明了一种直径只有几十纳米的纳米孔[ zero-mode waveguides (ZMWs)],单分子的DNA聚合酶被固定在这个孔内。在这么小的 孔内,DNA链周围的荧光标记的脱氧核苷酸有限,而且由于A,T,C,G这四种荧光标记 的脱氧核苷酸非常快速地从外面进入到孔内又出去,它们形成了非常稳定的背景荧光信 号。而当某一种荧光标记的脱氧核苷酸被掺入到DNA链时,这种特定颜色的荧光会持续 一小段时间,直到新的化学键形成,荧光基团被DNA聚合酶切除为止(见图)。 第三个是共聚焦显微镜实时地快速地对集成在板上的无数的纳米小孔同时进行记录。由 于我对显微原理的物理知识匮乏,而Pacific Biosciences公司又没有非常强调在这方 面的发明,不做进一步探讨。

他们还对这一技术进行进一步的优化。 第一个是把双链DNA环化反复测序。人们可以在双链DNA的两头连上发夹结构的DNA adaptor,从而使DNA环化。而DNA聚合酶就能够以环化的DNA作为模板滚环复制,反复测 一段DNA序列。这种反复测序,纠正了偶尔出现的复制错误,从而使测序精度非常高。 第二个是激发光中断测序法。DNA聚合酶虽然很稳定,但是在强大的激发光作用下酶也 是有一定寿命的。如果把激发光中断一段时间,在这段时间内DNA聚合酶继续复制DNA, 当激发光重新开启以后,人们就可以测到长DNA链后面的序列。

第三代测序技术非常可怕。1、它实现了DNA聚合酶内在自身的反应速度,一秒可以测10 个碱基,测序速度是化学法测序的2万倍。2、它实现了DNA聚合酶内在自身的 processivity(延续性,也就是DNA聚合酶一次可以合成很长的片段),一个反应就可 以测非常长的序列。 二代测序现在可以测到上百个碱基,但是三代测序现在就可以测 几千个碱基。这为基因组的重复序列的拼接提供了非常好的条件。3、它的精度非常高 ,达到99.9999%。 此外,它还有两个应用是二代测序所不具备的。 第一个是直接测RNA的序列。既然DNA聚合酶能够实时观测,那么以RNA为模板复制DNA的 逆转录酶也同样可以。RNA的直接测序,将大大降低体外逆转录产生的系统误差。 第二个是直接测甲基化的DNA序列。实际上DNA聚合酶复制A、T、C、G的速度是不一样的 。正常的C或者甲基化的C为模板,DNA聚合酶停顿的时间不同。根据这个不同的时间, […]