KEGG的独创使用经验分享

KEGG,Kyoto encyclopedia of Genes and Genomes ,不多说。

KEGG的数据

KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系;基因组信息主要是从NCBI等数据库中得到的,除了有完整的基因序列外,还有没完成的草图;另外KEGG中有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签。下面就首先来讲一下KEGG orthology。

任找一个代谢通路图,在上方有pathway meue | payhway entry | Show(Hide) description | 这3个选项,点击pathway entry, 出现了一个页面,这个随时被连接出来的页面相信大家一定再熟悉不过了。在这个页面中的pathway map项中点击按钮状的链接Ortholog table 。就进入了Ortholog table如下的页面:

 

在这个表中,行与物种对应,3个字母都是相应物中的英文单词缩写,比如has表示Homo sapiens,mcc表示Macaca mulatta;列就表示相应的Ortholog分类,比如K00844就表示生物体内的己糖激酶hexokinase 这一类序列和功能相似的蛋白质类(酶类)。如上图has后有3101,3098,3099这3个条目,它表示在人类细胞中中存在3中不同的己糖激酶,它们分别由以上这3组数字代表的基因所编码,这3组数字应该是这3个基因的登录号。空白则表示在该物种中不存在这种酶。

点击K00844则这一KO分类信息及成员列表都可显示出来;点击has则链接到物种(人类)基因组去了;点击P,则显示相应的代谢通路。下面我们点击3101,如下:

 

如上图,就是我们常见的一个页面,3101是KEGG中的基因ID(登录号), H.sapiens表示物种,然后是基因的名称,表达的酶,属于哪个KO分类以及参与哪些代谢途径;下面还有结构、序列信息等等。

所以从Ortholog table中可以很容易地知道一张代谢通路上有哪些KO分类(酶类),并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。

 

怎么看KEGG中代谢通路图

比如以上这个图,方框一般就是酶,方框里面的5.4.2.2不是IP 而是EC编号;小圆圈代表代谢物,你把鼠标放上去,(别放我这上面,放KEGG中去)会出现C00668的东西,C代表compound,00668是这种化合物在KEGG中的编号,一般在KEGG中数据条目都是这样的,前面一个标志,后面一个五位数编号;大的圆方块,就表示是另一个代谢图了,所以就不展开了。

[…]

Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等

Python 字符串操作(string替换、删除、截取、复制、连接、比较、查找、包含、大小写转换、分割等) s.strip() .lstrip() .rstrip(‘,’) 去空格及特殊符号 复制字符串

Python

1 #strcpy(sStr1,sStr2) 2 sStr1 = ‘strcpy’ 3 sStr2 = sStr1 4 sStr1 = ‘strcpy2′ 5 print sStr2 连接字符串

Python

1 #strcat(sStr1,sStr2) 2 sStr1 = ‘strcat’ 3 sStr2 = ‘append’ 4 sStr1 += sStr2 5 print sStr1 查找字符

< 0 未找到

Python

1 #strchr(sStr1,sStr2) 2 sStr1 = ‘strchr’ […]

Batch download sequences from uniprot based on protein names

Ok, I’ll do mine in English:

go to UniProt.org. click tab “retrieve” Paste list into text box. Click Retrieve button. On results page, click FASTA download [ Download (30 KB*) | Open ] (Or you could click open just to have a look).