<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>小生这厢有礼了(BioFaceBook Personal Blog) &#187; kegg</title>
	<atom:link href="https://www.biofacebook.com/?feed=rss2&#038;tag=kegg" rel="self" type="application/rss+xml" />
	<link>https://www.biofacebook.com</link>
	<description>记录生物信息学点滴足迹（NGS,Genome,Meta,Linux)</description>
	<lastBuildDate>Sun, 23 Aug 2020 03:28:53 +0000</lastBuildDate>
	<language>en-US</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>https://wordpress.org/?v=4.1.41</generator>
	<item>
		<title>KEGG的独创使用经验分享</title>
		<link>https://www.biofacebook.com/?p=659</link>
		<comments>https://www.biofacebook.com/?p=659#comments</comments>
		<pubDate>Fri, 30 Nov 2012 07:53:42 +0000</pubDate>
		<dc:creator><![CDATA[szypanther]]></dc:creator>
				<category><![CDATA[生物信息]]></category>
		<category><![CDATA[kegg]]></category>

		<guid isPermaLink="false">http://www.biofacebook.com/?p=659</guid>
		<description><![CDATA[<p>KEGG，Kyoto encyclopedia of Genes and Genomes ，不多说。</p> <p> </p> <p>KEGG的数据</p> <p>KEGG中的pathway是根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系；基因组信息主要是从NCBI等数据库中得到的，除了有完整的基因序列外，还有没完成的草图；另外KEGG中有一个“专有名词”KO（KEGG Orthology），它是蛋白质（酶）的一个分类体系，序列高度相似，并且在同一条通路上有相似功能的蛋白质被归为一组，然后打上KO（或K）标签。下面就首先来讲一下KEGG orthology。</p> <p>任找一个代谢通路图，在上方有pathway meue &#124; payhway entry &#124; Show(Hide) description &#124; 这3个选项，点击pathway entry, 出现了一个页面，这个随时被连接出来的页面相信大家一定再熟悉不过了。在这个页面中的pathway map项中点击按钮状的链接Ortholog table 。就进入了Ortholog table如下的页面：</p> <p align="center"></p> <p>&#160;</p> <p>在这个表中，行与物种对应，3个字母都是相应物中的英文单词缩写，比如has表示Homo sapiens，mcc表示Macaca mulatta；列就表示相应的Ortholog分类，比如K00844就表示生物体内的己糖激酶hexokinase 这一类序列和功能相似的蛋白质类（酶类）。如上图has后有3101，3098，3099这3个条目，它表示在人类细胞中中存在3中不同的己糖激酶，它们分别由以上这3组数字代表的基因所编码，这3组数字应该是这3个基因的登录号。空白则表示在该物种中不存在这种酶。</p> <p>点击K00844则这一KO分类信息及成员列表都可显示出来；点击has则链接到物种（人类）基因组去了；点击P，则显示相应的代谢通路。下面我们点击3101，如下：</p> <p>&#160;</p> <p align="center"></p> <p align="center"> <p>如上图，就是我们常见的一个页面，3101是KEGG中的基因ID（登录号）， H.sapiens表示物种，然后是基因的名称，表达的酶，属于哪个KO分类以及参与哪些代谢途径；下面还有结构、序列信息等等。</p> <p>所以从Ortholog table中可以很容易地知道一张代谢通路上有哪些KO分类（酶类），并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。</p> <p>&#160;</p> <p>怎么看KEGG中代谢通路图</p> <p></p> <p align="center"></p> <p> </p> <p>比如以上这个图，方框一般就是酶，方框里面的5.4.2.2不是IP 而是EC编号；小圆圈代表代谢物，你把鼠标放上去，（别放我这上面，放KEGG中去）会出现C00668的东西，C代表compound，00668是这种化合物在KEGG中的编号，一般在KEGG中数据条目都是这样的，前面一个标志，后面一个五位数编号；大的圆方块，就表示是另一个代谢图了，所以就不展开了。</p> [...]]]></description>
				<content:encoded><![CDATA[<p><span style="font-family: 'Times New Roman';">KEGG</span>，<span style="font-family: 'Times New Roman';">Kyoto encyclopedia of Genes and Genomes </span>，不多说。</p>
<p><span style="font-family: 'Times New Roman';"> </span></p>
<p><strong><span style="font-family: 'Times New Roman';">KEGG</span></strong><strong>的数据</strong></p>
<p><span style="font-family: 'Times New Roman';">KEGG</span>中的<span style="font-family: 'Times New Roman';">pathway</span>是根据相关知识手绘的<span style="font-family: 'Times New Roman';">,</span>这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系；基因组信息主要是从<span style="font-family: 'Times New Roman';">NCBI</span>等数据库中得到的，除了有完整的基因序列外，还有没完成的草图；另外<span style="font-family: 'Times New Roman';">KEGG</span>中有一个“专有名词”<span style="font-family: 'Times New Roman';">KO</span>（<span style="font-family: 'Times New Roman';">KEGG Orthology</span>），它是蛋白质（酶）的一个分类体系，序列高度相似，并且在同一条通路上有相似功能的蛋白质被归为一组，然后打上<span style="font-family: 'Times New Roman';">KO</span>（或<span style="font-family: 'Times New Roman';">K</span>）标签。下面就首先来讲一下<span style="font-family: 'Times New Roman';">KEGG orthology</span>。</p>
<p>任找一个代谢通路图，在上方有<span style="font-family: 'Times New Roman';">pathway meue | payhway entry | Show(Hide) description | </span>这<span style="font-family: 'Times New Roman';">3</span>个选项，点击<span style="font-family: 'Times New Roman';">pathway entry, </span>出现了一个页面，这个随时被连接出来的页面相信大家一定再熟悉不过了。在这个页面中的<span style="font-family: 'Times New Roman';">pathway map</span>项中点击按钮状的链接<span style="font-family: 'Times New Roman';">Ortholog table </span>。就进入了<span style="font-family: 'Times New Roman';">Ortholog table</span>如下的页面：</p>
<p align="center"><img src="http://img306.ph.126.net/IEXWa9Yroc761fLnaFoNOg==/3858177505773213267.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<p>&nbsp;</p>
<p>在这个表中，行与物种对应，<span style="font-family: 'Times New Roman';">3</span>个字母都是相应物中的英文单词缩写，比如<span style="font-family: 'Times New Roman';">has</span>表示<span style="font-family: 'Times New Roman';">Homo sapiens</span>，<span style="font-family: 'Times New Roman';">mcc</span>表示<span style="font-family: 'Times New Roman';">Macaca mulatta</span>；列就表示相应的<span style="font-family: 'Times New Roman';">Ortholog</span>分类，比如<span style="font-family: 'Times New Roman';">K00844</span>就表示生物体内的己糖激酶hexokinase<span style="font-family: 'Times New Roman';"> </span>这一类序列和功能相似的蛋白质类（酶类）。如上图<span style="font-family: 'Times New Roman';">has</span>后有<span style="font-family: 'Times New Roman';">3101</span>，<span style="font-family: 'Times New Roman';">3098</span>，<span style="font-family: 'Times New Roman';">3099</span>这<span style="font-family: 'Times New Roman';">3</span>个条目，它表示在人类细胞中中存在<span style="font-family: 'Times New Roman';">3</span>中不同的己糖激酶，它们分别由以上这<span style="font-family: 'Times New Roman';">3</span>组数字代表的基因所编码，这<span style="font-family: 'Times New Roman';">3</span>组数字应该是这<span style="font-family: 'Times New Roman';">3</span>个基因的登录号。空白则表示在该物种中不存在这种酶。</p>
<p>点击<span style="font-family: 'Times New Roman';">K00844</span>则这一<span style="font-family: 'Times New Roman';">KO</span>分类信息及成员列表都可显示出来；点击<span style="font-family: 'Times New Roman';">has</span>则链接到物种（人类）基因组去了；点击<span style="font-family: 'Times New Roman';">P</span>，则显示相应的代谢通路。下面我们点击<span style="font-family: 'Times New Roman';">3101</span>，如下：</p>
<p>&nbsp;</p>
<p align="center"><img src="http://img39.ph.126.net/xGX4H1sla3gDU58Mh7N9ag==/3133660915721733437.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<p align="center">
<div>
<p>如上图，就是我们常见的一个页面，3101是KEGG中的基因ID（登录号）， H.sapiens表示物种，然后是基因的名称，表达的酶，属于哪个KO分类以及参与哪些代谢途径；下面还有结构、序列信息等等。</p>
<p>所以从Ortholog table中可以很容易地知道一张代谢通路上有哪些KO分类（酶类），并且这些酶类的成员在各物种中分配存在的情况以及特定的名称。</p>
<p>&nbsp;</p>
</div>
<p><strong>怎么看KEGG中代谢通路图</strong></p>
<p><strong></strong></p>
<p align="center"><strong><img src="http://img1.ph.126.net/3feVzgGkagvmhB5oWIw4Vg==/3190800335993954272.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></strong></p>
<p><strong> </strong></p>
<p>比如以上这个图，方框一般就是酶，方框里面的<span style="font-family: 'Times New Roman';">5.4.2.2</span>不是<span style="font-family: 'Times New Roman';">IP </span>而是<span style="font-family: 'Times New Roman';">EC</span>编号；小圆圈代表代谢物，你把鼠标放上去，（别放我这上面，放<span style="font-family: 'Times New Roman';">KEGG</span>中去）会出现<span style="font-family: 'Times New Roman';">C00668</span>的东西，<span style="font-family: 'Times New Roman';">C</span>代表<span style="font-family: 'Times New Roman';">compound</span>，<span style="font-family: 'Times New Roman';">00668</span>是这种化合物在<span style="font-family: 'Times New Roman';">KEGG</span>中的编号，一般在<span style="font-family: 'Times New Roman';">KEGG</span>中数据条目都是这样的，前面一个标志，后面一个五位数编号；大的圆方块，就表示是另一个代谢图了，所以就不展开了。</p>
<p>但是：为什么这个图上有的小框框是绿色呢？（这是绿色吧？我蓝绿不分的，下同）</p>
<p>因为这是一张特定物种（<span style="font-family: 'Times New Roman';">S. cere. </span>酿酒酵母）的代谢图，蓝色的框框表示专属于这个物种。在<span style="font-family: 'Times New Roman';">KEGG</span>中有两种代谢图，一种是参考代谢通路图<span style="font-family: 'Times New Roman';">reference pathway</span>，是根据已有的知识绘制的概括的、详尽的具有一般参考意义的代谢图，这种图上就不会有绿色的小框，而都是无色的，所有的框都可以点击查看更详细的信息；另一种就是像上面这样的属于特定物种的代谢图<span style="font-family: 'Times New Roman';">species-specific pathway</span>，会用绿色来标出这个物种特有的基因或酶，只有这些绿色的框点击以后才会给出更详细的信息。这两种图很好区分，<span style="font-family: 'Times New Roman';">reference pathway </span>在<span style="font-family: 'Times New Roman';">KEGG</span>中的名字是以<span style="font-family: 'Times New Roman';">map </span>开头的，比如<span style="font-family: 'Times New Roman';">map00010</span>，就是糖酵解途径的参考图，而特定物种的代谢通路图开头三个字符不是<span style="font-family: 'Times New Roman';">map</span>而是种属英文单词的缩写（应该就是一个属的首字母<span style="font-family: 'Times New Roman';">+2</span>个种的首字母）比如酵母的糖酵解通路图，就是<span style="font-family: 'Times New Roman';">sce00010</span>，大肠杆菌的糖酵解通路图就应该是<span style="font-family: 'Times New Roman';">eco00010</span>吧。</p>
<p>那么：怎么找这两种图呢？</p>
<p>（<span style="font-family: 'Times New Roman';">1</span>）有下拉列表的时候，在列表选择<span style="font-family: 'Times New Roman';">reference </span>或者是特定物种即可。</p>
<p>（<span style="font-family: 'Times New Roman';">2</span>）在<span style="font-family: 'Times New Roman';">pathway</span>检索的页面<a href="http://www.genome.jp/kegg/pathway.html" rel="nofollow"><span style="font-family: 'Times New Roman';">http://www.genome.jp/kegg/pathway.html</span></a><span style="font-family: 'Times New Roman';"> </span>，如下图：</p>
<p>&nbsp;</p>
<p align="center"><strong><img src="http://img.ph.126.net/3Iw7CPcA71gIef1xg2tjlg==/3712936417790583629.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></strong></p>
<div><strong></strong></div>
<div>
<p>默认的就是<span style="font-family: 'Times New Roman';">map</span>，参考图，你想要什么物中的代谢图写上它的名称就好了（种属缩写），如果不知道是哪<span style="font-family: 'Times New Roman';">3</span>个字母，点击<span style="font-family: 'Times New Roman';">organism </span>选择即可。（不过你点进去也是一片空白，你要提示两个字母才会给出下拉条目）</p>
<p>顺便问一下：怎么找基因呢？</p>
<p>还是上面这张图，看到了吗，除了<span style="font-family: 'Times New Roman';">PATHWAY</span>之外是不是还有<span style="font-family: 'Times New Roman';"> BRITE</span>、<span style="font-family: 'Times New Roman';">DISEASE..</span>以及<span style="font-family: 'Times New Roman';">GENES</span>等等，点击基因<span style="font-family: 'Times New Roman';">GENES</span>，就可以查找基因了，如下图：</p>
</div>
<p><strong> </strong></p>
<p align="center"><strong><img src="http://img157.ph.126.net/wSrD2gvMX83r5FwRN5StNQ==/2248422113966345203.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></strong></p>
<div><strong></strong></div>
<div>
<p>不过这里要按一定的格式（<span style="font-family: 'Times New Roman';">org:gene</span>）输入要查找的目的基因，比如它给出的示例：<span style="font-family: 'Times New Roman';">syn</span>表示物中，<span style="font-family: 'Times New Roman';">ssr3451</span>表示基因<span style="font-family: 'Times New Roman';">ID</span>，查找出来的基因名称是<span style="font-family: 'Times New Roman';">psbE</span>。其实我试了一下，若直接检索基因名称（而不是<span style="font-family: 'Times New Roman';">KEGG</span>中的基因<span style="font-family: 'Times New Roman';">ID</span>）<span style="font-family: 'Times New Roman';">syn:psbE </span>也是一样的。因为我不知道<span style="font-family: 'Times New Roman';">KEGG</span>中基因<span style="font-family: 'Times New Roman';">ID</span>如何编制的，但是，我同时也不知道基因的名称是如何定义的。比如果糖<span style="font-family: 'Times New Roman';">1</span>，<span style="font-family: 'Times New Roman';">6-</span>二磷酸酶<span style="font-family: 'Times New Roman';">Fructose 1,6-biphosphatase </span>的基因就叫<span style="font-family: 'Times New Roman';">fbp,</span>我放进去能检索，但是我把有名的<span style="font-family: 'Times New Roman';">gal</span>填上去就不能检索，当然这可能与基因后面的乱七八糟的序号后缀有关，比如填上<span style="font-family: 'Times New Roman';">gal1</span>就能检索了，所以我真不知道基因到底怎么命名的？当然我在<span style="font-family: 'Times New Roman';">syn</span>中没找到<span style="font-family: 'Times New Roman';">gal1</span>在<span style="font-family: 'Times New Roman';">sce</span>中检索到了，这也说明了基因果然不是乱长的。</p>
<p>依旧是上面这个图，看到<span style="font-family: 'Times New Roman';">KEGG2</span>了吗？点击。也会出现检索框，这是一个总体性地检索框，在这里面输入关键词，代谢通路也好，<span style="font-family: 'Times New Roman';">glycolysis</span>也好，<span style="font-family: 'Times New Roman';"> gal</span>也好，化合物也好，没那么多限制，<span style="font-family: 'Times New Roman';">KEGG</span>中的相关东西都会检索出来，在这里浏览一下，再进行后续检索，也是一个不错的方法。</p>
<p>当然，代谢通路图，还有其他的查看形式（比如以<span style="font-family: 'Times New Roman';">KO</span>查看），以及图上可以点击，链接到这链接到那，点来点去总能点出奇怪的页面来，熟悉一下也就熟悉了，这些东西会很有用，所以我就不说了。下面讲一下<span style="font-family: 'Times New Roman';">KEGG</span>的自动注释功能。</p>
</div>
<p><strong> </strong></p>
<p><strong><span style="font-family: 'Times New Roman';">KEGG</span>的自动注释</strong></p>
<p><span style="font-family: 'Times New Roman';">     KEGG Automatic Annotation Server</span>，<span style="font-family: 'Times New Roman';">KEGG</span>的自动注释服务简称<span style="font-family: 'Times New Roman';">KAAS</span>。在线网址为<a href="http://www.genome.jp/tools/kaas/" rel="nofollow"><span style="font-family: 'Times New Roman';">http://www.genome.jp/tools/kaas/</span></a><span style="font-family: 'Times New Roman';"> </span>。就是你提交一段蛋白质序列或者基因序列（必须是<span style="font-family: 'Times New Roman';">fasta</span>格式），它自动在内部进行相似性比对，找到最相似的基因，并确定检索基因的<span style="font-family: 'Times New Roman';">KO</span>分类，然后给出这些基因所在的代谢通路并以以不同的颜色标示这些基因。如下图：</p>
<p>&nbsp;</p>
<p align="center"><img src="http://img238.ph.126.net/s_Ytt89Q1IZ3TmLnMNLNfw==/2227592965689913635.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<div></div>
<div>
<p>我在<span style="font-family: 'Times New Roman';">help</span>中随便复制了它的两条示例氨基酸序列，然后粘贴到检索框中，进行了检索。检索框默认的蛋白质序列，如果不是的话要改选。然后填上一个邮箱地址，点击又下角的<span style="font-family: 'Times New Roman';">compute</span>即可。不出意外的话，你在接下来的页面中应该看不到任何结果，甚至连提示都没有，原来它把结果发到你邮箱去了。我也不明白就一个网页链接为什么还硬要发送到邮箱。<span style="font-family: 'Times New Roman';"> </span>首先发你一封信说已经接受，并给你一个期待结果显示的网址，一段时间后，会发你另外一封邮件，说已经完成。打开它给的网址，就能看到结果了，如下：</p>
</div>
<p>&nbsp;</p>
<p align="center"><img src="http://img776.ph.126.net/cUbp_srXDMw9ZfCIEudJ9A==/1264385595385435252.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<div></div>
<div>
<p>看来从<span style="font-family: 'Times New Roman';">1</span>：<span style="font-family: 'Times New Roman';">20</span>开始计算到<span style="font-family: 'Times New Roman';">1</span>：<span style="font-family: 'Times New Roman';">50 </span>才结束，两条氨基酸链计算了<span style="font-family: 'Times New Roman';">30</span>分钟（不过我感觉没这么长呀）。人家说了，计算时间是与要和检索序列对比的目标序列成正比，因此在检索的时候最好限制一下检索范围。</p>
<p>点击<span style="font-family: 'Times New Roman';">html </span>有两条代谢通量图的条目，点开他们就可以直观地看出我们检索的未知序列在代谢通路中的位置和作用了。<span style="font-family: 'Times New Roman';">Text</span>给出的是两个<span style="font-family: 'Times New Roman';">KO</span>分类。</p>
<p>好像北京大学的生命科学学院也搞了一个<span style="font-family: 'Times New Roman';">KOBA</span>，也是基于<span style="font-family: 'Times New Roman';">KEGG </span>中的<span style="font-family: 'Times New Roman';">KO</span>进行注释的一个服务，应该和这个差不多吧。</p>
</div>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p><strong>代谢通路的着色</strong><strong></strong></p>
<p>怎么在<span style="font-family: 'Times New Roman';">KEGG</span>检索出来的代谢通路中给特定的一些化合物或者基因（酶）着色以高亮显示呢？</p>
<p>进入网页<span style="font-family: 'Times New Roman';"> <a href="http://www.genome.jp/kegg/tool/color_pathway.html" rel="nofollow">http://www.genome.jp/kegg/tool/color_pathway.html</a> </span>，或者由<span style="font-family: 'Times New Roman';">pathway</span>主页的<span style="font-family: 'Times New Roman';">Color objects in KEGG pathways</span>进入，看图：</p>
<p>&nbsp;</p>
<p align="center"><img src="http://img.ph.126.net/z7lCwFVTgTWzi_iv56tVGA==/3253287780823228418.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<p>&nbsp;</p>
<p>如上图，<span style="font-family: 'Times New Roman';">search against </span>下拉出你可供选择的代谢通量图，总所周知的一个很烦人的问题就是，在这些下拉列表中，条目排序竟然是乱七八糟的很难索引。还好我发现把焦点定在这个下拉列表的最顶端的文本框上（即文本框变成选中的蓝色），然后在键盘上拼写你要的那个物中的英文单词，只需要拼两三个字符相应的代谢通量图就出现在顶端了。比如我要找酵母的代谢通量图，只需要在文本框变蓝的时候拼写“<span style="font-family: 'Times New Roman';">sacc</span>”这几个字符“<span style="font-family: 'Times New Roman';">Saccharomyces cerevisiae(budding yeast)</span>”就自动被置于上面了。或者不把焦点集中在文本框中也行，但是你要很快地拼写<span style="font-family: 'Times New Roman';">sacc</span>，否者的话焦点会在以这几个字符开头的条目之间切换。</p>
<p>如上图，右边有示例，这个貌似不要太简单。想给谁着色就把它写出来后面跟上颜色就好了，一个一行。比如写上<span style="font-family: 'Times New Roman';">C00118 blue </span>就表示在代谢通路图中把<span style="font-family: 'Times New Roman';">C00118</span>这种代谢物（<span style="font-family: 'Times New Roman';">3-</span>磷酸甘油醛，<span style="font-family: 'Times New Roman';">GAP</span>）给着上蓝色。但是大家也看出来了，着色可以自定义背景色，也可以同时定义前景色。我曾一度琢磨前景色是干嘛的，琢磨半天发现没用。背景色就是把方框或者圆圈涂成选定的颜色，这自然是要的；而前景色是谁的颜色，就是方框里面的<span style="font-family: 'Times New Roman';">5.4.2.2</span>这几个数字的颜色，或者是小圆圈圆周的颜色，这有必要定义吗，所以后面直接跟一种颜色就行了。</p>
<p>然后就可以了。我随便弄个<span style="font-family: 'Times New Roman';">gal1</span>想去着色，<span style="font-family: 'Times New Roman';">KEGG</span>突然说在酵母中找不到<span style="font-family: 'Times New Roman';">gal1</span>，怎么可能找不到呢？我前面还在<span style="font-family: 'Times New Roman';">GENES</span>中搜过呢，分明是酵母，分明是<span style="font-family: 'Times New Roman';">gal1,</span>分明搜的到，我当时还大为兴叹，唉，看来基因果然不能乱长啊，怎么可能一顿饭就说找不到了呢？我又回去搜里一下，确实搜的到，我再回来着色还说找不到。发现没有哪里不对呀，难道在这里<span style="font-family: 'Times New Roman';">KEGG</span>着色只能输入基因<span style="font-family: 'Times New Roman';">ID</span>而不能输入名称？不是，输入基因<span style="font-family: 'Times New Roman';">ID</span>能给着色，基因名称也应该能给<span style="font-family: 'Times New Roman';">… </span>哈哈，我突然大笑起来，一定是<span style="font-family: 'Times New Roman';">KEGG</span>区分大小写了！果然，我把搜到的<span style="font-family: 'Times New Roman';">GAL1</span>输进去，好了！用<span style="font-family: 'Times New Roman';">gal1</span>又不行了。我突然觉得好玩起来，就一次次地改大小写，一次次地看它给出的错误报告，一次次得意地嗤笑它的弱智。既然区分大小写，那<span style="font-family: 'Times New Roman';">red</span>能着红色，<span style="font-family: 'Times New Roman';">Red</span>、<span style="font-family: 'Times New Roman';">RED</span>肯定就不认识了，果然改写一个大小写的<span style="font-family: 'Times New Roman';">red</span>就没反应了，<span style="font-family: 'Times New Roman';">c00118</span>也不认识了。前面那么多检索一直都不区分大小写的，在这里怎么区分大小写呢？<span style="font-family: 'Times New Roman';">KEGG</span>显然把这点疏忽了。</p>
<p>着色结果如下：（红色的就是<span style="font-family: 'Times New Roman';">GAL1</span>的酶，右上角的就是<span style="font-family: 'Times New Roman';">C00118</span>）</p>
<p>&nbsp;</p>
<p align="center"><img src="http://img245.ph.126.net/phx3fs8_6CUdMv6q1bIEgg==/1388797535092004330.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<p>&nbsp;</p>
<p>代谢物还好，如果要着色酶，没必要去找基因，还免得像我那样麻烦，直接在输入框中输入相应的酶就好了，比如ec:2.7.1.6 red(ec 要小写) 跟 GAL1 red 是一样的。或者直接写 2.7.1.6 red 也是一样的。</p>
<p>这种着色功能还可用于对比（或寻找）两个不同物种的一些基因，或者根据芯片数据，直观地示意一些基因的表达调控。着色内容也可以预先按以上规定的格式写在文本文件中，然后直接浏览导入也行。</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p>&nbsp;</p>
<p><strong>基因芯片数据的分析</strong></p>
<p>我对基因芯片数据（表达谱）的分析也是蛮感兴趣的。利用基因芯片的表达数据，分析不同实验条件下的一些上调或下调基因，并与生物通路结合起来，用不同的颜色来直观地反映代谢通路中各基因表达的变化情况，可以为更好地研究代谢网络提供了很大的帮助。以前出去听人家讲课，只知道GenMapp不错，可以把基因芯片数据和通路结合起来，没想到在KEGG中也可以实现这一功能。</p>
<p>进入网页<a href="http://www.genome.jp/kegg/expression/" rel="nofollow">http://www.genome.jp/kegg/expression/</a> 。网页左边是KEGG自身拥有的一些基因表达数据集 KEGG EXPRESSION Database。网页的右边KegArray就是要进行芯片分析的工具了。在KEGG EXPRESSION 下面，点击“list of experimental data available”，就打开了KEGG中的基因芯片数据，见下图：</p>
<p align="center"><img src="http://img313.ph.126.net/jqL0v5l3co8Apy9ajvJfXw==/3675500245888276258.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<p>&nbsp;</p>
<p>这是芯片数据的一个目录层次，箭头向右和向下分别表示收起和展开数据。我们以上图中的第一条数据为例，即Suzuki et al. 做的关于Synechocystis PCC6803 冷激响应的一条数据ex0000012, 点击这个数据，在打开的页面下面有个option 列表，点击 Launch KegArray,加载这个应用程序来分析这条数据。出现如下对话框：</p>
<p>&nbsp;</p>
<p align="center"><img src="http://img170.ph.126.net/fGNlpeJ0EPGWuv3y5lM5AA==/2293739585216787870.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<p> 问你是打开还是保存，打开就相当于临时用一下，网页关掉就没了；保存就是把这个软件下载到自己的电脑上，以后还可以用。你先打开试试吧，这个不是关键，关键的是你可能打不开这个文件。大家都知道，生物信息学的一些软件往往要求安装JAVA才能运行，我JAVA早就安装了，但是仍然告诉我打不开这个文件，我看了一下文件格式，是什么JNLP格式的没见过，看看属性，又从网上搜搜，说需要 java web start 才能打开和运行，我安装了JAVA,java web start 在哪里找到和启动，查了半天也没个头绪，忽然一想，java web start 肯定在JAVA安装文件夹里，取首字母缩写，很有可能是 javaws.exe,我一搜还真在安装文件夹里搜到这个执行程序了，用作JNLP的默认打开方式，立马就呼呼地启动了。出现了如下的界面：</p>
<p>&nbsp;</p>
<p align="center"><img src="http://img313.ph.126.net/MJzX6gKb5gPi_dOi0vfWbA==/3672122546167747473.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<p>&nbsp;</p>
<p>图中的File Name、Organism还都对，下面的参数一般都是默认的，不需要改。右边还有一个统计图，用以显示上调、下调和不调的基因数目比例。绿色表示下调，红色上调，黄色无明显差异（之前有文献说红色是下调，搞的我迷糊了好大一阵子！）。</p>
<p>那怎么在生物学通路中看这些基因的调整情况呢？</p>
<p>看到最下面的 Mapping to 了吗，选择pathway(默认的也是pathway),GO一下，就OK了。然后它就会把这个芯片数据涉及到的基因所在的通路图列出来，并在通路中用不同的颜色标明基因表达差异。如下图（选取的是嘌呤代谢通路的一部分）</p>
<p>&nbsp;</p>
<p align="center"><img src="http://img617.ph.126.net/K4-ufubi7VfFmy49kHG9FQ==/1663517112361872942.jpg" alt="KEGG的独创使用经验分享 - neobe - 捉不住的字" /></p>
<p>&nbsp;</p>
<p>绿色表示基因下调，黄色表示没明显变化，灰色是什么，这个可能species-specific 基因，与芯片无关的吧。那怎么没红色？</p>
<p>（1）通路中本就没有基因上调</p>
<p>（2）虽然绿色表示下调，红色上调，但是在他们之间有过渡的颜色，比如某个基因只是稍微上调，因此不能大红大紫，只能呈现过渡的暗黄色。如果你一定有见红情结的话，那你可以在help 菜单中选择preferences,把颜色梯度改成1，即下调就是绿色，上调就是红色，没中间余地。此时一旦有所上调不论多少都是大红。（呵呵）</p>
<p>除此之外，看到了吗，KegArray还有一个做聚类Clustering的命令，你可以点击GenomeNet从KEGG中选择芯片数据进行聚类，不过貌似做得很简单，也没有红绿颜色。</p>
<p>当然，你可以选择KEGG其他芯片数据进行类似分析，可可以从本地导入其他的芯片数据。也可以把KegArray保存在本地运行，但是不管怎样，不管你选在KEGG中选了那条数据，需要指出的一点是，当你再运行KegArray时，加载的数据总是你第一次使用的数据。比如我即使在KEGG中选择ex000013 而不是ex000012,然后launch KegArray, 启动后出现的数据依旧是我第一次分析的数据ex000012而不是ex000013, 只有打开以后，点击GenemoNet重新选择芯片数据。而KegArray本身又找不到可以设置这些东西的地方，真不知道KEGG想要干嘛！</p>
<p>&nbsp;</p>
<p><strong>KGML</strong><strong>与通路编辑&lt; xmlnamespace prefix =&#8221;o&#8221; ns =&#8221;urn:schemas-microsoft-com:office:office&#8221; /&gt;</strong></p>
<p>这个我不打算多讲，因为我自己也在踌躇着要不要学习呢。</p>
<p>KGML，即KEGG Markup Language的简称，我自己的理解就是它包含代谢通路中各组件以及各组件之间的相互联系，因此是代谢通路构建的指令。在KEGG中可以以xml的格式进行下载：<a href="ftp://ftp.genome.jp/pub/kegg/xml/" rel="nofollow">ftp://ftp.genome.jp/pub/kegg/xml/</a> 。</p>
<p>据说这种KGML文件，打开时，能以另一种方式查看代谢通路，即酶和化合物之间的各种交叉联系，我很想看，但郁闷的是，我xml也下了，一个叫什么KGML DTD的也下了（见<a href="http://www.genome.jp/kegg/xml/" rel="nofollow">http://www.genome.jp/kegg/xml/</a>），但是打开后没反应啥图也没有。可能需要一些专门的软件才能打开吧，比如VisANT, GenMAPP, PathwayExpert等。</p>
<p>另一方面就是越来越多的软件开始支持并应用到KGML了，但是我感兴趣的是有些软件已经能够基于KGML进行KEGG代谢通路的编辑了。单是一个图的话，用PS修饰或许也能搞定，但是如果是大规模地建模或修改代谢通路，显然需要这些软件。</p>
<p>有个软件KGML-ED（<a href="http://kgml-ed.ipk-gatersleben.de/Introduction.html" rel="nofollow">http://kgml-ed.ipk-gatersleben.de/Introduction.html</a>），安装竟然需要1.6的java版本，我用1.5的试了试，还真不行&#8230;</p>
<p>其他的软件有的能把KGML转换成SBML(如KGMLConverter)，貌似SBML也是生物学软件中主流的东西，能建模能可视化。不知道有没有人知道呢？</p>
<p>&nbsp;</p>
<p><strong>最后做个总结吧</strong>，KEGG也是一个很全面的数据库，不仅是代谢通路，基因信息，化合物反应等数据也是很不错的，但是难免又有一些疏忽之处，比如，着色输入框区分大小写，KegArray启动时数据不对等，总的来讲还是很cool的数据库。有越来越多的科研者基于KEGG开发了一些实用的工具，比如基于KEGG KO的注释工具KAAS, KOBA等，基于KEGG KGML的通路建模工具KGML-ED, KGMLconverter等，相信大家对KEGG的利用会越来越充分的。另外，KEGG也在不断的发展和更新中，本文中的一些页面都有可能改动和变化，希望后来交流者，有所知晓，也希望大家一起分享经验</p>
]]></content:encoded>
			<wfw:commentRss>https://www.biofacebook.com/?feed=rss2&#038;p=659</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Some other replaced databases for KEGG paywalled</title>
		<link>https://www.biofacebook.com/?p=401</link>
		<comments>https://www.biofacebook.com/?p=401#comments</comments>
		<pubDate>Mon, 16 Jul 2012 02:57:19 +0000</pubDate>
		<dc:creator><![CDATA[szypanther]]></dc:creator>
				<category><![CDATA[生物信息]]></category>
		<category><![CDATA[bioinformatics]]></category>
		<category><![CDATA[kegg]]></category>

		<guid isPermaLink="false">http://www.biofacebook.com/?p=401</guid>
		<description><![CDATA[ PANTHER (Protein ANalysis THrough Evolutionary Relationships) Classification System have a set of Pathways. Not many prokaryotic genomes are available at PANTHER. List of species here Biocyc BioCyc is a collection of 1962 Pathway/Genome Databases (PGDBs). Each PGDB in the BioCyc collection describes the genome and metabolic pathways of a single organism. <p>BioCyc is a [...]]]></description>
				<content:encoded><![CDATA[<ul>
<li><a href="http://pantherdb.org/pathway/index.jsp">PANTHER</a> (Protein ANalysis THrough Evolutionary Relationships) Classification System have a set of Pathways. Not many prokaryotic genomes are available at PANTHER. List of species <a href="http://pantherdb.org/panther/summaryStats.jsp">here</a></li>
<li><a href="http://biocyc.org/">Biocyc </a>BioCyc is a collection of 1962 Pathway/Genome Databases (PGDBs). Each PGDB in the BioCyc collection describes the genome and metabolic pathways of a single organism.
<p>BioCyc is a collection of 1962 Pathway/Genome Databases (PGDBs). Each PGDB in the BioCyc collection describes the genome and metabolic pathways of a single organism.</p>
<p>The BioCyc Web site contains many tools for navigating, visualizing, and analyzing these databases, and for analyzing omics data, including the following:</p>
<ul>
<li>Genome browser</li>
<li>Display of individual metabolic pathways, and of full metabolic maps</li>
<li>Visual analysis of user-supplied omics datasets by painting onto metabolic maps, regulatory maps, and genome maps</li>
<li>Enrichment analysis of omics datasets</li>
<li>Store groups of genes and pathways in your account; share, analyze, transform those groups</li>
<li>Comparative analysis tools</li>
</ul>
<p>The BioCyc Web site contains many tools for navigating, visualizing, and analyzing these databases, and for analyzing omics data, including the following:</p>
<ul>
<li>Genome browser</li>
<li>Display of individual metabolic pathways, and of full metabolic maps</li>
<li>Visual analysis of user-supplied omics datasets by painting onto metabolic maps, regulatory maps, and genome maps</li>
<li>Enrichment analysis of omics datasets</li>
<li>Store groups of genes and pathways in your account; share, analyze, transform those groups</li>
<li>Comparative analysis tools</li>
</ul>
</li>
<li><a href="http://www.reactome.org/ReactomeGWT/entrypoint.html">Reactome</a> have orthology derived pathways for some prokaryotes. Extensive data in the level of molecular events available for human (Read about definition of Reactome molecular events <a href="http://wiki.reactome.org/index.php/ReactomeWiki:About">here</a>). See species comparison tool for pathways between human and any of the other species inferred from Reactome by orthology</li>
<li><a href="http://www.wikipathways.org/index.php/Special:BrowsePathwaysPage">WikiPathways</a> Not many prokaryotes there, but still useful for human/eukaryote-centric analysis</li>
</ul>
<p>You may also start from <a href="http://www.pathguide.org/">PathGuide</a> and see if there is any dedicated pathway resource for your taxa / species of interest</p>
]]></content:encoded>
			<wfw:commentRss>https://www.biofacebook.com/?feed=rss2&#038;p=401</wfw:commentRss>
		<slash:comments>60</slash:comments>
		</item>
	</channel>
</rss>
