各大序列数据库序列号之间的关联查询

来NCBI后自己的一个工作就是对其他人多年前的一些数据进行再分析,期望发现新的规律。其中涉及到很多序列号与序列对应,蛋白与核酸序列对应,不同数据库数据对应的问题,这里做个总结,希望对其他人也有用。

    先说说NCBI序列数据库中的编号问题。NCBI序列数据中我们常用到两种编号:一个是GI,一个是ACCESSION。ACCESSION形式为CC_#####,其中CC为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;GI则全为数字表示。ACCESSION后面又会加版本号,以CC_####.#形式表示,最后的尾数递增表示序列信息较之前的版本有所修改。这样ACCESSION+版本号就是一个唯一的表示,代表一个唯一的序列,而且这个编号不会改变。而GI原则上也是一个序列一个编号,但因为序列经常会变,因此GI号也会改变,而一些GI号可能会被删除,大家可以通过NCBI的Sequence Revision History查询来看每个GI的变迁历史,包括被删除的GI。原则上讲GI并不是一个很好的序列代号,但因为其组成比较单一(全是数字),结构比较简单,因此用脚本语言比较好处理,用的很多,因此也就会导致很多问题(例如多个GI号可能会对应一个ACCESSION,而你可能无法用GI号从BioPerl中调用相应序列)。
    现在讲序列数据关联的第一个问题,那就是GI与ACCESSION关联问题,以及蛋白序列与核算序列关联问题。我们很可能拿到手一些GI号,我们想知道其对应的蛋白序列,以及蛋白序列对应的核酸序列是什么。原则上这些信息都在数据库中存在,关键是我们如何获得,如果是少数几个那就好说了,把GI号拿去NCBI数据库查询,它会给出对应的蛋白,根据网站的链接,我们就会获得其相应的核算序列。但如果是大量GI呢,这种情况在比较基因组分析中很常见。NCBI提供了其文本关联文件,可以在其ftp上找到,例如gene2refseq中就包含了所有这些信息(还有更多信息,例如gene id, tax id,chromsome位置等等)。
    而第二个问题是关于跨数据库间数据的关联问题。我们经常遇到这样的情况,我们得到一套数据,但其中基因用一套代号表示,而我们知道的序列信息却是另外一套编号,如何关联呢(还是大量数据的问题)?EMBL的数据如何跟与NCBI的数据关联呢,UniProt的数据如何跟NCBI关联呢,一些特殊物种的数据库(例如FlyBase,WormBase)如何跟NCBI数据关联呢?EBI上有专门的问题解答,其中提到各种服务以及数据资源。而NCBI也给出跟不同数据库的关联信息,存放在其ftp上,定期更新。一些专门的网站也来提供相应的服务,自己接触的一个是bioDBnet,其不仅给出大量数据库之间的关联查询,还能帮助你找到你需要的数据库!
    先写这么多,有更新再加上。

http://blog.sciencenet.cn/blog-286438-424412.html

ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

名称 大小 修改日期
[上级目录]
ASN_BINARY/ 12-12-20 下午12:30:00
ASN_OLD/ 05-8-2 上午8:00:00
GENE_INFO/ 12-12-20 下午12:31:00
README 0 B 12-2-10 上午8:00:00
README_ensembl 1000 B 12-11-3 下午5:14:00
gene2accession.gz 416 MB 12-12-20 上午11:02:00
gene2ensembl.gz 5.5 MB 12-12-20 上午11:11:00
gene2go.gz 13.1 MB 12-12-20 上午11:14:00
gene2pubmed.gz 31.1 MB 12-12-20 上午11:14:00
gene2refseq.gz 225 MB 12-12-20 上午11:05:00
gene2sts 16.1 MB 12-12-20 下午4:48:00
gene2unigene 9.5 MB 12-12-21 上午8:03:00
gene2vega.gz 1.1 MB 12-12-20 上午11:11:00
gene_group.gz 224 kB 12-12-20 上午11:10:00
gene_history.gz 6.3 MB 12-12-20 上午11:12:00
gene_info.gz 172 MB 12-12-20 上午11:09:00
gene_refseq_uniprotkb_collab.gz 43.1 MB 12-12-17 下午9:47:00
go_process.dtd 1.2 kB 11-9-6 上午8:00:00
go_process.xml 9.6 kB 12-8-21 上午2:55:00
mim2gene 0 B 12-2-10 上午8:00:00
mim2gene_medgen 677 kB 12-12-18 上午6:51:00
mim2gene_partial 375 kB 12-12-20 下午4:48:00
misc/ 12-8-15 上午5:41:00
stopwords_gene 737 B 11-6-9 上午8:00:00

Leave a Reply

  

  

  

You can use these HTML tags

<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>