研究生可以利用免费PodCast来提高英语

我知道研究生一般都比较忙,很难拿出大量专门的时间来学习英语。但不管你是想继续科研之路还是到大公司供职,英语又必不可少。以自己为例,阅读文献的能力可能没有什么问题,但写听说的能力就要差很多了,现在出了国,这种体会就越发明显。这里我想谈一些自己对提高英语水平的想法,与广大研究生共勉。

我们提高英语水平的很大一个初衷来源于能够进行流畅的科研交流,不管是参加国际会议还是个人或实验室之间的访问交流。而很多科学杂志就提供了免费的在线音频或视频材料,介绍最新的科研进展与思想。这些材料对于广大的研究生来说非常有用,不仅可以提高英语,还可以了解科研前沿进展与思想,拓展思维引发思考。这包括Science,Nature,Cell的音频PodCast,而如果你更喜欢视频材料,Science Video Portal,Nature Video,Cell PaperFlick给你更多选择。另外上述杂志的子刊还有专门的视频音频材料介绍本学科的最新科研进展与思想。而其他的材料还包括NIH的VideoCasting and PodCasting,包括很多牛人的报告。当然网上还有很多其他免费的音频与视频材料,可以帮助我们提高英语,促进科研。 除了跟科研相关的这些材料,英语学习还是要贴近生活。Friends是大家耳熟能详的经典英语学习材料,这里就不多少。我想说的是研究生们还是可以多听一些比较简单的英语材料,主要是培养自己的英语感觉。我觉得比较好的有English as a second language podcast以及English pronuciation Pod。这些免费PodCast都是比较简单的材料,却是非常有用。例如第二个PodCast每节介绍一个英语发音的技巧或规则,可以使我们的英语发音更像一个native speaker. 当然大家还可以到网上寻找其他适合自己的免费材料来帮助提高英语。另外,所有上面这些材料还有很多其他材料都可以在iTunes里搜索到并订阅播放,非常方便。如果可以打开YouTuBe,上面也有很多很好的视频材料。 最后,一句话,多参加Conference多与人交流才是正道,学以致用为上策。

本文引用地址:http://blog.sciencenet.cn/blog-286438-405362.html

各大序列数据库序列号之间的关联查询

来NCBI后自己的一个工作就是对其他人多年前的一些数据进行再分析,期望发现新的规律。其中涉及到很多序列号与序列对应,蛋白与核酸序列对应,不同数据库数据对应的问题,这里做个总结,希望对其他人也有用。

先说说NCBI序列数据库中的编号问题。NCBI序列数据中我们常用到两种编号:一个是GI,一个是ACCESSION。ACCESSION形式为CC_#####,其中CC为两个字母,其不同组合又可以区分为蛋白序列、核酸序列或基因组序列,而#为位数不等的数字;GI则全为数字表示。ACCESSION后面又会加版本号,以CC_####.#形式表示,最后的尾数递增表示序列信息较之前的版本有所修改。这样ACCESSION+版本号就是一个唯一的表示,代表一个唯一的序列,而且这个编号不会改变。而GI原则上也是一个序列一个编号,但因为序列经常会变,因此GI号也会改变,而一些GI号可能会被删除,大家可以通过NCBI的Sequence Revision History查询来看每个GI的变迁历史,包括被删除的GI。原则上讲GI并不是一个很好的序列代号,但因为其组成比较单一(全是数字),结构比较简单,因此用脚本语言比较好处理,用的很多,因此也就会导致很多问题(例如多个GI号可能会对应一个ACCESSION,而你可能无法用GI号从BioPerl中调用相应序列)。 现在讲序列数据关联的第一个问题,那就是GI与ACCESSION关联问题,以及蛋白序列与核算序列关联问题。我们很可能拿到手一些GI号,我们想知道其对应的蛋白序列,以及蛋白序列对应的核酸序列是什么。原则上这些信息都在数据库中存在,关键是我们如何获得,如果是少数几个那就好说了,把GI号拿去NCBI数据库查询,它会给出对应的蛋白,根据网站的链接,我们就会获得其相应的核算序列。但如果是大量GI呢,这种情况在比较基因组分析中很常见。NCBI提供了其文本关联文件,可以在其ftp上找到,例如gene2refseq中就包含了所有这些信息(还有更多信息,例如gene id, tax id,chromsome位置等等)。 而第二个问题是关于跨数据库间数据的关联问题。我们经常遇到这样的情况,我们得到一套数据,但其中基因用一套代号表示,而我们知道的序列信息却是另外一套编号,如何关联呢(还是大量数据的问题)?EMBL的数据如何跟与NCBI的数据关联呢,UniProt的数据如何跟NCBI关联呢,一些特殊物种的数据库(例如FlyBase,WormBase)如何跟NCBI数据关联呢?EBI上有专门的问题解答,其中提到各种服务以及数据资源。而NCBI也给出跟不同数据库的关联信息,存放在其ftp上,定期更新。一些专门的网站也来提供相应的服务,自己接触的一个是bioDBnet,其不仅给出大量数据库之间的关联查询,还能帮助你找到你需要的数据库! 先写这么多,有更新再加上。

本文引用地址:http://blog.sciencenet.cn/blog-286438-424412.html

ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/

名称 大小 修改日期 [上级目录] ASN_BINARY/ 12-12-20 下午12:30:00 ASN_OLD/ 05-8-2 上午8:00:00 GENE_INFO/ 12-12-20 下午12:31:00 README 0 B 12-2-10 上午8:00:00 README_ensembl 1000 B 12-11-3 下午5:14:00 gene2accession.gz 416 MB 12-12-20 上午11:02:00 gene2ensembl.gz 5.5 MB 12-12-20 上午11:11:00 gene2go.gz 13.1 MB 12-12-20 上午11:14:00 gene2pubmed.gz 31.1 MB 12-12-20 上午11:14:00 […]

真理在缩水,还是上帝在掷骰子?(转贴)

最近在Google Reader中看见科学松鼠会有两篇文章被频繁分享,名为《真理在缩水——现代科学研究方法并不尽善尽美?》(上)与(下),下文简称《缩水》。文章很有意思,而实际上说的是我们的老本行——统计学,因此我在这里也发表一些我的想法和理解,包括这两年我在美帝学习的一些思考,部分内容受益于两位老师Kaiser和Nettleton教授,先向他们致谢(尽管他们永远都不会看到这篇文章)。同时我也要先说明一下,读这篇文章可能会很花时间(至少我花了大约二十小时写这篇文章),即使我的观点没有价值,我相信里面的引用文献是有价值的。

初读文章,我脑子里冒出的一句话是“上帝在跟我们掷骰子”,文中给出了大量的不可重复的试验,仿佛就像那些号称“具有统计学意义”(下文我再说这个所谓的“意义”)的试验结果只是若干次骰子中的一次运气好的结果而已。读完文章,我们可能不禁要问,到底是真理在缩水,还是它根本就不曾存在?下面我从四个方面来展开,分别说明人对随机性的认识、统计推断的基石、让无数英雄折腰的P值、以及可重复的统计研究。

一、感知随机

随机变量在统计分析中占据中心地位,数学上关于随机变量的定义只是一个“干巴巴的函数”,从样本空间映射到实数集,保证从实数集上的Borel域逆回去的集合仍然在原来的sigma域中即可。随机变量的性质由其分布函数刻画。写这段话的目的不是为了吓唬你,也不是为了作八股文,而是来说明我为什么不喜欢数学的理由,对我而言,我觉得有些数学工具只是为了让自己不要太心虚,相信某时某刻某个角落有个理论在支撑你,但后果是弱化了人的感知,当然,也有很多数学工具有很强的直觉性(如果可能,我想在未来下一篇文章里面总结这些问题)。我一直认为很多人对随机性的感知是有偏差的,对概率的解释也容易掉进陷阱(参见Casella & Berger的Statistical Inference第一章,例如条件概率的三囚徒问题)。

《缩水》一文发表了很多不可重复的试验案例,我们应该吃惊吗?我的回答是,未必。举两个简单的例子:

第一个例子:很多数据分析人员都很在意所谓的“离群点”,论坛上也隔三差五有人问到这样的问题(如何判断和处理离群点),而且也有很多人的做法就是粗暴地删掉,我从来都反对这种做法。除了基于“数据是宝贵的”这样简单的想法之外,另一点原因是,离群点也许并非“异类”。离群点是否真的不容易出现?请打开R或其它统计软件,生成30个标准正态分布N(0, 1)随机数看看结果,比如R中输入rnorm(30),这是我运行一次的结果:

> rnorm(30) [1] 1.19062761 -0.85917341 2.90110515 0.59532402 -0.05081508 -0.06814796 [7] 2.08899701 0.76423007 0.92587075 -1.16232929 -0.68074378 -1.40437532 [13] -0.17932604 -0.72980545 -0.53850923 0.21685537 -0.35650714 -1.32591808 [19] -0.88071526 -1.25832441 0.24001498 -0.41682799 -0.09576492 -0.17059052 [25] -0.99947485 0.25108253 -0.47566842 -0.28028786 0.79856649 -0.13250974

30在现实中是一个比较小的样本量,你看到了什么?2.901?它接近3倍标准差的位置了。还有2.089?……如果你不知道这批数据真的是从标准正态分布中生成出来的,现在你会有什么反应?把2.9删掉?标准正态分布是一个在我们眼中很“正常”的分布,而一个不太大的样本量一次试验足以生成几个“离群点”,那么要是成千上万的试验中没能产生几项震惊世界的结果,你会怎样想?(上帝的骰子坏掉了)

另一个例子和统计学结合紧密一点,我们谈谈残差的QQ图。QQ图是用来检查数据正态性的一种统计图形,与腾讯无关,细节此处略去,大意是图中的点若呈直线状(大致分布在对角线上),那么可以说明数据的正态性比较好,因此QQ图经常被用在对回归模型残差的正态性诊断上。我的问题是,即使数据真的是正态分布,你是否真的会看见一些分布在直线上的点?若答案是否定的,那么我们就得重新审视我们对分布和随机的认识了。下图是一幅教科书式的QQ图(仍然基于30个正态分布随机数):

“正常的”QQ图(来自R语言qqnorm(rnorm(30)))

随机性并没有这么美好,即使数据真的来自正态分布,你也有可能很容易观察到歪歪扭扭的QQ图,尤其是小样本的情况下。比如下图是50次重复抽样的正态数据QQ图,它和你想象的QQ图本来的样子差多远?

library(animation) set.seed(710) […]