【转帖】如何使用NCBI寻找所需基因的信息

今天在应助以为战友的问题时觉得有必要把自己在人类基因缺陷疾病基因诊断过程中积累的经验跟大家分享和交流。撰写此贴,以便大家互相学习、讨论。
就以白仁战友应助的CCR9基因为例。
(一)如何寻找基因信息
首先,打开NCBI网页cuturl('http://www.ncbi.nlm.nih.gov/pubmed/'),选择"gene",输入您要的基因名称(可简写),如CCR9,搜索;
然后,选择种属,如homo sapiens,点击进入,cuturl('http://www.ncbi.nlm.nih.gov/gene/10803');
然后,使劲往下拉网页,在"NCBI Reference sequence (Refseq)"下方,
NG_029472.1就是该基因的genomic DNA序列号,
NM_001256369.1就是异构体B的mRNA序列号,而NP_001243298.1就是NM_001256369.1相应的氨基酸序列号,
同理,NM_031200.2 → NP_112477.1分别是异构体A的mRNA和氨基酸序列号。
点击进入相应页面就会出现详细的外显子、编码序列等信息。
(二)如何选择目前公认的mRNA序列号?
在这儿推荐一个网站:mutation@glance,cuturl('http://rapid.rcai.riken.jp/mutation/')(您只能在google搜索中才能快速搜到,百度是搜不到的)。
输入您查找的基因,如CCR9,"submit"提交,便会出现CCR9的相应界面,Reference sequence: NM_031200.2这里所显示的就是公认的序列号。
这样您参照的序列号对了,您设计引物、基因突变的命名及表述才是对的,发文章时才不会错。(基因突变命名也是一个系统,可以到NCBI上下载相关文献)。
另外,这一网站也提供了目前文献报道的已知的突变位点和SNP位点。非常好用。
(三)如何看懂mRNA的相关信息?
选好公认的mRNA序列号后,我们就可以利用其序列设计引物了。
以CCR9的公认序列号NM_031200.2 为例。
1. source 中map=map="3p21.3"是指此基因位于3号染色体短臂(p)2带1区3亚区;
2. gene 1..2567 表示CCR9 mRNA长度2567bp;
3. "CDS" 为mRNA编码氨基酸的序列:
translation="MTPTDFTSPIPNMADDYGSESTSSMEDYVNFNFTDFYCEKNNVRQFASHFLPPLYWLVFIVGALGNSLVILVYWYCTRVKTMTDMFLLNLAIADLLFLVTLPFWAIAAADQWKFQTFMCKVVNSMYKMNFYSCVLLIMCISVDRYIAIAQAMRAHTWREKRLLYSKMVCFTIWVLAAALCIPEILYSQIKEESGIAICTMVYPSDESTKLKSAVLTLKVILGFFLPFVVMACCYTIIIHTLIQAKKSSKHKALKVTITVLTVFVLSQFPYNCILLVQTIDAYAMFISNCAVSTNIDICFQVTQTIAFFHSCLNPVLYVFVGERFRRDLVKTLKNLGCISQAQWVSFTRREGSLKLSSMLLETTSGALSL" 引号所引就是CCR9基因编码的CCR9蛋白的氨基酸序列。
"60..1169",60是编码mRNA的起始位置,所以CCR9基因(人)编码序列长度是1169-60+1=1110bp,编码蛋白是由1110/3=370个氨基酸构成。
4. exon 是外显子相应的mRNA序列。如exon 1..152 number=1,是指exon1对应的mRNA位置为1到152,以此类推;
5. CDS 181..1290 可见exon1(1..152)是不参与氨基酸的编码的,就是说转录了,但是经后期的翻译时被剪切修饰掉了;
6. ORIGIN部分就是具体的碱基序列了,可以用来参照设计引物的。
这里我也还有没弄清楚的,如STS、misc_feature是什么意思?
期待大家讨论交流经验,将您的经验分享给大家
注:我说的只是人的,病毒、动物的会有差异吧,不对之处请大家指出来我会虚心学习。

我也来说两句 查看全部回复

最新回复

  • ero11 (2015-8-31 16:19:54)


    很好的资料,那个网站很多基因都查不到,如果查不到的基因,该怎么选择呢?
  • dog002 (2015-8-31 16:21:21)


    在这里设计的引物好几个,该怎么选择呢,望高人指点一二,不胜感激
  • 园丁## (2015-8-31 16:21:56)

    QUOTE:

    原帖由 ero11 于 2015-8-31 16:19 发表 bbcodeurl('http://bbs.antpedia.com/images/common/back.gif', '')

    很好的资料,那个网站很多基因都查不到,如果查不到的基因,该怎么选择呢?
    Methods ordered is for human genes. You can refer to papers, get from NCBI, google etc. It usualy takes you much time. Be patient. Maybe you can show me one gene for example. Hope useful to you.
  • 园丁## (2015-8-31 16:47:42)

    QUOTE:

    原帖由 dog002 于 2015-8-31 16:21 发表 bbcodeurl('http://bbs.antpedia.com/images/common/back.gif', '')

    在这里设计的引物好几个,该怎么选择呢,望高人指点一二,不胜感激
    I guess you'd refer to other post bars to find answer. Sorry, but I don not think I can help you.
  • dior (2015-8-31 16:52:53)

    QUOTE:

    原帖由 园丁## 于 2015-8-31 16:21 发表 bbcodeurl('http://bbs.antpedia.com/images/common/back.gif', '')

    Methods ordered is for human genes. You can refer to papers, get from NCBI, google etc. It usualy takes you much time. Be patient. Maybe you can show me one gene for example. Hope useful to you.
    您好,我正在找的CHOP基因在pubmed上能找到很多,而在这个网站上面查不到哪个是官方确认的基因
  • dog002 (2015-8-31 16:54:15)


    谢谢啊,挺有用的东西。STS是序列标记位点,表述基因组上作图界标并能通过PCR检测的短的,单拷贝的DNA序列。misc feature 是不能用其他的特征关键词表述的具有生物学意义的区域。
  • vcve (2015-8-31 16:54:33)


    可是“ORIGIN”里基因序列太多,怎么选择哪一段做参照设计引物呢?
  • 园丁## (2015-8-31 16:54:59)

    QUOTE:

    原帖由 vcve 于 2015-8-31 16:54 发表 bbcodeurl('http://bbs.antpedia.com/images/common/back.gif', '')

    可是“ORIGIN”里基因序列太多,怎么选择哪一段做参照设计引物呢?
    相关疾病:
    免疫缺陷综合征

    这就要查找文献了,参考影响因子比较高的文章里用的序列。我做的是原发性免疫缺陷病,文章introduction都会写明序列号的。希望有帮助。
  • 园丁## (2015-8-31 16:55:45)

    QUOTE:

    原帖由 dior 于 2015-8-31 16:52 发表 bbcodeurl('http://bbs.antpedia.com/images/common/back.gif', '')

    您好,我正在找的CHOP基因在pubmed上能找到很多,而在这个网站上面查不到哪个是官方确认的基因

    我在NCBI上找了下,Alies里有CHOP-10的只有第一个。我不知道你说的CHOP是哪个,作用是什么,所以不能明确指出是哪一个。结合文献相信会找到你需要的。另,这篇帖子比较入门,我是做原发性免疫缺陷病的,都是基因突变引起。所以对于甲基化等的引物不是很在行。不知道你说的CHOP是不是于甲基化等修饰基因有个。
  • xuuuu (2015-8-31 16:56:08)


    老师上课正好讲过这些
    在PubMed里面找到了这个基因。
    然后也找了上下游各1000个序列。
    在primer premier5里面找不到合适引物。。。
    是不是应该继续在上下游扩大范围找?
  • txwuyan (2015-8-31 16:56:25)

    "60..1169"是编码mRNA的起始位置
    想问一下各位大侠,这句话是怎么得出的?
  • 园丁## (2015-8-31 16:56:50)

    QUOTE:

    原帖由 txwuyan 于 2015-8-31 16:56 发表 bbcodeurl('http://bbs.antpedia.com/images/common/back.gif', '')
    "60..1169"是编码mRNA的起始位置
    想问一下各位大侠,这句话是怎么得出的?
    感谢您发现我的笔误,我已经更正了。非常感谢。也给各位看过帖子的战友们道歉。
  • IAM007 (2015-8-31 16:57:16)

    你好,如果我要找长牡蛎的IGF2BP1基因,但是怎么能准确定位呢,只搜IGF2BP1的话出来11页的结果,我一条一条翻着看吗,有没有什么好方法能一下子看到长牡蛎呢?谢谢
  • 园丁## (2015-8-31 17:03:09)


    谢谢大家的关注,等有时间了把如何分析峰图、blast、判断新发突变是否snp、预测致病性、3D作图的一些经验写个帖子。如果大家发现需要更正的或是有更好的见解请不吝赐教:)