+关注

分析测试百科网 > 行业资讯 > 技术原理

一步一步教你使用NCBI数据库资源

2019.11.03

相关专题

随着ncbi 数据库各种资源的涌现，NCBI已经成为科研工作者必不可少的资料查找，数据分析的工具。那么NCBI数据如何使用，新手入门一步一步教你认识和使用NCBI数据库。

一综合数据库

NCBI数据库集

美国国立生物技术信息中心(National Center for Biotechnology Information)，即我们所熟知的NCBI是由美国国立卫生研究院(NIH)于1988年创办。创办NCBI的初衷是为了给分子生物学家提供一个信息储存和处理的系统。除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA 数据库，其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外，NCBI还可以提供众多功能强大的数据检索与分析工具。目前，NCBI提供的资源有Entrez、Entrez Programming Utilities、My NCBI、PubMed、PubMed Central、Entrez Gene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、Electronic PCR等共计36种功能，而且都可以在NCBI的主页www.ncbi.nlm.nih.gov上找到相应链接，其中多半是由BLAST功能发展而来的。

1 NCBI最新进展

1.1 PubMed搜索功能的增强

去年，NCBI对PubMed进行了几项改进工作，改动最大的是搜索界面和摘要浏览界面。其中，搜索界面中新增了“Advanced Search”选项(这实际上是对以往“Limits”和“Previ ew/Index”功能的整合)，并且增加了一个新的窗口，用户可以在此窗口下通过“论文作者名”、“论文所属杂志名称”、“论文出版日期”等限定条件进行搜索。而且，“论文作者名”和“论文所属杂志名称”还设有文本框自动填充功能。现在，在PubMed数据库中进行文本搜索的同时还可以立即通过两个“内容传感器(content sensors)”进行分析。一个“内容传感器”是根据作者姓名、所属杂志名称或杂志名缩写、出版日期、卷号或刊号等信息进行分析，然后将符合条件的搜索结果排列到结果列表的顶端。另一个“内容传感器”是根据文章是否与用户给出的条件，例如是否与某种药物相关，在NCBI的新增数据库PubMed Clinical Q&A中进行搜索，然后给出搜索结果。

1.2 新增Primer-BLAST分析工具

2008年，NCBI新增了设计、分析PCR引物的工具——Primer-BLAST。Primer-BLAST的引物设计功能是基于NCBI现有的Primer3程序发展而来的，Primer3程序可以为一段DNA模板序列设计PCR引物。Primer-BLAST在设计出引物之后还在某些相应数据库中进行BLAST搜索，因此可以得到特异性引物，扩增出目的片段。用户在给出DNA模板的同时还可以限定正向引物或反向引物，这样，NCBI就只会给出另一条引物。如果用户给出了模板DNA和两条引物序列，Primer-BLAST就只会运行BLAST程序，帮助用户对引物进行分析。用户也可以只给出两条引物而不给出模板序列，这时Primer-BLAST会通过BLAST程序分析出与这对引物最匹配的模板序列。Primer-BLAST进行BLAST搜索的数据库包括RefSeq mRNA、BLAST nr和12种模式生物基因组数据库。

1.3 BLAST的改进及更新

NCBI对BLAST进行了全新的改版，推出了最新的web BLAST report。在最新的BLAST比对结果页面中，“图形化概要(Graphic Summary)”、“具体描述(Descriptions)”以及“序列比对(Alignments)”等部分页面都可以展开和收起。此外，网页上还提供了“结果输出格式选项(Formatting)”和“结果下载选项(download)”，在下载选项中还新增了CSV格式下载。这样，读者可以轻松地将BLAST的比对结果输入到表格处理软件中去。另外，BLAST比对结果页面上的“Alignments”部分还提供了每一条命中序列在Entrez Gene中的相关信息，这些信息包括基因名称、来源物种以及在PubMed数据库中与该基因有关条目的数目等。

“BLAST tree”结果输出模式可以测量不同序列间的距离，自动收起亚类信息等。现在，可以以Newick 格式或Nexus格式下载 BLAST tree结果，也可以在进化树图中选择任一节点重新构树。最后还要向读者介绍NCBI BLAST的一个新网址：URL: blast.ncbi.nlm.nih.gov。NCBI建议读者都使用这个网址登陆NCBI BLAST，因为该BLAST使用更多的计算机进行分析，也具有更强的系统容错能力。

1.4 Entrez Gene改进及更新

基因组注释工作当中有一项重要的工作就是定位基因重叠群序列(contig sequences)，即在染色体中找出某个基因的定位。实际上基因组测序工作就是将许多基因重叠序列彼此拼接，最后拼出“完整(中间会有一些缝隙)”的基因组图谱。这项工作可以直接将某个基因与某段基因重叠群序列对应起来，但不能直接将该基因与染色体联系起来，而这恰恰是生物学家最感兴趣的地方。因此，为了能让用户在搜索基因的同时，也能了解到一些该基因在染色体中的定位情况，Entrez Gene推出了新的“Limits”服务，用户可以使用该服务在基因组范围内进行基因搜索。用户可以在某个物种染色体的某个区域里进行基因搜索。

Entrez Gene会按以下三种顺序对搜索出的基因进行排序：

1. 按照基因名排序。

2. 按照相关性排序，即按照结果与用户搜索所使用的关键词，例如基因名称等的匹配程度排序。

3. 按照基因重要性排序，即按照该基因在PubMed、Homologene、Protein Clusters、Online Mendelian Inheritance in Man(OMIM)或Bookshelf 中文献数量的多少进行排序。

2 ENTREZ 搜索系统

2.1 Entrez

Entrez数据库是一个整合了多个数据库的综合检索系统，它包含了35个不同数据库的信息，共收录有超过350,000,000条记录。Entrez数据库支持使用简单的布尔查询(Boolean queries)方式进行文本搜索，可以下载不同格式的数据资料，还可以按照生物学关系提供与其它相关记录的链接。这些链接给出的都是最简要的信息，例如会给出一条序列和报道该序列的论文摘要，或者会给出一条蛋白质序列的编码DNA序列或该蛋白质的3D结构图。这种通过计算机运算，即基于比较序列相似性或PubMed中摘要的相似性，所给出的相关链接信息可以以最快的速度提供给用户大量的相关信息。还有一种叫做“LinkOut”的功能将这种链接功能扩展到了与外部数据库，例如各物种基因组数据库之间的链接。Entrez中搜索到的数据可以以多种格式输出，也可以打包下载或逐个下载。

2.2 My NCBI

My NCBI功能是为了方便用户储存个人配置信息，例如搜索条件、LinkOut参数或文件出处等而设的。用户登陆自己的My NCBI帐户后，就可以进行保存搜索设置、管理邮件等操作了。My NCBI中有一种称作“Collections”的功能可以让用户储存搜索结果和文献结果。BLAST中也设有类似的功能，这样用户就可以使用同一条件进行多次比对了。

2.3 Entrez programming utilities(E-Utilities)

E-Utilities(Entrez应用程序)由8种服务器程序组成，借助E-Utilities可以设置一套标准参数进行搜索、链接和下载数据(表2)。用户可以到NCBI主页上的‘Entrez Tools’链接中了解更多有关E-Utilities的信息。

2.4 Taxonomy

NCBI Taxonomy(分类)数据库在Entrez生物学数据库中起到了组织中心的作用。该数据库为每一个分类学上的节点，从超界节点(superkingdoms)到亚种节点(subspecies)，提供数据链接服务。分类数据库以每月增加2200个新分类单位的速度在增长，共收录有将近300,000种物种信息，这些信息为“属(genus)”级别，或者虽然未达到“属(genus)”级别，但在Entrez至少收录有一条该物种的核酸序列或蛋白质序列信息。使用Taxonomy网页可以了解该物种在分类学上的地位，也可以在某一物种范围内对Entrez数据库进行搜索。

3 BLAST序列相似性搜索程序

BLAST程序是一种进行序列相似性搜索的程序，它可以对核酸序列或蛋白质序列进行分析。经过BLAST程序比对之后会得到各种序列结果，例如转录体序列(UniGene)信息、基因序列(Gene)信息、3D结构信息(MMDB)或芯片信息(GEO)等。用户也可以使用My NCBI功能保留BLAST中设定的搜索题目、近期搜索结果和搜索参数等信息。还有一种BLAST程序——BLAST2Sequences程序，它可以对两条DNA序列或蛋白质序列进行比对，并获得一个点对点的比对结果。BLAST程序也可以作为一个独立的程序下载到本地计算机上使用，用户可以到ftp.ncbi.nih.gov/blast/executables/LATEST/下载。

3.1 BLAST

BLAST默认的比对信息数据库包括NCBI中的人类基因组数据库和人类RefSeq数据库。比对之后，BLAST会按照评分高低、序列相似度对结果进行排序，另外BLAST还可以对小鼠数据库以及其它数据库进行比对。

蛋白质序列的默认数据库包括GenBank非冗余数据库、RefSeq、Swiss-Prot、PDB、PIR和PRF等。此外，还包括这些数据库下的子数据库以及其它一些ZL数据库和诸如核酸数据库等环境样品数据库(environmental samples)。

3.2 BLAST output formats

标准的BLAST输出格式包括默认的配对比对格式(default pairwise alignment)、搜索定位的多序列比对格式(query-anchored multiple sequence alignment formats)、简单的可解析的Hit Table格式以及按照分类学给出的报告格式等。一种叫做“按照同一性进行配对(Pairwise with identities)”的格式能更好地突出目标序列与检索序列之间的差别。而Web BLAST中提供的树状浏览格式则会按照搜索出的目标序列与检索序列之间的距离不同将这些目标序列进行聚类，形成一幅树状图来显示结果。BLAST比对之后给出的每一种格式的比对结果都会有一个分值和E值。用户也可以设定一个E值的阈值来筛选比对结果。

3.3 MegaBLAST

MegaBLAST也是一种BLAST程序，不过它主要是用来在非常相似的序列之间(来自同一物种)比对同源性的。使用者通过网页使用MegaBLAST进行批量比对操作，这比使用标准的BLAST程序要快10倍。MegaBLAST在NCBI基因组BLAST页面下是默认的搜索工具，借助它能对增长迅速的Trace Archives数据库和标准BLAST使用的数据库进行快速检索。NCBI还为跨物种核酸序列快速搜索提供了Discontiguous MegaBLAST，它使用非重叠群字段匹配算法(noncontiguous word match)来进行核酸比对。Discontiguous MegaBLAST比blastx等翻译后比对要快得多，同时它在比较编码区时也具有相当高的敏感度。

3.4 Genomic BLAST

NCBI在Map Viewer中还为100多个物种设有Genomic BLAST。通过默认的Genomic BLAST既能对某个物种的基因组序列进行搜索，也能对其它的数据库进行搜索，比如RefSeqs数据库、EST数据库等。

4 文献资源

4.1 PubMed数据库

目前，PubMed数据库中收录有自1860年以来20,400种生命科学类杂志、刊物刊登过的超过1800万条的文献记录。这些文献中有980万条摘要信息，最早的记录可追溯至19世纪80年代，其中有870万条可以检索到全文。PubMed数据库与其它Entrez数据库都保持着密切联系，这样可以在不同的数据库之间架起一座连接的桥梁。PubMed数据库还会通过计算机自动检索出包含相近MeSH词汇、文献题目以及摘要的相关文献信息提供给用户。默认的“AbstractPlus”输出格式给出了该文献的摘要信息和五篇与该文献相关信息的简单介绍，这样用户就可以获得更多的有关资讯了。

4.2 PubMed Central

PubMed Central是一个收录生命科学领域同行评审期刊(Peer Reviewed Journals)文献的数据库，现收录超过160万条全文文献，并且仅去年一年就增长了51%。而且，包括《核酸研究》(Nucleic Acids Research)在内的480多种期刊会为PubMed Central提供全文文献。

所有参与PubMed Central的出版商也都必须在文献出版后12个月之内免费为PubMed Central提供全文文献。由于NIH于2008年4月7日开始执行向公众免费开放使用的政策，故而PubMed Central也必须免费向公众开放使用。如此一来，用户使用Entrez就可以搜索到PubMed和PubMed Central中的所有文献信息了。

4.3 NCBI Bookshelf、NLM Catalog以及Journals database

NCBI Bookshelf通过与作者和出版商合作，收录了86种在线教科书和生物医药类图书。NCBI Bookshelf作为独立于Entrez数据库的一个单独数据库，它里面的信息也可以通过文本搜索或Entrez数据库，例如PubMed、PubMed Central、Gene和OMIM中的链接搜索到。NCBI Bookshelf中的图书不是象普通图书那样一本一本的存放的，而是按照内容将它们分成了230,000个不同的部分、章节进行储存的。用户浏览其中一个内容的时候也可以跳到该书的其它部分或者直接搜索这本书中的特定内容进行阅读。

NLM Catalog为藏书超过130万册的美国国立卫生图书馆(NLM)记录设立目录信息，包括杂志、图书、手稿、计算机软件、录音文件和其它电子资源。每一条记录都可链接到NLM LocatorPlus和具有相近题目或MeSH词汇的相关文件目录信息。

Journals database(期刊数据库)包含了每一个Entrez数据库中的所有期刊信息。目前共收录有超过22,000条记录，期刊数据库为每一份期刊都建立了ISO刊名缩写索引、出版日期索引和NLM catalog链接索引以及Entrez中引用该期刊中文献的索引。

5 基因序列信息以及相关序列信息

5.1 数据库

5.1.1 Entrez Gene

Entrez Gene数据库为用户提供基因序列注释和检索服务，还会链接到NCBI的Map Viewer、Evidence Viewer、Model Maker、BLAST Link (Blink)、protein domains from the Conserved Domain Database(CDD)等数据库资源以及其它与基因相关的资源。Entrez Gene数据库收录了来自5300多个物种的430万条基因记录。而且，NCBI除了拥有自己的注释工作人员之外，还在不断从许多其它国际合作组织那里获取新的基因注释记录信息。

Entrez Gene数据库与PubMed中最新引文之间的链接是由基因注释人员负责维护的，这项功能也被称作GeneRIF。完整的Entrez Gene数据集以及物种特异性的数据亚集可以在NCBI FTP站点中的NCBI ASN.1中找到。一种可以将NCBI ASN.1格式转化成XML格式的名为ene2xml的软件也可以到ftp.ncbi.nih.gov/toolbox/ncbi_tools/converters/by_program/gene2xml下载。

5.1.2 UniGene和ProtEST

UniGene从属于GenBank的一部分，专门收集转录体序列数据，包括EST序列和非冗余序列，每一条UniGene记录都代表一个潜在的基因。UniGene收录了GenBank中来自所有物种的将近70,000条EST序列，这些物种中包括58种动物、43种植物和真菌以及6种真核生物。现在，在构建基因表达谱芯片时都是参考UniGene中的数据来进行设计的。UniGene数据库每周都会更新EST信息，每两个月会更新序列信息。ProtEST作为UniGene序列的辅助确认工具会预先对序列进行BLAST比对，它所使用的比对方式是将UniGene核酸序列的6种可能翻译蛋白质序列与模式生物蛋白质序列进行比对。

5.1.3 HomoloGene数据库

HomoloGene数据库是一个在20种完全测序的真核生物基因组中自动检索同源基因的系统，包括直系同源与旁系同源。HomoloGene的结果报告包括基因同源性和来自OMIM、小鼠基因组信息学(Mouse Genome Informatics, MGI)、斑马鱼信息网络(Zebrafish Information Network, ZFIN)、酵母基因组数据库(Saccharomyces Genome Database, SGD)、直系同源基因簇(Clusters of Orthologous Groups，COG)和果蝇数据库(FlyBase)的基因表型信息。HomoloGene下载功能能下载HomoloGene中的转录体、蛋白质和基因组序列信息，还能下载基因组中特定基因的上游和下游序列。

5.1.4 Reference Sequences

Reference Sequences(RefSeq)数据库是一个收录注释过的非冗余转录体、蛋白质和基因组序列数据库。2008年，Reference Sequences数据库收录的记录增加了40%。同年7月公布的Reference Sequences数据库30共收录了来自5400种不同物种的300万条核酸序列和560万条蛋白质序列。用户可以通过Entrez核酸和蛋白质数据库搜索到RefSeq序列，也可以通过NCBI FTP站点进入RefSeq数据库。

5.1.5 GenBank和其它数据库来源的序列

用户可以通过三个Entrez数据库——Nucleotide、EST和Genome Survey Sequence(GSS)(这三个数据库在E-Utilities中分别称作nuccore、nucest和nucgss)搜索到GenBank中的序列。Entrez Nucleotide数据库含有除了收录之外的GenBank中所有的序列，它还收录有全基因组鸟枪法测序序列、第三方注释序列(Third Party Annotation sequences)和Entrez结构数据库中的序列。对这些记录中编码序列概念上的翻译信息都收录在了Entrez蛋白质数据库中。EST数据库收录了GenBank EST中的所有数据和没有生物学注释信息的“单分子识别首次通过(first-pass single-read)”的cDNA序列。同样，GenBank中的GSS数据库也收录了没有生物学注释信息的单分子识别首次通过的基因组序列。

5.2 分析工具

5.2.1 ORF Finder、Spidey和Splign

NCBI提供了几种分析工具可以帮助用户在基因组内发现编码序列。Open Reading Frame(ORF)Finder程序可以将一段DNA序列按照6种进行翻译，然后返回某一段DNA序列中可能的ORF。

Spidey工具将一组真核生物的mRNA序列与一个基因组序列进行比对，使用4种物种的RNA剪切模型(脊椎动物、果蝇、秀丽隐杆线虫和植物)来预测RNA剪切位点。Splign是一种通过比对cDNA和基因组序列来发现剪切位点的工具，它可以在测序出现错误的情况下使用，还可以进行跨物种的比对。Splign使用了一种Needleman-Wunsch算法，与区域化算法(compartmentization algorithm)一起使用能发现可能的基因位点。用户可以在Splign网页上下载单独为大批量分析而专门设计的Splign工具使用。

5.2.2 Electronic PCR(e-PCR)

正向e-PCR能在UniSTS数据库收录的超过510,000条STS标记物中搜索到与STS引物配对的序列。反向e-PCR则通过搜索基因组数据库和转录体数据库来估计基因组结合位点、扩增子大小和引物特异性。用户可以在ftp.ncbi.nlm.nih.gov/pub/schuler/e-PCR上找到e-PCR的源代码(source code)。

5.2.3 Conserved CDS database(CCDS)

不同的科研小组使用他们各自的方法研究同一物种基因组时，对于基因组中的基因定位可能会得到相似但不完全相同的结论。这样，就会对其它的科研工作者造成困扰。在所有的模式生物中，目前对人类和小鼠的基因组序列研究得最多也最透彻，因此它们最适合用来作为“标准的(consensus)”基因注释的“实验材料”。

CCDS数据库计划(www.ncbi.nlm.nih.gov/CCDS/)就是由NCBI、欧洲生物信息学研究院(European Bioinformatics Institute)、韦尔科姆基金会桑格研究院(Wellcome Trust Sanger Institute)和加州大学圣克鲁兹分校(UCSC)共同合作建立的标准的有关人类和小鼠基因蛋白质编码区的数据库，该数据库会不断更新来保持其高水准。到目前为止，CCDS数据库共收录了超过20,000条人类基因CDS注释数据和17,500条小鼠基因CDS注释数据。用户可以在CCDS的网页上使用基因名或序列ID进行搜索，还可以链接到Entrez Gene数据库、历史记录信息、转录体和蛋白质序列、Map Viewer、Ensemble Genome Browser、UCSC Genome Browser和桑格研究院的Vega Browser。用户可以到ftp.ncbi.nlm.nih.gov/pub/CCDS/下载CCDS序列数据。

、PubChem等NCBI数据中资源的功能和使用方法。

丁香通

喜欢作者我要约稿