分析测试百科网 > 行业资讯 > 技术原理

一步一步教你使用NCBI数据库资源2

2019.11.03

6 基因组信息

6.1 数据库

6.1.1 Entrez Genome

Entrez Genome数据库收录了850多种微生物、3100多种病毒以及1600多种真核生物细胞器的完整基因组数据以及将近50种动物、绿色植物和真菌的700多条染色体信息，总共收录有6200多条序列，其中有882条是去年新增的序列信息。而对于更高等的真核生物基因组，Entrez Genome数据库会直接链接到NCBI Map Viewer。原核生物、病毒和真核生物细胞器的基因组则可以链接到专门的页面和BLAST页面。另外还专门设有植物基因组页面(Plant Genomes Central Web page)，在上面可以查询到完整的植物基因组测序计划、植物基因组BLAST或者Map Viewer等信息。

6.1.2 Entrez Genome Project

Entrez Genome Project数据库(Entrez基因组计划数据库)向用户提供了一个有关正在进行中的大规模植物基因组测序、组装、注释和作图工作的全面概况。目前，该数据库显示，一共对2200种植物进行了测序工作，其中750种已经完成了所有工作，700种正处于草图组装阶段。该数据库的规模还在不断扩大，以至于还囊括了多个单独的测序项目，例如病毒群体计划(viral population projects)、对16S核糖体RNA元基因库(16S ribosomal RNA metagenomic)等靶位点的测序计划(targeted locus sequencing projects)以及转录组计划等。Entrez基因组计划数据库与其它Entrez数据库，例如Entrez核酸数据库和Entrez基因组数据库以及NCBI内部或者外部资源都有广泛的联系。Entrez基因组计划还为原核生物的某些特点，例如表型、活力、致病性和对生存盐浓度、温度、氧气浓度、pH值等环境因素设置了索引，这对于研究原核生物的生物学家们来说无疑是一项非常有用的功能。NCBI鼓励各个测序中心在开始他们的测序项目之前提前登记自己的项目安排，这样就能更好的统筹安排，共享资源了。

6.1.3 NCBI Trace Archives

Trace Archives数据库储存了由凝胶/毛细血管测序平台(例如Applied Biosystems ABI 3730)测序获得的序列数据。至今，Trace Archives数据库包含有4500个品种的共计超过19亿(12%为人类数据)的序列数据。

6.1.4 Short Read Archive

Short Read Archive(SRA)数据库里收录的数据都是由新一代测序仪(例如Roche-454、Illumina Genome Analyzer、Applied Biosystems SOLiD System platforms)测序产生的基因序列信息。从2007年开始，SRA已经迅速累积到了1.3 Tbp，共180亿条小片段，约占人类基因组序列总长度的85%。SRA的出现为大家进行数据挖掘提供了更多的机会。出于方便广大用户使用的考虑NCBI还将为SRA数据建立索引，同时更多的辅助工具，例如搜索及比对等功能也将陆续开发出来。

6.2 分析工具及资源

6.2.1 Map Viewer

NCBI的Map Viewer显示了基因组集合、遗传标记及物理标记以及相关注释信息和比对信息等其它分析结果。Map Viewer的主页www.ncbi.nlm.nih.gov/mapview/提供了包括人类、小鼠和大鼠(Rattus norvegicus)在内的超过100种物种的基因组数据。用户可以看到的图谱将根据物种的不同可能会有所不同，或许包括细胞遗传图谱(cytogenetic maps)、物理图谱(physical maps)和各种不同的序列图谱。源自同一物种的多个基因组图谱可以在同一个页面中显示。

6.2.2 Model Maker以及Evidence Viewer

Model Maker(MM)是用来构建转录模型的一种工具，它将通过由从头预测法(ab initio predictions)预测出来的外显子以及通过与GenBank中的转录体数据库EST和RefSeq比对之后得来的外显子，与NCBI的人类基因组数据库结合在一起来构建转录模型。

Evidence Viewer(EV)则将所有能支持基因注释信息正确性的序列信息证据进行了归纳总结，它采用的是将RefSeq、EST等GenBank中的转录体信息与基因组重叠群进行比对的方法。EV显示了每一个外显子的详细比对结果，并突出显示了其中不匹配的部分。

6.2.3 Entrez cancer Chromosomes

Entrez cancer Chromosomes (Entrez癌症染色体)数据库包含了与人类癌症有关的人类染色体畸变信息，例如基因缺失或转位等。Entrez癌症染色体数据库由三个部分组成，即NCI/NCBI SKY(Spectral Karyotyping)/M-FISH(Multiplex-FISH)和CGH(Comparative Genomic Hybridization)数据库;美国国立癌症研究院(NCI)为癌症染色体畸变信息设立的Mitelman数据库以及NCI为再发癌症染色体畸变设立的数据库。每一个畸变都以图形的形式表现出来，并附之相关临床病例信息和文献信息。

6.2.4 TaxPlot、GenePlot和gMap

TaxPlot可以同时给出来自两个物种蛋白质之间的相似性以及原核生物或真核生物参考物种的完整基因组信息。与其相关的另一个工具GenePlot则可以给出一对完整微生物基因组内的片段，经可视化的缺失、转位或倒位操作之后，其编码蛋白质之间的相似性。gMap工具将预先计算过的微生物全基因组比较结果与BLAST比较结果以及核酸序列相似的基因组聚类结果结合在一起进行比对，然后将相似的片段以图形化的方式表现出来。

6.2.5 Influenza Genome Sequencing Project(IGSP)

IGSP(流感基因组测序计划)为研究流感的科研工作者提供了越来越多的序列资料，他们可以借此找出流感病毒致病的遗传性状。到目前为止，该计划已经得到了超过33,000条流感病毒序列。NCBI的流感病毒资源也和IGSP之间设有链接，还可以通过PubMed找到所有最新的有关流感病毒方面的文献和各种在线分析工具及数据库资源。这些数据库包括NCBI的流感病毒序列数据库(Influenza Virus Sequence Database)，该数据库收录有GenBank和RefSeq中超过70,000条流感病毒的序列。科研人员借助流感病毒资源提供的各种工具能对超过83,000条流感蛋白质序列进行分析。Entrez的生物学数据库中还收录有超过100条流感病毒蛋白质结构信息和350多条有关流感病毒种群研究的资料。还有一种在线流感病毒基因组注释工具能帮助科研工作者们分析新发现的流感病毒序列并进行注释，然后将结果通过tbl2asn等上传工具递交给NCBI的GenBank数据库。

6.2.6 Entrez Protein Clusters

Entrez Protein Clusters(Entrez蛋白质聚类数据库)收录了由完整的原核生物基因组和叶绿体基因组编码的28万多条已确认的RefSeq蛋白质序列，并将这些序列按照分类学的规则进行了归类(聚类)。NCBI可以将这些蛋白质聚类信息用于基因组范围内的比对，也可以用于简化的BLAST——简单的微生物蛋白BLAST(Concise Microbial Protein BLAST, www.ncbi.nlm.nih.gov/genomes/prokhits.cgi)比对之用。蛋白聚类数据库还包括注释信息、出版信息、结构域和结构信息、相关库外链接和分析工具(例如多序列比对工具和系统发生分析工具)信息等。蛋白质聚类数据库还通过Genome ProtMap(http://www.ncbi.nlm.nih.gov/sutils/protmap.cgi)与其它基因组数据库有链接。

7 基因型和表型信息

7.1 基因型和表型数据库

认识遗传和环境因素与人类疾病之间的关系，对于帮助我们提高疾病诊治水平来说具有非常重要的意义。大范围的基因型研究能为基因组相关调查、医疗测序、分子诊断以及发现基因型和非临床特性之间的关系等研究提供数据资料。基因型和表型数据库(dbGaP; www.ncbi.nlm.nih.gov/sites/entrez?db=gap)是Entrez系统的一部分，它负责管理与可见特征(表型)相关的遗传特征(基因型)。该数据库收录的资料来自由NIH资助的全基因组关联分析(genome-wide association study, GWAS)结果。(详见grants.nih.gov/grants/gwas/index.htm。)目前dbGaP数据库收录的数据来自25个研究项目，用户可以通过疾病名称或基因名称进行搜索、浏览。为了保证研究项目的机密性，dbGaP数据库只接受“去识别(de-identified)”的数据，同时还要求使用个人资料(individual-level)的研究者接受审核。不过，用户可以不受任何限制的浏览研究文件、操作流程和项目问卷调查等资料。

7.2 dbSNP

dbSNP数据库(单核苷酸多态性数据库)收录的是单核苷酸多态性信息，例如单个碱基的替换、缺失或插入信息。共收录有将近1800万条人类SNP信息和3300万条其它各物种的SNP信息。dbSNP数据库还收录确认信息、种群特异性等位基因频率信息(population-specific allele frequencies)和个体基因型信息。所有这些信息都可以在dbSNP数据库的FTP站点中找到。

7.3 供常规临床应用的数据库

7.3.1 dbMHC

dbMHC数据库是有关主要组织相容性复合体(MHC)的数据库。它收录了各种MHC等位基因的变异信息，这些信息与器官移植以及个体对感染性疾病的易感性有非常重要的关系。dbMHC数据库收录了1000多条MHC等位基因序列以及这些等位基因在人群中出现的频率，还收录了人白细胞抗原(HLA)的基因型与全世界临床造血干细胞移植成功率之间的信息。

7.3.2 dbLRC

dbLRC数据库则是全面收录白细胞受体复合物(LRC)等位基因信息，主要关注LRC中的KIR基因。

7.3.3 dbRBC

dbRBC数据库收录的是与红细胞抗原或血型有关的基因及其序列信息。该数据库是将血型抗原基因突变数据库(Blood Group Antigen Gene Mutation Database)中的资源与NCBI中的相关资源整合到一起组建而成的。dbRBC数据库里收录的每一个基因都有详细的信息，还有国际输血学会(ISBT)通过等位基因命名法对血型等位基因的命名。上述这三个数据库都带有多序列比对工具、分析纯合型或杂合型序列的工具以及DNA探针比对工具。

7.4 OMIM

NCBI的OMIM是Entrez的一个组成部分，主要收录人类基因和遗传病相关信息，它由约翰霍普金斯大学(Johns Hopkins University)的Victor A. McKusick小组负责维护。OMIM数据库收录了疾病表型与基因的相关信息，包括对该遗传病详细的描述、基因名称、遗传方式、基因定位、基因多态性以及详细的相关参考文献信息。OMIM数据库共有将近20,000条记录，涵盖超过12,500个已知的基因位点数据和表型数据。这些记录还与许多其它重要资源，例如位点特异性数据库(locusspecific databases)和GeneTests(www.genetests.org)之间设有链接。

7.5 OMIA

OMIA(动物在线孟德尔遗传)数据库是一个有关动物(除了人类和小鼠)基因和遗传病的数据库，由澳大利亚悉尼大学(University of Sydney, Australia)的Frank Nicholas教授等人建立。该数据库收录了超过2500条记录，其中包括文本信息、参考资料信息以及与OMIM、PubMed和Entrez Gene这些数据库之间的链接。

8 基因表达

8.1 Gene Expression Omnibus(GEO)

GEO(基因表达精选集)是一个储存高通量功能基因组学数据的数据库，这些高通量功能基因组学数据来自芯片和新一代的测序仪得到的试验数据。GEO除了收录基因表达数据之外还收录其它数据，例如基因组拷贝数变异数据、基因组-蛋白相互作用数据以及基因组甲基化数据等。该数据库既接受原始数据，也接受经过处理的数据，不过这些数据都要符合“有关芯片试验的最小信息(minimum information about a microarray experiment，MIAME)”标准。该数据库能存储好几种格式的数据，包括web格式、spreadsheets格式、XML格式和纯文本格式。GEO数据库被分为两个部分收录在Entrez中，分别是GEO Profiles数据库(它负责收录一个基因在一次试验中的定量基因表达数据)和GEO数据库(收录整个试验的数据)。目前，GEO数据库共收录了由世界各地5000多家实验室提交的超过10,000条试验数据，以及300,000个样品和对500多个物种进行表达谱测量得到的160亿个基因表达丰度数据。

8.2 GENSAT

GENSAT是有关小鼠中枢神经系统基因表达谱的数据库，这些数据是由美国神经障碍和中风研究院(National Institute of Neurological Disorders and Stroke)提供的。GENSAT储存了小鼠大脑的组织切片图像，这些组织切片中都含有各种标签，例如增强的绿色荧光蛋白标签等，这样可以根据标签的荧光强度来判断基因的表达量。GENSAT共收录了8万多幅图像资料，还提供搜索功能、资料下载功能、缩放功能和比对功能。

8.3 Entrez Probe

NCBI Probe database(探针数据库)是一个公共的核酸试剂数据库，它可以提供试剂信息、销售厂家信息、探针有效性信息，还可以计算序列相似性。该数据库储存了960万条探针序列，这些探针可以分为31大类，包括用于基因分型的探针、发现SNP的探针、基因表达探针、基因沉默探针、基因测序探针等等。

9 分子结构和蛋白质组学

9.1 MMDB

NCBI的MMDB数据库收录了Protein Data Bank数据库中经试验验证过的数据信息，包括蛋白质结构域注释信息、与相关文献的链接信息、蛋白质和核酸序列信息、PDB异基因(PDB heterogens)信息、CDD中的保守结构域信息和经VAST算法计算出的结构邻域(structural neighbors)信息。用户可以通过在MMDB数据库中进行文本搜索得到相关的简要结构信息图，还能链接到NCBI结构和在比对浏览器Cn3D中查看搜索结果。

9.2 分析工具

Blink工具能显示预先计算(pre-computed)出的BLAST比对结果，即与Entrez数据库中每一条蛋白质序列相似的序列。用户可以限定一些参数，例如物种类别或被比对的数据库等来对结果进行筛选。

9.2.1 开放式质谱搜索算法

开放式质谱搜索算法(Open Mass Spectrometry Search Algorithm, OMSSA)是一种与BLAST类似的算法，利用和BLAST中E值一样的方法在已知的蛋白质序列数据库(非冗余数据库或refseq数据库)中找出与待测序列最相近的已知序列。在OMMSA的网页上可以一次分析2000多个样品。用户还可以到ubchem.ncbi.nlm.nih.gov/omssa/download.htm.站点下载可进行更大量分析的OMSSA软件。

9.2.2 HIV-1/Human Protein Interaction Database

美国国立过敏和传染病研究所艾滋病部(The Division of Acquired Immuno Deficiency Syndrome of The National Institute of Allergy and Infectious)与南方研究院(Southern Research Institute)和NCBI合作，建立了HIV-1/Human Protein Interaction Database(HIV-1/人类蛋白相互作用数据库)，用来记录HIV-1病毒蛋白和人类宿主细胞蛋白之间的相互作用。在www.ncbi.nlm.nih.gov/RefSeq/HIVInteractions/index.html网页上用户可以找到蛋白质在RefSeq中的检索号、Entrez Gene ID号、相互作用的氨基酸位点、对相互作用的简单描述、关键词和PubMed ID号等信息。

10 PubChem

PubChem是NIH设立分子图书馆以及开展研究小分子化学、结构和生物学特性工作的基础。三个Entrez数据库——PCSubstance、PCCompound和PCBioAssay收录了所有的相关信息。这三个数据库共收录有将近4100万条小分子记录和1900万种结构。其中750,000条记录都在PubChem中收录的1200种生物检测方法中的至少一种生物检测试验中具有活性。PubChem不仅与PubMed、PMC等Entrez数据库有链接，还与Entrez Structure和Entrez Protein有链接，这样就将基因组水平的生物大分子与细胞代谢水平的小分子联系起来了。用户可以使用文本在PubChem数据库中进行搜索，也可以使用各种格式的化学分子式或化学结构进行搜索。

本文总结了BLAST序列相似性搜索程序、ENTREZ 搜索系统、PubMed搜索功能、GenBank和其它数据库来源的序列、分析工具及资源、基因型和表型信息数据库、Gene Expression Omnibus(GEO)数据库、分子结构和蛋白质组学

丁香通

喜欢作者我要约稿