Illumina的SNP芯片原理

在高通量SNP检测的市场上,Illumina的生物芯片有着巨大优势。新近很火的美国“23 and ME公司”,就是用的Illumina的Human Omni Express生物芯片来做SNP检测的。

Illumina的SNP生物芯片的优势在于:

第1,它的检测通量很大,一次可以检测几十万到几百万个SNP位点

第2,它的检测准确性很高,它的准确性可以达到99.9%以上

第3,它的检测的费用相对低廉,大约一个90万位点的芯片(每个样本的)检测费用在一、两千人民币

Illumina的生物芯片系统,主要是由:芯片、扫描仪、和分析软件组成。目前它主要的扫描仪有HiScan和iScan两款。另外,NextSeq 550型(测序仪)也可以扫描部分类型的芯片。它的分析软件,主要是《Genome Studio》。

009.png

我们今天讲解的重点,是Illumina的SNP芯片的工作原理。

Illumina的生物芯片,由2部分组成:第1是玻璃基片,第2是微珠。

这个玻璃基片,它的大小和一张普通的载玻片差不多大小,它起到的作用,就是给微珠做容器。

010.png

在这个玻璃基片上,通过光蚀刻的方法,蚀刻出许多个排列整齐的小孔。每个小孔的尺寸都在微米级,这些小孔是未来容纳微珠的地方。小孔的大小与微珠正好相匹配,一个小孔正好容纳一个微珠。微珠是芯片的核心部分,微珠的体积很小,只有微米级。每个微珠的表面,都各偶联了一种序列的DNA片段。每个微珠上,有几十万个片段,而一个珠子上的片段,都是同一种序列。这些DNA片段的长度是73个碱基,而这73个碱基又分成2个功能区域。

011.png

靠近珠子的这一端的23个碱基的序列,被称为Address序列,它也是DNA片段的5'端。它是标识微珠的标签序列。标签序列,通过碱基的排列组合,得到许多可能,每种序列,就是相应微珠的身份证号码(ID号)。

DNA片段上离珠子远的那一端的50个碱基,也就是3'端的序列,被称作Probe序列,它的作用,是与目标DNA进行互补杂交。一种Address序列,就对应了一种probe序列。它们之间有着一一对应的关系。

在Illumina生产芯片的过程当中,是把要做芯片的几十万种微珠,按设定的比例进行混合好,撒到玻璃基片上。微珠随机地落入基片的小孔当中,然后,通过检测芯片上每个小孔当中的微珠上的Address序列,就可以知道,这个小孔当中是哪种微珠。

又因为Address序列和Probe序列有着一一对应的关系,这样,也就知道了每个小孔当中,有哪种Probe。反过来说,也就知道了每种Probe分布在哪几个小孔中了。

所以,Illumina公司出厂的每一张芯片,都要跟一个“.dmap”文件。这个.dmap文件,标注了每一张芯片上,每一个微孔当中,分别是哪种微珠。用户做完芯片实验,得到扫描数据后,要从Illumina的网站上下载这张芯片的对应dmap文件,然后才能解读这张芯片。在一张芯片的一个反应(样本位)当中,每种珠子平均有约15颗或更多。

说完了Address序列的功能,接着我们来说Probe序列的功能。Illumina的生物芯片扫描仪,是扫描2种(荧光)颜色的:红色和绿色。而碱基有4种:A、C、G、T,要用2种荧光颜色,在一次实验当中,就区分出四种碱基,就需要一些巧妙的设计。在Illumina的SNP芯片Probe设计上,先把要检测的位点,分成2种情况。

  • 第一种情况是比较简单的,我们先举例来说明。如果一个SNP位点的野生型是“G”,突变型是“A”,那么就设计一个探针。这个探针的3'端的最末一个碱基,就挨着这个SNP位点。在

012.png

实验过程当中,目标片段通过互补杂交,结合到这个探针上,然后,加入四种带标记的双脱氧核苷酸。其中A、T两种核苷酸是用DNP(二硝基苯)来进行标记的。C、G两种碱基是用生物素来标记的。同时,加入聚合酶,聚合酶就会在探针的3’末端,加上一个双脱氧核苷酸,并同时捎带连上一个标记物。

接着加入绿色荧光标记的链霉亲合素,红色荧光标记的抗DNP的抗体。绿色荧光标记的链霉亲合素与生物素特异地结合,让带生物素的C、G碱基显出绿色。红色荧光标记的抗DNP的抗体与DNP结合,让带DNP的A、T碱基显出红色。

012.png

并且进一步加入生物素标记的抗链霉亲合素的抗体、和DNP标记的,抗异种抗体FC端的抗体。加入这两种抗体的作用,是使荧光信号得到进一步的级联放大。

抗体结合完了之后,经过清洗,把游离的抗体都给洗掉。在扫描仪下进行扫描。

如果发出的光是绿光,就说明这个SNP结合的位点,是个“G”碱基的纯合子。如果发出的是红光,就说明这个SNP位点是个“A”碱基的纯合子。如果既有红光、又有绿光,而且两种颜色的光的光强差不多,就说明这个SNP位点是一个“A”和“G”的杂合子。

003.jpg

说明了上面的道理,那么,A-C、A-G、T-C、T-G,这四种SNP情况都可以理解了。因为它们长出来的碱基,最后都会被染成不同的颜色,所以,可以被轻松地区分。

那么,接下来,你就会想,对于A:T,或者C:G型的SNP位点,该如何来区分。因为“A:T”会有同样的红色荧光,“C:G”也会有同样的绿色荧光。

好,接着我们就来说,这第二种情况的SNP位点的区分方案。

刚才我们说了,第一种SNP位点的区分方案,是把探针设计到紧挨着SNP位点,但留出SNP位点,让下一个延长的碱基,按照互补原则,根据SNP位点的碱基来生长。

  • 那么,这第二种情况的SNP,在设计探针的时候,最后一个碱基,是盖在SNP位点上的。而且是设计2种探针,如果SNP位点是“A”和“T”,那么探针也设计“A”和“T”。并且分别盖在SNP位点上面。

004.jpg

这2种探针,在与目标DNA片段结合的时候,如果最后一个碱基是互补的,那么接下来的延伸反应就会发生,新的带标签的双脱氧核苷酸就会被加到探针链上。再接下来,就会被荧光抗体染色,在激光扫描的过程当中,就会发光。

005.jpg

反之,如果最后一个碱基是不互补的,那么接下来的延伸反应,就不会发生。当然,也就不会有标签加到探针链上,再接下来,荧光抗体也就不会将之染色。在后面的激光扫描当中,就不会发光。

激光扫描的结果,如果末尾是A碱基的探针发光,而末尾是T碱基的探针不发光,那么说明目标SNP位点上是一个“T”的纯合子;反之,则是“A”的纯合子;如果A和T的探针都发光,而且发光强度差不多,那说明SNP位点上是一个“A”和“T”的杂合子。

006.jpg

理解了Illumina的SNP芯片的工作原理,也就理解了它为什么准确率比较高。因为它是通过“红”或“绿”,和“有”或“无”,来区分一个SNP位点到底是哪种碱基的。

实验流程

007.jpg

008.jpg

(转自 陈巍学基因)