湖南白癜风医院 http://m.39.net/pf/a_5789682.html
目录
《纳米孔测序》
目录
一、第三代测序
1.1第三代测序技术原理
1.2第三代测序平台比较
二、纳米孔测序
2.1纳米孔分类
2.2纳米孔测序流程
2.3纳米孔测序在病原体检测方面的优势
2.4行业相关进展
三、病原微生物检测行业的发展前景
3.1机遇
3.2挑战
3.3发展趋势
四、行业总结与展望
一、第三代测序
从年第一代DNA测序技术(Sanger法)发展至今已有三十多年时间,测序技术取得了相当大的发展。从第一代到第三代乃至第四代测序技术,测序读长从长到短,再从短到长。虽然就当前形势来看,第二代短读长测序技术在全球测序市场上仍然占有着绝对的优势位置,但第三代和第四代测序技术也在这一两年的时间中快速发展着。测序技术的每一次变革,也都对基因组研究,疾病医疗研究,药物研发,育种等领域产生巨大的推动作用。本行研主要对第三代测序技术及其测序原理做一个简单的小结。
1.1第三代测序技术原理
第三代测序技术是测序行业新的里程碑,主要以PacBio公司的SMRT技术和OxfordNanoporeTechnologies(ONT)公司的纳米孔单分子测序技术为代表。与前两代相比,他们最大的特点就是单分子测序,即测序过程无需进行PCR扩增。
1.1.1单分子荧光测序
PacBio公司的SMRT技术应用了边合成边测序的思想,并以SMRT芯片为测序载体。其基本原理是:首先利用聚合酶捕获文库DNA序列并锚定在零模波导孔底部;之后在碱基配对阶段,4种不同荧光标记的dNTP会随机进入零模波导孔底部并与DNA模板的碱基匹配,在酶的作用下合成碱基并发出不同荧光信号,根据荧光的波长与峰值即可判断进入的碱基类型进而获得DNA序列(图1.B)。SMRT技术将荧光染料标记在核苷酸的磷酸链而不是碱基上,当核苷酸掺入到新生的链中,标记基团就会自动脱落,减少了DNA合成的空间位阻,维持DNA链连续合成,延长了测序读长。
DNA聚合酶是实现超长读长的关键之一,读长主要跟酶的活性保持有关,它主要受激光对其造成的损伤所影响,SMRT测序最大限度地保持了聚合酶的活性,是最接近天然状态的聚合酶反应体系。
此外,SMRT技术的另一个关键是怎样将反应信号与周围游离碱基的强大荧光背景区分出来。他们利用的是纳米级的零模波导孔(ZMW),每个ZMW都能够包含一个DNA聚合酶和一条DNA样品链进行单分子测序,并实时检测插入碱基的荧光信号(图1.A)。
ZMW是一个直径只有10~50nm的小孔,小孔的直径很有考究,如果直径大于微波波长,能量就会在衍射效应的作用下穿透面板而泄露出来,从而与周围小孔相互干扰;如果孔径小于波长,能量不会辐射到周围区域,而是保持直线状态(光衍射的原理),从而起到保护作用。在一个反应管(SMRTCell:单分子实时反应孔)中有许多这样的圆形纳米孔,即ZMW,其外径比检测激光波长小(数百纳米),当激光打在ZMW底部时并不能穿透小孔进入上方溶液区,能量被限制在一个小范围里,正好足够覆盖需要检测的部分(DNA聚合酶就被固定在这个区域),使得荧光信号仅来自这个小反应区域。激光从底部打上去后,孔外过多的游离核苷酸单体依然留在黑暗中,从而实现将背景降到最低。
另外,还可以通过相邻两个碱基之间的测序时间,来获得一些碱基的修饰情况,即如果碱基存在修饰,则通过聚合酶时的速度会减慢,相邻两峰之间的距离会增大,以此来获得甲基化等信息。SMRT技术的测序速度很快,每秒可测约10个dNTP。但是其测序错误率较高(这几乎是目前单分子测序技术的通病),达到15%。与第二代测序技术存在有偏向的测序错误不同的是,第三代测序的测序错误是随机的,可以通过多次测序来进行有效的纠错,但相应的多次测序的成本也会有所增加。
图1.A)DNA模板单链与DNA聚合酶结合并固定在ZMW底部;B)标记的dNTP插入的示意图,以及相对应的从ZMW检测到的荧光强度的预期时间轨迹
1.1.2纳米孔测序
纳米孔测序是将人工合成的一种多聚合物的膜浸在离子溶液中,多聚合物膜上布满了经改造的穿膜孔的跨膜通道蛋白(纳米孔),也就是Reader蛋白,在膜两侧施加不同的电压产生电压差,可使DNA链在马达蛋白的牵引下,解螺旋通过纳米孔蛋白(图2)。因为不同碱基本身带有不同电荷,因此不同碱基通过纳米孔的时候会形成特征性离子电流变化信号,也就是将化学碱基序列转换为电信号,通过捕获电流变化来识别碱基序列(图3)。
图2.图中的跨膜的蛋白质(reader)形成一个nanopore,孔径刚好可以穿过一个核苷酸。上方有马达蛋白来实现对核酸分子的减速过程。膜的电阻率很高几乎不导电,所以电流只能从pore通过,膜两侧是含有离子的溶液,加上电压后,不同的碱基穿过reader导致nanopore不同程度的堵塞,从而收集到电流信号。
图3.Nanopore测序收集到电流信号
纳米孔测序的主要特点是:读长很长,大约在几十kb,甚至上百kb;错误率目前介于1%至4%,且都是随机错误,不会聚集在读取的两端;其数据可实时读取;通量很高(30X人类基因组有望在一天内完成);起始DNA在测序过程中不会被破坏;样品制备十分简单且廉价。理论上讲,纳米孔也能直接对RNA进行测序。此外,纳米孔单分子测序还能够直接读取出甲基化的胞嘧啶,不必像传统方法那样对基因组进行bisulfite处理。这对于在基因组水平直接研究表观遗传相关现象有极大的帮助。
纳米孔测序方案中有一个至关重要的问题是需要解决检测器的灵敏度问题,单个核苷酸分子足够小,即便是在~mV的电压作用下,核酸链通过纳米孔的速度仍然非常快,如何通过检测器检测到单个的核苷酸分子信息是摆在工程师面前的一大难题。OxfordNanoporeTechnologies通过在待测序链中加入一个“马达蛋白”来实现对核酸分子的减速过程,且核酸链通过纳米孔后仍可保持完整。纳米孔测序方法的创始人Bayley采用的方式是在纳米孔上方加入一个核酸外切酶,或是在测序溶液中加入核酸外切酶,将核酸链上的碱基逐个剪下,通过对溶血素进行改性,延缓单个核苷酸分子通过纳米孔的时间,来满足检测的时间分辨率要求(图4)。纳米孔测序本质上也属于单分子测序。前面已经强调过碱基特别小,还需要精确穿过纳米孔,其技术难度可想而知。
图4.纳米孔测序过程示意图
1.2第三代测序平台比较
二、纳米孔测序
纳米孔测序技术是最近几年兴起的新一代测序技术,目前测序长度可以达到kb。这项技术开始于90年代,经历了三个主要的技术革新:1.单分子DNA从纳米孔通过;2.纳米孔上的酶对于测序分子在单核苷酸精度的控制;3.单核苷酸的测序精度控制。
2.1纳米孔分类
目前用于DNA测序的纳米孔有两类:生物纳米孔(由某种蛋白质分子镶嵌在磷脂膜上组成)和固态纳米孔(包括各种硅基材料、SiNx、碳纳米管、石墨烯、玻璃纳米管等)。DNA链的直径非常小(双链DNA直径约为2nm,单链DNA直径约为1nm),对所采用的纳米孔的尺寸要求较苛刻。
生物纳米孔是天然的生物纳米器件,具有特定的孔径结构、生物活性及能够插入脂双分子层膜的能力,由于其可进行灵活的化学或生物修饰而受到科学家的青睐。
α-溶血素(αHL)纳米孔(图5)是目前使用最广泛的生物纳米孔分析物质,由个氨基酸多肽构成,可插入到纯净的双分子层脂膜中形成蘑菇状七聚体,组装成跨膜通道。αHL七聚体纳米孔主要由帽型区(Cap,入口cis端直径为2.6nm)、边缘区(Rim,直径为1.4nm)和主干区(Stem,入口trans端直径为2.2nm)三部分构成。αHL纳米孔的特点是永久开通不关闭,且耐强酸和强碱,在高温高电压下较稳定。将αHL与核酸酶结合后,利用氨基化环糊精配体固定,将待测核酸上的碱基按顺序剪切后在电场的作用下有序地通过蛋白质纳米孔,使其可以选择性的识别四种碱基,这项技术已经被英国牛津纳米孔技术公司(OxfordNanoporeTechnologies)成功用于核酸测序。利用αHL纳米孔实现快速、廉价的DNA测序,是生物纳米孔单分子检测研究的里程碑标志。
图5.α-溶血素(αHL)纳米孔蛋白
耻垢分枝杆菌中的孔蛋白(MycobacteriumsmegmatisporinA,MspA)是适合用于DNA测序的另一个纳米孔蛋白(图6)。MspA呈圆锥状,是八聚体孔蛋白,有一个宽约1.2nm,长约0.6nm的短窄收缩区。与5nm长的αHL蛋白孔相比,MspA更有利于对单碱基的测定。将核酸末端连接核酸分子夹,利用MspA纳米孔识别四个单碱基的技术,可减缓DNA的穿越速度,提高DNA单碱基检测的灵敏度。
图6.MspA纳米孔蛋白
固态纳米孔主要是在氮化硅、二氧化硅和石墨烯等绝缘材料上用离子刻蚀技术、电子刻蚀技术、聚焦电子束(FEB)或离子束(FIB)等制作出的微小孔洞。
目前固态纳米孔的制备,首先用常规微加工技术制作30~nm厚的悬空薄膜,再用离子束或电子束等在硅或其他材料薄膜表面钻出2~nm的孔洞。DNA检测中所需的纳米孔直径都是1~2nm,可在前述操作的基础上,进一步采用沉淀物质收缩、离子束辐射、电子束辐射等收缩技术减小纳米孔的尺寸,从而达到更小目标尺寸的纳米孔。固态纳米孔具有稳定耐用的特点,其制造技术日益成熟,丰富了纳米孔单分子检测技术研究。
2.2纳米孔测序流程
针对生物样本,测序的流程大致相同,都需要经过:文库构建?纳米孔检测?数据读出与记录?序列分析等主要流程。
2.2.1核酸提取
纳米孔可以测序DNA本身长度的读长,这就需要DNA具有原始的长度。因此,在测序之前能够提取到相对完整的DNA对于纳米孔测序的结果有重要影响。不同物种DNA的提取方法不同,需要依据一些不同样本提取的经验来选择合适的方法。例如植物细胞具有细胞壁,且次级代谢物(多糖和多酚)含量很高,因此很难从植物细胞中获得纯净、优质的高分子量DNA。这些污染物的存在会对下游数据分析产生很大影响,也是测序产出低的最常见原因之一。Nanopore提供了一个不同物种DNA提取方法的经验交流社区(图7),便于在里面找到适合自己样品的提取方法。纳米孔测序所需的DNA要尽量保证完整(可利用AgilentBioanalyzer/Tapestation,PFGE,FragmentAnalyzer,FEMTOpulse来评估片段长度),且不要有RNA或者蛋白质的污染(可以使用Nanodrop来评估DNA质量。DNA:A/A=~1.8,A/A=2.0-2.2;RNA:A/A=~2.0,A/A=2.0-2.2)。
图7.Nanopore提供的DNA提取方法经验交流社区
2.2.2标准测序文库构建
传统的二代测序,以Illumina测序为例,一般需要经过随机打断,加A碱基,加测序引物,加index或者barcode,加adapter,扩增等过程。而Nanopore测序是让DNA分子穿过纳米孔,通过读取电信号来识别碱基,因此不需要类似二代测序建库的繁琐过程。这样不仅可以提高建库的速度,也能减少误差的引入,一般来说操作步奏越少,引入的误差也就越少。Nanopore建库的方式主要是给待测DNA的两侧先加上A碱基,使平末端变成粘性末端,然后再加上Y接头以及马达蛋白(图8)。
图8.Nanopore建库方式
在二代测序边合成边测序的方案中,需要大量使用PCR的操作(包括前期加接头,cluster等步骤),由于PCR的长度限制,也就导致了为什么Sanger测序与Illumina测序都不能进行长读长的测序,即无法超过0bp的读长。而Nanopore测序过程中可以完全无需PCR操作,因此测序读长不会被PCR限制,而且PCR也会带来一些扩增的偏向性,给数据引入一些误差。不过根据不同的研究目的,有些纳米孔建库过程也是需要使用PCR的,例如原始DNA量太少,就需要进行扩增;或者转录本本身长度不是特别长,需要反转录成cDNA;又或者对16S进行测序,无需太多数据量,这种情况就需要进行混样建库,也需要使用到PCR。目前Nanopore也支持混样建库,最多支持96个样品,可以根据不同的研究目的选择合适的建库方法(图9)。
图9.建库方法对比
目前,Nanopore发布了VolTRAX,一种可实现快速样品制备的小型自动化设备(图10)。VolTRAX可以进行自动化的文库制备,用一个小型装置取代了一系列实验室设备。利用该装置直接将提取到的DNA与建库试剂按照软件指示进行操作就可以完成建库工作,然后将建库后的DNA搜集并用于下一步测序即可。
图10.自动化建库设备VolTRAX
2.2.3纳米孔测序设备与通量
纳米孔测序的原理前文已经详细介绍过了,选择一个合适的测序仪器也是影响最后结果的重要因素。Nanopore是非常适合单独运行的测序设备,无需投入大量资金。不像二代测序,需要昂贵的购买测序仪成本以及运行成本。本章节将给大家介绍一下最新的Nanopore测序相关产品。
数据产出量是测序仪的一个重要指标,Nanopore的主要测序仪产品也是根据数据产出来进行区分的。选择适合自己的测序仪的一个重要原则也是需要根据数据分析所需的数据量。例如分析人基因组,单次数据产出至少要30G,那么数据产出太少的测序仪就不合适;如果只做细菌,选择产出数据太多的产品也比较浪费。每款测序仪产品官方都会给出目前最大数据产出量,也可以根据纳米孔数的多少来进行简单计算:目前纳米孔每秒流过的碱基数目是bp左右,那么如果是个纳米孔,每秒的测序量就是K左右,一分钟产出的数据约为12.3M,一小时的数据量为M,48小时则为35G。但这些都是理论计算的最大值,实际上是达不到的。但通过这个方法我们可以根据纳米孔数目来大概推算每款产品最大产出数据量。
MinlON是Nanopore推出的第一款测序仪产品,也是目前该公司测序平台中最成熟、使用最广泛的一款(图11)。MinION是一款功能强大的手持测序仪,体积小到可以放到口袋里,且能够提供具有经济效益的,实时长读长测序数据。MinION带有个有效通道,数据量高达30G,可以USB驱动。是很多实验室的入门选择。
图11.MinION测序仪
GridION可运行高达5张MinION芯片或Flongle芯片,单次可有多达个有效通道进行测序。GridION可以被简单理解为5个MinION外加一台高性能服务器,并内置一些软件。如果做大型基因组相关分析,每次需要产出较多数据量,可以选择GridION(图12)。
图12.GridION测序仪
PromethION是灵活、高产量的台式测序仪,是大型项目和高通量实验室的理想选择(图13)。PromethION可以同时或单独运行多达24个(PromethION24)或48个(PromethION48)测序芯片,可提供高达Tb级别的长读长测序数据。集成的高性能计算能力可实时进行碱基识别和后续分析以便快速获得结果。单张测序芯片内部最高通量是G,用户手中最高通量是G,在P48的单次测序运行中可获得超过7Tb的数据。PromethION48每年可运行4张测序芯片。现在已有多项使用PromethION开展的大型项目:人类X染色体、天测序个番茄基因组、10万人的结构变异分析。作为目前的旗舰产品,PromethION的价格比较昂贵。
图13.PromethION测序仪
Flongle是MinION和GridION的转换器(图14),可以随时随地进行快速、小型的测试,并已经在人们希望得到快速答案的小型实验中显示出价值。单张芯片数据产出为1.8G,带有个通道。Flongle被设计用于更小或者更频繁的测试及实验的最快速可得和最具经济效益的测序系统,可以用于微生物测序或者肿瘤panel数据。
图14.Flongle测序仪
MinIONMk1C测序设备整合了高性能计算和高分辨率屏幕,是MinIon与MinIT的结合产品(图15),可连接Sim卡和蓝牙使用,于年1月上市,特别适合野外微生物的快速鉴定。
图15.MinIONMk1C测序仪
SmidgION是迄今为止体积最小的测序设备(图16),具备与MinION和PromethION相同的纳米孔传感技术,可在任何地点与智能手机配套使用。由于推出了MinIONMk1C,这款产品以后很可能不会在推出了。
图16.SmidgION测序仪
MinIT预装了Linux系统,内置MinKNOW,Guppy,EPI2ME等软件,通过蓝牙和wifi连接笔记本显示器或者智能手机进行控制(图17)。MinIT包含一块G的SSD,fastq或fast5的文件都可以直接进行保存。此外还有6核心ARMCPU,8G内存,1个USB2.0接口,1个USB3.0接口和一个以太网接口,重量仅为g。
图17.MinIT测序仪
2.2.4生物信息学分析
近些年来,随着生物信息分析方法的发展,MinION测序reads成功比对参考基因组的比例已经从66%提升至92%。接下来将对各种工具的适用场景进行分别介绍。
碱基识别工具:Metrichor是ONT公司推出的基于隐马尔可夫模型进行碱基识别的软件,需要连接网络使用。MinION的注册用户需要获得开发者账号才能获得该软件的源代码。此外,在年初,两个实验室分别开发了Nanocall和DeepNano软件,这两个软件都可以在本地运行,不需要网络连接。Nanocall基于隐马尔可夫模型,可对1Dread在本地进行碱基识别;DeepNano基于recurrentneuralnetworkframework,可以获得比隐马尔可夫模型更准确的碱基识别。
序列比对工具:传统的NGS序列比对软件不能满足MinION序列比对的需求,这是因为MinION测序数据错误率相对高且序列长,即使调整参数也不能取得好的效果。在这种情况下,适合MinION测序数据的比对软件应运而生。MarginAlign是通过更好地估计MinION测序reads错误来源从而提高与参考基因组的比对效率。通过评估检测到的变异,发现其显著提高了比对的准确性。由于MarginAlign是基于LAST或BWAmem的比对结果进行优化的,其结果的最终准确性依赖最初的比对结果。GraphMap是另一个用于MinION测序数据比对的软件。它利用的是一种启发式(heuristics)方法,对高错误率reads和长reads进行了优化。一项研究表明GraphMap比对的灵敏性可与BLAST媲美,且它对reads测序错误率的估计与MarginAlign相当。
从头组装工具:MinION测序数据不适合利用NGS数据组装的deBruijn图法进行组装,主要由于两方面的原因。第一,deBruijn图法依赖测序reads拆分的k-mer分析的准确度,而高错误率的MinION测序reads不能保证这一点;第二,deBruijn图的结构不适用于长reads。MinION测序数据的长reads更适合Sanger测序时期基于有overlap的共有(consensus)序列组装的方法,需要在组装前进行测序reads的纠错。第一个基于这种原理进行组装的研究组利用MinION数据组装了一个完整的E.coliK-12MG基因组,其序列准确率达到99.5%。他们利用的流程称为nanocorrect,首先利用graph-based、greedypartialorderaligner方法进行纠错,然后利用CeleraAssembler将纠错后的reads进行组装,最后利用nanopolish对组装结果进行进一步提升。
单核苷酸变异检测工具:Referenceallelebias是一种在变异检测中倾向于少检测出变异的现象,且该现象在测序reads错误率高的情况下尤为严重。MarginAlign中的MarginCaller模块是研究机构开发的适用于MinION测序数据的变异检测软件。MarginCaller利用maximum-likelihood参数估计和多条测序reads序列比对来检测单核苷酸变异。当计算机模拟出测序错误为1%时,测序深度在60X,MarginCaller检测出的SNV具有97%的准确率和完整度。在另外一项研究中,研究者利用GraphMap方法,检测人基因组的杂合变异,可以达到96%的准确率。利用计算机模拟的数据,GraphMap同样可以高准确率、高完整度地检测出结构变异。Nanopolish也可以用来检测变异。它利用的是event-levelalignment算法。在该方法中,从参考基因组序列开始,依次评估参考基因组序列产生的电信号与测序reads的相似性进而依次修饰参考基因组序列,生成一个consensusread,直到consensusread与测序reads产生的电信号足够相似,将consensusread与参考基因组的序列进行比较,得到变异、该方法在埃博拉病毒的研究中有大约80%的准确性。PoreSeq采用与Nanopolish类似的算法。它可以利用更低深度的测序数据获得高准确率和高完整度的SNV检测。在一项研究中,PoreSeq在16X测序深度下获得99%准确率和完整度的SNV检测。与MarginAlign相比,PoreSeq显著降低了测序深度。
共有序列的测序(consensussequencing)方法:MinION测序数据目前只有92%的准确性,在低深度测序的情况下,其结果不能够满足类似单体型(haplotypephasing)和人样品的SNV检测要求。现有的解决方法是利用rollingcircleamplication,它的原理是将一个片段进行多次扩增,在一个DNA分子上生成多个拷贝,这样最终获得的共有序列测序结果的准确率可以达到97%。
2.3纳米孔测序在病原体检测方面的优势
国外暴发的埃博拉出血热、寨卡病毒病、拉萨热以及现在全球面临的新冠疫情表明,我们亟需一种快速、有效的病原体现场检测技术来应对新发和烈性传染病。现有的二代测序平台能实现病原体的鉴别,但其运行环境要求较高,样本制备过程相对复杂,测序运行时间较长,数据分析也依赖高性能的计算设备,这些因素限制了其在非实验室环境下的现场检测应用。而作为三代测序技术的代表之一的纳米孔测序平台具有实时、长读长、测序通量高、流转时间短、文库制备流程简易等优势,其测序平台MinION更是以便携、低成本的特性而独具病原体现场快速确认的能力,下文将详细介绍纳米孔测序在病原体检测方面的优势。
2.3.1对比传统病原体检测方法
病原微生物种类繁多,变异迅速,快速鉴定病原微生物的检验技术也在不断发展更新。传统的病原微生物学检查以染色、培养、生化鉴定等为主,将标本直接涂片染色镜检和接种在培养基上进行分离培养是对细菌或真菌感染性疾病进行病原学诊断的常用方法。此外,免疫学检测和PCR技术也常被用于病原体的分析和鉴定。
直接涂片染色镜检:病原微生物体形体积微小,大多无色半透明状,将其染色后可借助显微镜观察其大小、形态、排列等。直接涂片染色镜检简便快速,适用于那些具有特殊形态的病原微生物感染,例如淋球菌感染、结核分枝杆菌感染、螺旋体感染等的早期初步诊断。而且直接涂片镜检不需要特殊的仪器和设备,在基层实验室里仍然是十分重要的病原微生物检测手段。此方法在各个国家均被认可,在我国也一直沿用至今,但其缺点也十分明显。首先,对一些表型特征变异的菌株,用形态学经验很难辨别,受主观经验影响较大,需要观察的技术人员拥有丰富的经验。再者,对每个样品的每种菌都必须进行检测,大大提高了检测的工作量和难度。
分离培养与生化反应:分离培养主要用于临床标本(如血液、痰、粪便等)或培养物中有多种细菌时对某一种细菌的分离。细菌的生长繁殖需要一定时间,检测周期较长,不能同时处理批量样本。此外,细菌培养的操作过程稍有不慎就会使样品被污染,导致无法正确检测出病原体。
组织细胞培养:活组织细胞培养适用于只在活组织细胞内生存的病原体,包括病毒、立克次体、衣原体等。不同病原体敏感的组织细胞是不一样的,将活细胞从病原体敏感的动物组织中取出在体外进行原代培养或用病原体敏感细胞系进行传代培养,再将病原体接种于相应的组织细胞中后,病原体可在其中繁殖增长,引起特异性的细胞病变效应。也可以将病原体直接接种于敏感动物体内,引起相应组织器官出现特异的病理学改变,根据这些特异的病变即可对病原体进行鉴定。但利用这种方法检测病原体无论时间还是成本都远高于纳米孔测序。
血清学与免疫学检测:血清学检测是通过已知的抗体或抗原来检测病原体的抗原或抗体从而对病原体进行快速鉴定的技术,常用的方法包括血清凝集技术、乳胶凝集试验、荧光抗体检测技术、协同凝集试验、酶联免疫测试技术等。酶联免疫技术的应用大大提高了血清学检测的敏感性和特异性,不仅可检测样本中病原体抗原,也可检测机体的抗体成分。幽门螺旋杆菌(HP)在我国人群中的感染率高达50%~80%,可应用酶联免疫吸附法(ELISA)检测唾液中抗HP抗体来诊断HP感染。乙型肝炎病毒(HBV)在我国人群中感染率极高,ELISA应用于乙型肝炎病人早期血清学诊断的效果最为明显。虽然免疫学方法具有很多优点,但仍有许多需要改善的地方。比如,由于洗涤和抗原包被等原因,会导致假阳性结果;实验的灵敏度非常依赖于抗体的好坏,即使抗体制作的很好,也会由于抗原表明决定簇似的原因,使结果出现交叉反应;对于变异性较快的病毒,免疫学检测就比较困难,不能检测到新抗原。
PCR技术:聚合酶链式反应(PolymeraseChainReaction,PCR)是一种在体外用已知寡核苷酸引物引导未知片段中微量待测基因片段并进行扩增的技术。由于PCR可以对待测基因进行扩增,特别适用于病原体感染早期的诊断,但是如果引物特异性不强,可能会造成假阳性的出现。年Chamberian等提出了多重PCR的概念,同一PCR反应体系里加上二对以上的引物,可同时扩增出多个核酸片段,适合大量样本的分析与鉴定。但是使用PCR进行病原体分析,为“假设驱动”型检测;即用户对样本中可能存在的感染性因子有预先的设想,并希望通过研究来证明该假设。这种方法具有局限性,在临床使用中尤甚。使用预先设定的PCR组合时,会遗漏掉样品中存在的其他微生物(如罕见感染性因子),导致遗漏其抗微生物药物耐药性的性状。因此PCR的方法不太适用于研究所存在的微生物群落的整体情况。相比之下,OxfordNanopore可实现对样品中细菌、病毒、真菌或古细菌的鉴定,无需事先了解可能的微生物样品组成。此外,进一步的抗微生物药物耐药性分析,可阐明抗菌素耐药性的已知特征标记,或者可表征从头测序的耐药性标记。
2.3.2对比第二代测序
与传统的目标性病原学检测方法相比,mNGS方法就如同撒一张大网,无偏移地把标本中所有病原体的核酸(DNA或RNA)都检测出来,将可能致病的病原菌一网打尽。使用二代测序来做病原学诊断有几个基本步骤,包括样本采集、核酸提取、文库制备、高通量测序、生物信息分析和报告解读。目前除了样本采集和报告解读需要临床医生操作,其余步骤大多由实验室技术人员或测序公司操作完成。
用于mNGS的样本可以是组织、体液、脓汁、灌洗液、分泌物等,样本量根据测序需要和核酸数量级而定,样本的稳定性对于后续的测序十分重要。尤其是RNA的测定,一般而言样本采集完应尽快进行检测以避免核酸降解,虽然冷冻时DNA和RNA能够保持完整,但冻融的过程会导致不同程度的核酸降解。此外,样本采集过程中还应注意避免污染。核酸的提取方法取决于样本的类型、新鲜程度以及提取目标(DNA、RNA),通常一个厂商会提供许多不同的提取方法。
文库建立有多种方法和试剂盒,以Illumina平台为例,对提取出来的DNA进行片段化,通过末端修复、添加A尾、接头连接和PCR富集形成文库以供后续测序。对于RNA建库常见的方法是使用随机引物进行逆转录,然后第二链合成互补DNA,然后以与DNA类似的方式制备。
测序后的原始序列包含了大量的reads,由于大多数标本来源于人类,且人类基因组比微生物大得多(比细菌基因组大0倍),因此临床标本mNGS的结果通常99%以上是宿主的reads。通常在生物信息分析阶段会比对取出人源性核酸序列,但也有更经济的做法是在文库制备阶段就将其去除。很多方法被用于去除宿主细胞,例如使用皂素选择性地溶解人体细胞,使宿主DNA含量下降,这种方法的前提是假设病原体的DNA在它的天然外壳中受到保护,这个外壳要么是细菌或真菌的细胞壁,要么是病毒的蛋白衣壳。对于RNA,可以通过捕获探针杂交去除大量的人类核糖体或线粒体RNA,或者通过使用Cas9核酸酶选择性地靶向消除背景的人类RNA序列来去除宿主基因的干扰。
对于二代测序平台来说可用的生物信息分析平台和软件有很多,测序后的数据需要与微生物数据库进行对比(细菌、真菌、病毒、寄生虫等),参考同批次阴性质控标本排除污染,根据丰度、reads数量、基因覆盖度等进行排序,根据检测阈值筛选病原菌,最终得出报告。值得注意的是,并不是所有的病原体基因组数据库都是可用的,特别是当这种微生物很罕见的时候,在这种情况下如果病原体序列数在标本中足够丰富,或者能够获得分离物,可以尝试重新组装。
目前尚没有解读mNGS报告的标准方法。测序时可能引入其他来源的核酸,包括采集时引入的核酸、采集管内的核酸、来自环境的核酸和测序试剂中的核酸。由于这些检测的复杂性和潜在的广度,直接从临床标本中解释mNGS的结果可能很困难,需要仔细的解释和考虑以下因素:(1)罕见病原体或新出现的病原体株的参考数据库不完整;(2)参考数据库偏向某些生物;(3)某些必须加以区分的病原体可能在遗传学上很相似(例如分枝杆菌的种类);(4)正常菌群的存在和试剂污染等很常见,会限制结果的特异性。一份好的报告结果的生成需要预先建立质量控制和结果解释的标准,这些标准可能包括对所有病例或满足定义标准的病例信息的集合或具有特殊结果病例的专家评审。
文库构建时可能会引入一些污染,比如前面提到的检测样本混有除样本外其他来源的核酸;测序深度的增加往往意味着建库时PCR扩增次数增加,会导致产生过多的重复reads,使后续数据处理出现误差;而且测序本身也会有一定的错误率。质量控制并没有一个确定的标准,在质量控制过程中会去掉低质量的reads、切除质量差的碱基、去除一些长度过低的reads等,而这些处理相当于损失了一些信息。质量控制是信息量和信息准确度之间的一个平衡,所以质量控制并不是越严格越好,应根据实际情况来决定。
一般来说,对基因组情况知道的越少,质量控制应该越严格。所以在开展的检测项目中,必须对测序数据进行质量评估,判断其是否达到预期的测序深度,深度不够则必须补测,若差异太大,则必须重新测序。
除了排除污染的核酸,区分定植的微生物和真正致病的微生物也非常重要。尤其是细菌感染的判断。初期的mNGS是从无菌样本开始应用的,比如脑脊液和脑组织切片,但即使是无菌的人体样本进行深度测序也可能发现非致病的微生物。目前用于mNGS的测试样本已经发展到如呼吸道分泌物等不同种类,这些样本本身就有可能含有定植微生物,使得结果的分析更加复杂。故而更多的鉴别方法也随之发展开来,例如测定宿主的免疫反应来区分,还有文献报告通过加入外源细菌来量化绝对细菌丰度的方法。目前尚无单纯基于测序结果判断致病菌、污染菌或定植菌的标准,故对于测序结果的判读需结合临床综合判断。
如上所述,mNGS目前是由临床和实验室提供的一种收费的测试,其过程混杂因素较多,不同的方法、不同的平台、不同的质控都可能影响最后结果的价值,目前尚无统一的标准流程,同时目前的价格也限制了其在临床中大规模的开展。根据现有文献的案例报道,当常规检测标准不能解释病情时,可以考虑使用mNGS,并将其作为最后的手段来试图识别感染过程;或者应用于危重或免疫功能严重受损的患者,此时及时诊断对改善预后至关重要。目前已有较多报道关于mNGS技术在临床中成功诊断出病原的案例。
相对于传统的病原体检测方法,mNGS测序技术大大降低了从采样到获得结果的时间。然而,能在不到24小时的时间便可完成微生物鉴定,是随着纳米孔测序技术的出现才得以实现的。相对于NGS测序平台MinION有以下优势:
纳米孔测序技术可以检测四种胞嘧啶(cytosine)碱基修饰,分别为5-methycytosine,5-hydroxymethycytosine,5-formylcytosine和5-carboxylcytosine。检测准确率为92%-98%。
对于临床检测来说,实时获取和分析DNA/RNA序列是一件很重要的事情。对于传统的mNGS测序,其相应的测序文库制备是一个耗时费力的过程,从采样到获得结果的时间通常至少需要一天,甚至是一周或更长。但对于MinION,实现起来相对容易。根据所用试剂盒和采用的方案,OxfordNanopore的文库制备时间为10分钟至3小时不等。此外,MinION可做到对病原体的实时检测,在测序过程中单分子穿过纳米孔,其电流变化可以检测并识别,这种设计允许用户在测序过程中根据实时结果做出一些判断。而且使用mNGS技术对病原体进行鉴定需要将样品送至设有相关基础设施的检测点后才能实现。这样一来,将会进一步延长从采样到获得结果的时间,增加管理负担和管理复性,导致此类项目滋生诸多实际问题。
相比之下,实时、便携的纳米孔测序技术可大大提高病毒分析速度,据报告,从采样到获得结果的时间不到6小时。表1为埃博拉病毒不同检测方法之间的比较。尽管OxfordNanopore测序装置尚未用于分析无症状埃博拉病毒携带者的样品,但既往数据显示,OxfordNanopore的技术优势或有可能在症状出现前检测到病毒。最近首次证明了可以使用纳米孔技术进行RNA直接测序。随着纳米孔技术的不断发展,不久的将来,对临床样品进行RNA直接测序或将成为可能,这可进一步缩短鉴定病毒病原体所需的时间。
表1.埃博拉病毒的不同检测方法与各自从采样到获得结果的相应时间表
用MinION测序仪可以测得更长的read,对于1Dread可以获得kb长的read;对于2Dread可以获得60kb长的read。利用MinION测序仪产生的长read,研究人员设法填充了人参考基因组Xq24号染色体一个长50kb的gap,该区域存在多个CT47基因串联拷贝,研究人员利用MinION的长read判断该区域极有可能存在8个CT47基因拷贝。
NGS短序列的特征使结构变异的检测往往不准确。这个问题在癌症的检测中尤其严重,这是因为癌症组织中充斥各种结构变异。研究人员发现利用MinION测得的几百个拷贝的长read得到的结构变异结果比NGS平台测得的上百万read得到的结果更可靠。
对于RNA表达分析,NGS平台测得的短序列带来的问题是序列需要进行拼接,才能得到转录本。这给可变剪切研究带来困扰。因为通常情况下NGS测序不能产生足够的信息将不同形式的可变剪切区分开来。而利用MinION测序仪产生的长read,可以更好地解决这个问题。研究人员利用果蝇的Dscam1基因为例,其存在种可变剪切形式,利用MinION测序仪可以检测到超过种可变剪切形式,而这样的结果是利用NGS短序列测序所不能获得的。
2.4行业相关进展
目前已经商业化推广的纳米孔测序方案不多,仅检索到3个相对比较完整的纳米孔测序方案,包括PacificBiosciences,OxfordNanoPoreTechnology和Ontera三家主要的公司。
2.4.1国外行业相关企业
图18中三个方案从左至右为PacBio、ONT和Ontera的解决方案。最左侧的图片展示的是PacBio的PacBioSequelIISystem,即PacBio公司提供的测序仪。PacBio占据了时间优势,已经有许多用户用到了这个测序产品,也发表了很多论文。中间图片为ONT的系列产品,完整展示了从便携式Flongle到MinION,再到GridON和PromethION的不同测序通量的纳米孔测序仪器,是目前完成度最高的产品系列。ONT无论是从通量满足还是检测算法,抑或是结果读出,都做到了非常完备,随着芯片研发进度的推进,会实现更高精度的测序过程。最右侧的是未来感最强的产品,Ontera公司的前身是TwoPoreGuys,意为双孔人,其初代产品预计在年完成样机,但也仅限于单孔的测序产品,双孔或者多孔的测序检测方案还需要更多的路要走。
图18.目前已商业化的纳米孔测序方案
2.4.1.1PacificBiosciences
PacBio是一家位于加利福尼亚的公司,其提供的测序系统能够帮助科学家解决复杂的基因问题。基于其单分子实时测序技术(SMRT)和PacbioSequel平台可以完成全基因组denovo测序,并更充分地识别、注释和破译基因组结构;可以进行完整的转录组分析,改进参考基因组的注释、描述或者亚型拼接,并发现新的基因;可以通过靶向测序更全面的描述基因变异;完成表观基因组特征的实时动态信息等服务;可以提供高精度、超长读长、均匀覆盖的DNA专一性测序技术,并同时检测表观遗传变化。
PacBio的测序解决方案沿袭了二代测序的一些技术,这可能是Illumina对PacBio青睐有加的原因,年11月Illumina宣布要以12亿美元的价格收购PacBio,但这项收购最终未被批准。此前,PacBio和罗氏也有着千丝万缕的联系,罗氏也曾投入了巨额的资本在PacBio的发展中。
PacBio测序采用的仍旧是边合成边测序的方案,但是与二代测序的桥式PCR以及DNA分子簇不同的是,它是在纳米孔中实现核酸复制的过程。在PacBio的SMRT芯片底部固定有DNA聚合酶,在测序的过程中,游离的荧光标记核苷酸分子在DNA聚合酶的作用下,以待测序链为模板进行DNA的扩增过程,带有荧光标记的核苷酸分子被底部光源照亮,不同核苷酸分子带有不同的荧光标记信号,从而可以通过判别其荧光信号来判断结合到核酸链上的核苷酸分子的类别,从而计算出待测序链的序列。PacBio的测序实现中,创造性地将不同荧光分子标记在了各种碱基类型磷酸基团上,标记在磷酸基团上的荧光分子可以最大限度上减少其对核酸合成过程的影响,消除测序的负面影响,从而提升测序的准确性。
值得一提的是,PacBio测序解决方案中提出的SMRTbell建库方案为纳米孔测序提供了非常新鲜的思路。与二代测序把核酸链打断成小片段的方案不同,PacBio在双链DNA两端接上了两个环状的接头,使得双链核酸分子形成环形,在测序的过程中,环形分子中的各个核苷酸均可以被检测。得益于环形分子,在DNA聚合酶的驱动下,可以实现互补链的核苷酸分别被合成一次,从而显著提升测序的准确性(图19)。在实际的测序过程中,这样的循环会发生十余次,从而实现优异的长读长准确测序。
图19.SMRTbell建库方案
PacBio发展至今已经有11年的时间了,无论是方法创造还是技术积累,都是纳米孔测序技术的中坚力量。但相较后面的两种测序方案,PacBio还是存在一定缺陷。PacBio依靠的是DNA聚合酶作用下的核酸扩增过程,DNA扩增在人体内尚不能进行完全正确的匹配,更何况是在体外的实验环境中,即便会进行环形的扩增过程,仍不能做到理论上的%正确。此外,在PacBio的解决方案中,采集的是荧光标记核苷酸的荧光信号,在数据获取中从核酸信息转换到光信息再转化为电信号,经历了复杂的信号转化和传输过程,实现起来并没有那么直接。
2.4.1.2OxfordNanoporeTechnology
ONT总部位于英国,公司在纽约、剑桥(美国)、中国、日本、法国和德国均设有办公室。ONT公司研发、生产和销售世界上唯一的便携式、实时DNA/RNA测序仪,其日益丰富的产品系列不仅可以覆盖现有DNA检测市场的所有范围,同时也将促进对实时性和扩展性要求高、需要长读长技术的新应用的开发。例如,Flongle的设计能够满足快速且实时的感染性疾病基因检测、精准医疗的靶向分析、食品/水源安全分析以及科普教育等需求。而PromethION则能够应用于对人类、植物和动物基因组的大规模按需测序。此外,ONT测序技术的独到之处还在于它能够对RNA进行直接测序,从而提供全长转录数据,可应用于对病毒基因组进行分析,精确量化基因表达分析,实时检测修饰碱基,并简化工作流程。
ONT的纳米孔方案是一个目前而言应用起来很“漂亮”的技术,其实现得益于蛋白孔的成型和在测序中的应用。具体而言,采用α-溶血素作为核酸分子的纳米通道,通过判断核酸跨膜过程的电流变化来实现测序过程。α-溶血素由7个蛋白构成,呈蘑菇状结构,有帽型区、边缘区、主干区几个主要组成部分,最小的孔径为1.4nm,允许3kDa的分子通过,适合用于核酸分子的检测。
目前Illumina的顶级设备价值万美元,约档案柜大小,重达公斤。而ONT的MinION只有手掌大小,可通过普通航空行李运输,测序成本不足千元。此外,ONT还成立了数据分析公司Metrichor,提供生物信息服务。MinION读取的数据会传输到云端,由Metrichor进行计算,识别碱基。
2.4.1.3Ontera
Ontera的前身是TwoPoreGuys,作为一家科技型独角兽企业,备受资本的青睐,在年拿到了万美元的投资,预计在年能够拿出第一代可以商用的产品。Ontera同样是采用纳米孔测序方式,但与OxfordNanoporeTechnology的区别在于Ontera采用了固态纳米孔,而不是蛋白孔,在物理结构上也从ONT的竖直方向运动改变为水平方向上的核酸链运动。
Ontera的解决方案在物理上提供两个距离足够近的孔,双链DNA的每一条链可以同时进入两个孔中,当核酸链分别进入相邻的两个纳米孔中时,通过对两个纳米孔施加不同的电压,核酸链会出现类似拔河的效果(图20),利用电压变化可以控制核酸链进入纳米孔的速度,从而消除核酸链在测序过程中的折叠或是易位错误。鉴于双孔的特性,不会对核酸链造成折叠而引起测序误判,因此对纳米孔的尺寸要求就没有那么高,甚至可以采用25nm以上的纳米孔进行实际的测序流程,这样大大降低了固态纳米孔的加工难度,也可以更好的对整个测序芯片的成本抑或是测序的成本进行控制。
图20.双孔测序方案
2.4.2国内行业相关企业
2.4.2.1齐碳科技
齐碳科技于年成立,核心技术是基于电信号的蛋白纳米孔单分子测序技术。通过电场力驱动单链核酸分子穿过纳米尺寸的蛋白孔道,根据不同的碱基通过纳米孔道时产生的不同阻断程度和阻断时间的电流信号来识别碱基序列,实现单分子测序。
年9月21日,齐碳科技发布了第四代纳米孔单分子基因测序仪QNome-,一同发布的还有测序芯片QCell-和测序试剂盒Qeagen-8。三者配合使用,可以达到k以上的超长读长,8小时稳定产出M数据,可以与ONT的Flongle对标,QNome-小型便携,具备了长读长能力、实时分析、直接测序、便携易用的特点和优势,适用于微生物检测、扩增子测序等快速灵活的使用场景,可分离式芯片设计能降低单次使用成本。
齐碳科技于年5月获得了由高榕资本领投,银杏谷资本、雅惠投资等跟投的超过1亿元人民币的A轮融资。
2.4.2.2源生基因
源生基因采用靶向测序(RT-panelTM)和宏基因组学纳米孔测序(PRI-seqTM)双维度来辅助临床抗感染治疗,可实时、实地、快速、准确的对感染患者进行床旁病原诊断,并显著改善感染患者预后。
PRI-seqTM病原宏基因组学纳米孔测序能够一次性全面覆盖种病原体(包括种细菌、种真菌、种病毒、种寄生虫和种非典型病原体)。检测过程中涉及到的样本前处理、核酸提取和文库构建等一系列过程均采用源生基因独立自主开发的试剂。这样既可以保证病原体检测的敏感度和特异性,又可以降低实验成本,形成高性价比竞争力。RT-panelTM靶向检测试剂盒是首个包含了细菌、真菌、病毒和耐药基因的病原体大panel,且可以50%的价格解决临床遇见的大多数病原体感染难题。
源生基因具有自主开发的高效破壁技术,能够提高真菌和胞内菌等病原体的核酸提取效率,减少RNA降解,提高对于真菌、胞内菌和RNA病毒等临床重点