2016年08月21日讯 最近,瑞典卡罗林斯卡学院和爱沙尼亚医疗技术能力中心的科学家合作,开发出了一种新的基因表达分析方法,让通过全血RNA-seq进行生物标志物的发现和分析,将会变得更为简单。
血液携带的细胞,可提供多种有用的生物标志物。血液作为一种液体活检,在临床研究中有着广泛的应用,因为其取样的简便性和快速动态性:大多数的细胞是携带氧的红细胞,在所有血液RNA当中致使球蛋白RNA分子50%-80%的富集。
球蛋白如此高的普遍性,因此,血液相关基因表达生物标志物的研究,就变得复杂化,从而造成了技术偏差,并留下了无法探测到的生物相关分子。根据研究人员介绍,这项研究首次介绍了一种详细方法--GlobinLockTM--能够克服红细胞引起的血样分析的局限性,红细胞使得从血液中识别或跟踪下游的任何生物标志物,都变得复杂化。已公布的和正在申请专利的试验,最大限度地减少了对试剂和样品材料的需求,从而使得它成为一种有效和强大的工具。
本文第一作者、Kaarel Krjut?kov博士说:“GlobinLock的球蛋白下降率,对于任何应用程序来说是足够的。它将球蛋白的普遍率从以前的63 %减少到了5%,这使得它成为生物科技公司的一种有效工具,被添加到试剂盒中。”
这种新的方法包括一对短的合成DNA链,通过高度特异性结合,可沉默大多数的球蛋白RNA分子。根据研究人员解释,这两条链被引入到纯化的RNA样品中,并且,在RNA变性后是立即有效的,整个互补的DNA合成过程,只有十分钟的潜伏期。
锁定的DNA分子特异性地结合在球蛋白的RNA poly-A位点,这还需要进一步分析。因此,在下游操作之前,球蛋白RNA是被“锁定的”,在血液RNA生物标志物的应用中并不会引起技术的偏差。
Juha Kere教授说:“我们发现,球蛋白锁定是完全有效的,不仅适用于人类的样本,也广泛适用于动物模型,如小鼠、大鼠、牛、狗甚至斑马鱼。”
应用测序技术寻找生物标志物,已经有了一系列的研究进展,例如,2014年10月,苏州大学第一附属医院谭友文副教授带领的团队对血清microRNA(miRNA)的表达谱进行研究,确定其是否可作为HCC的一种新的诊断标志物,研究成果发表在PLoS ONE上。
2015年,日本理化学研究所(RIKEN)生命科学技术中心(CLST)和澳大利亚Harry Perkins医学研究所的研究人员通过RNA测序,发现了很多个基因,它们在许多不同类型的癌症中是上调的,从而为开发生物标志物检测、早期发现癌症进而及时治疗,提供了机会。相关研究结果发表于《Cancer Research》。
今年2月,浙江大学细胞生物学研究所李继承教授领衔的课题组采用iTRAQ标记结合2D LC-MS/MS,以及Solexa测序对MDR-TB患者,药物敏感结核病(DS-TB)患者,和健康对照组血清中的蛋白质组和miRNA组进行了比较分析,鉴定出MDR-TB诊断的潜在生物标志物。
在过去的10年里,发展了多种单细胞方法,不同的方法影响了细胞的捕获和扩增,以及每个细胞的read深度等[2]。每种方法都有各自的优缺点,但一般说来,迄今为止发展起来的所有scrna-seq技术都共享一个共同的工作流程:样品制备、单细胞捕获、反转录和扩增、文库制备、测序和分析[3]。
1、样本制备(分离细胞)
单细胞RNA测序的一般实验工作流程始于将感兴趣的器官或组织解离。充分的样本准备是产生良好的单细胞转录组数据的先决条件。样品制备过程中的一个关键步骤,特别是对于致密组织,是单细胞解离,这通常是在温和的机械搅拌(在某些情况下通过组织灌注)下通过酶促实现的,以限制过多的细胞溶解和背景噪音[4]。蛋白水解酶(如胰蛋白酶、胶原酶或解放酶)的选择和消化时间也应仔细优化,以最大限度地提高单细胞产量,同时将细胞死亡降至最低。
2、分离单个细胞
早期的单细胞捕获方法包括显微移液法、显微操作法和激光捕获显微切割法[26-27]。与目前常用的几种方法相比,这些方法通量低,技术上具有挑战性,需要费时费力,但在需要分析的细胞数量较少(如稀有细胞)时仍可使用。
荧光激活细胞分选(FACS)是一种特殊类型的流式细胞术,它提供了一种方法,根据细胞大小和荧光,一次一个细胞地分选不同种类的细胞,与早期的方法相比,它具有更高的通量和更快的速度[29]。流式细胞仪的潜在限制包括需要特定的抗体,以及这些抗体可能干扰下游分析,但也包括所需的大量输入材料(微升甚至毫升),这阻碍了从极少量样本中分离细胞或分离稀有细胞[29]。
微流控设备的出现使其作为分离细胞的首选技术,因为它们相对于FACS和其他以前使用的方法需要较小体积的试剂。在微流控器件中,流体动力通量允许在几十微米到几百微米的通道中隔离和处理单胞,因此可以与单胞的大小相媲美。此外,微流控设备还可以使一些下游RNA处理反应自动进行测序,并允许测量和控制细胞外试剂浓度[30]。还有另外几种分离技术和平台,具体可看综述[31]。
2、mRNAs捕获
当细胞完全分离时,必须捕获成熟的mRNAs,将其反转录成cDNA并进行扩增。细胞捕获的方法通常由感兴趣样本的属性(如细胞大小)决定。目前的scRNA-seq技术可以根据单细胞分离和捕获的方法进行分类,不同的方法决定了不同的产量、规模、测序深度。细胞捕获的效率取决于所使用的protocol。许多设备使用特定的barcode,它允许同时捕获多个细胞和mRNA,这一过程被称为“‘multiplexing”。例如inDrop和Drop-Seq方法都在液滴中包括了barcode的cDNA制备。
3、逆转录和PCR扩增
通常,使用寡聚脱氧核糖核酸引物进行mRNA的RT。这样做是为了避免捕获其他结构RNA,如核糖体RNA和转运RNA,它们占细胞RNA的大部分。然而寡聚脱氧核糖核酸引物的使用存在捕获效率低的问题,据报道,对于目前的protocols,捕获效率约为10-15% [28]。
4、文库制备
当单细胞被成功捕获后,它们被裂解和加工,通过反转录产生第一链cDNA,然后进行第二链合成和PCR扩增。一些scRNA-seq方法(如Fluidigm C1 system)所需的PCR扩增反应与分析的细胞数量一样多,但是其它技术(诸如基于液滴的方法)允许使用细胞barcoding技术(如10xGenomics Chromium)的混合PCR,降低了成本并提高了产量[5]。
4、测序
5、mapping
执行下一代测序以产生原始数据,当单细胞捕获、文库准备和测序完成后,可以将原始数据进行read比对。最初为bulk RNA-seq开发的mapping工具也适用于scRNA-SEQ数据。有多重mapping工具可以用来比对RNA-seq数据,目前流行的比对工具如TopHat2、STAR和HISat在速度和准确性方面表现良好,它们可以有效地将数十亿read比对到参考基因组或转录组上。其中STAR是一种基于后缀数组(suffix-array based)的方法,比TopHat2更快,但它所需内存较大[22]。 HISAT是基于BWT和Ferragina-Manzini (FM)方法发展起来的。Kim等人的研究表明,HISat是目前最快的工具,并可以达到与其他可用的校准器( aligners)相等或更高的精度[23]。
可以使用通用的RNA-seq read比对软件STAR生成具有公共可用平台(如10x基因组公司的Cell Ranger)的特征条形码( feature-barcode)矩阵。也可以使用Cell Ranger来过滤和计数barcode以及UMI。cellranger、dropEst、Dr.seq2 、scPipe都可以用于生成表达矩阵。
6、转录本定量
不同处理步骤带来的高技术可变性阻碍了准确量化转录本丰度的能力。目前,这些问题的可能解决方案是增加定量标准,如添加Spike-in或唯一分子标识符(UMIS)。
Spike-ins 是一段已知序列和数量的RNA转录本,在细胞裂解液中按一定的量加入,用于校准rna杂交分析的测量在细胞分离后经过所有的实验步骤。使用这些分子的目的是提供关于分子的输入数量和观察到的测序读数数量之间的关系的信息。最受欢迎的一组插入是ERCC的92个单一异构体合成RNA[32]。使用Spike-ins 的一个复杂之处在于,它们通常以较高的相对浓度添加到单细胞样本中,因此,它们占据了相对较大的reads比例。因此,并不是所有的protocols都能适应它们的使用,例如基于液滴的技术 。
在scRNA-seq中使用的另一种类型的定量标准是UMI。它们是长度为4到12个核苷酸的核苷酸序列,它们在逆转录之前被合并到引物中,以唯一地对每个转录本的每个单独mRNA拷贝的5‘或3’端进行barcode。同一种mRNA连上同样的UMI概率几乎为0,则我们可以忽略由于PCR造成的误差,对于一种mRNA,测到的UMI数量可以近似看成mRNA的表达个数。其基本思想是能够根据不同UMI的数量对每个转录本进行量化,从而避免由于PCR扩增而产生的偏差。为了避免低估高表达基因的原始转录本数量,必须选择UMIS的长度n,以便唯一barcode的数量高于在最高水平表达的转录本的数量[28]。基于UMI的协议消除了与扩增和测序深度相关的偏差,因为与同一UMI相关联的、来自同一转录拷贝的多个读数被折叠成唯一的计数。然而,只有当所有的文库都以足够的深度进行测序,以便每个唯一标记的分子至少被观察到一次时,这才是正确的。如果不是,一些UMI标记的cDNA分子可能会丢失[33]。
由于固有的协议差异,Spike-ins和UMIS并不适用于所有的scRNA-seq技术。Spike-ins用于Smart-seq2和Super-seq等方法,但与基于液滴的方法不兼容,而UMIS通常应用于3'端测序技术(如Drop-Seq、InDrop和Mars-Seq)。因此,用户可以根据技术特性和优点、要测序的细胞数量和成本考虑来选择合适的scRNA-seq方法。
对于基因/转录本表达的定量,需要根据scRNA-seq捕获的转录本序列的范围,采用不同的方法。
对于全转录scRNA-seq方法(如Smart-seq2和MATQ-seq)生成的数据可以用为bulk RNA-seq开发的软件进行分析,以定量基因/转录本的表达。
①目前比较流行的基因组组装工具,包括Cufflinks、RSEM、Stringtie等已被广泛用于许多scRNA-seq研究,以获得相对基因/转录本的表达估计。其中Pertea等人[24]指出,StringTie在基因/转录本重建和表达定量方面优于其他工具。
对于3'端scRNA-seq协议(例如CELseq2、MARS-seq、Drop-Seq和InDrop),需要特定的算法来基于UMIS计算基因/转录本的表达。
①SAVER是一种基于UMI的有效工具,用于精确估计单细胞的基因表达[25]。
为了确保高质量的scRNA-seq数据,在细胞捕获之前适当地将组织解聚成单个细胞是至关重要的。单细胞制备的主要挑战包括起始样品的脆性、物理应力、缓冲液的选择、细胞解离的持续时间和单细胞的产量[18]。对于基于微滴的scRNA-seq,在单细胞捕获之前需要制备活的单细胞群体,并且必须清除细胞聚集体或成团、死亡细胞碎片和自由漂浮的mRNA。传统的细胞分离方法对于单细胞制备就足够了,但是必须优化将原生组织(primary tissue)酶解为单个活细胞的效率,以避免失去比较脆弱或容易死亡的细胞群体。细胞外基质的组成和组织的类型可能会影响消化酶的选择以及消化的温度和持续时间,还应根据原始组织来选择和优化酶解方法[15]。
建议解离后立即用钙黄绿素乙氧甲基等染料标记活细胞,然后用流式细胞仪(FACS)对活细胞进行阳性选择,而一些核酸结合染料,如碘化丙啶等,能与自由漂浮的双链核酸结合,通过流式细胞仪负选择来分离活细胞[4]。在单细胞制备过程中使用商用细胞碎片清除解决方案有助于提高样品清洁度和目标细胞计数的准确性,特别是对于存活率低于70%的细胞制剂[4]。
1、基于液滴(droplet)的方法: 基于液滴的方法使用了DNA条形码技术对包裹在油滴中的单个细胞进行分析,大大减少了每次分析所需的时间和成本。大规模分析使得每个样本可分析多达约10,000个细胞[11]。使得其具有高通量,捕获效率高的特点。并可以提供更大的细胞通量和更低的细胞测序成本。因此,基于液滴的方案适用于产生大量细胞来识别复杂组织或肿瘤样本的细胞亚群。
其中10x Genomics能够实现单细胞的3‘端或5’端测序,与平板或微流控方法相比,具有更高的规模和产量。每个细胞的read深度在10000到100000之间[13]。基于液滴的方法通过3‘端或5’端测序来量化转录本,与现有的其他方法(10-20%)相比,转录本回收率(3-10%)降低了[12]。
细胞检测率和mRNA的捕获效率偏低。在灵敏度和read深度方面表现也有所欠佳,但其灵敏度仍然足以用于复杂异质样品的大规模分析,并有望随着方法的不断优化和成本的降低而提高。
2、plate-based或microwell-based的方法: 如果实验中细胞量不大,可以考虑plate-based的方法,将细胞分选到含有建库PCR引物的多孔板中,捕获细胞的性价比比较低,但检出率较高[1],另外这些方法既支持3'/5'端测序,也支持全长转录本测序。基于平板或基于微孔板的方案使用自动微吸管或荧光激活细胞分选(FACS)将单个细胞分离到包含裂解缓冲液和其他处理试剂的96孔板或384孔板中。这种方法的一个主要优点是可以在分析前长期保存细胞样本,这为实验计划和协调提供了灵活性。plate-based或microwell-based的方法通常具有很高的灵敏度,并且可以可靠地量化每个细胞多达10,000个基因。然而,这种方法的一个缺点是必须在单独的well中进行逆转录,这可能会减慢工作流程,限制产出,并增加下游分析中的噪音[4]。
3、Microfluidic-based的方法: 基于微流控的自动化平台,在微流控器件中,流体动力通量(hydrodynamic flux)允许在几十微米到几百微米的通道中隔离和处理单个细胞,其通道大小可以与单个细胞的大小相媲美。这种方法的一个关键特点是可以在反转录和扩增之前在显微镜下查看捕获的细胞,此外,该技术所需的小体积细胞悬浮液(<150nL/孔)有助于降低外部污染的风险[6],并允许测量和控制细胞外试剂浓度。该方法具有较高的灵敏性,使用全长转录本测序可以检测单核苷酸变体和转录起始点的特征以及单等位基因和印记基因等[6]。但是由于每个微流控阵列的单细胞捕获位点数量有限,其在规模和产量方面受到限制(每次仅分析100到1,000个细胞)。
此外,这种方法还需要细胞大小的均匀性,而且比其他技术成本更高,限制了其在高通量实验中的使用。
CEL-SEQ方法[9],结合了通过体外转录的线性扩增和标记了barcode样本的汇集,以便于并行分析多个样本。
CEL-seq2方法[8],实现了单一文库的构建,并提高了转录本和基因检测的灵敏度。与可以捕获全长转录本的Smart-seq方法相比,CEL-seq2仅限于3‘端阅读,因此不能检测到替代剪接形式、microRNA或其他非多聚腺苷酸转录本[10]。
1、与基于液滴的方法不同,基于平板或基于微流控的方法可以容纳各种大小和形状的细胞,但受到繁琐和昂贵的单细胞选择和分离的限制[16]。
2、每种scRNA-seq协议都有其优缺点,考虑到研究目的和测序成本之间的平衡,可能需要采用特定的scRNA-seq技术[17]。
3、先前的一项研究表明,通过比较CEL-seq2、MARS-seq、Smart-seq、Drop-seq 在内的scRNA-seq技术,Smart-seq2可以检测到更多的表达基因。
4、盛等人表明[18],一种全长转录本测序方法MATQ-seq在检测低丰度基因方面可能优于Smart-seq2。
5、不同的scRNA-seq protocols具有不同的优点和缺点,一些发表的评论已经详细比较了其中的一部分[17,19]。
6、几种scRNA-seq技术可以捕获polyA+ 和 polyA? RNAs,例如SUPeR-seq [20]和MATQ-seq [21]。这些protocols对于对长非编码RNA(LncRNAs)和环装RNA(CircRNAs)进行测序非常有用。大量研究表明,lncRNAs和CircRNAs在细胞的多种生物学过程中发挥着重要作用,可能成为癌症的重要生物标志物。因此,这种scRNA-seq方法可以在单细胞水平上全面探索蛋白质编码和非编码RNA的表达动态。
生物标志物研究包括哪些介绍如下:
生物标志物研究包括细胞分子结构、功能变化,生化代谢过程变化,生理活动异常表现以及个体、群体或整个生态系统的异常变化等。
比如:传统的生物标志物包括血压的可测变化、运动后血液中乳酸的浓度水平、糖尿病患者的血糖指标等。细胞中DNA、RNA、代谢产物或蛋白质含量水平在分子层面的具体变化等均可称为生物标志物。
对于疾病研究,生物标志物一般是指可供客观测定和评价的一个普通生理或病理或治疗过程中的某种特征性的生化指标,通过对它的测定可以获知机体当前所处的生物学过程中的进程。 检查一种疾病特异性的生物标志物,对于疾病的鉴定、早期诊断及预防、治疗过程中的监控可能起到帮助作用。寻找和发现有价值的生物标志物已经成为目前研究的一个重要热点。
自1994年蛋白质组概念提出,定量蛋白质组学已经成为蛋白质组学研究的热点和中心。定量蛋白质组学便是检测正常与疾病状态下组织全部表达蛋白质在量上的差别。定量蛋白质组学中的蛋白质定量技术也成为发现生物标志物的重要途径。
生物标志物是生物体受到严重损害之前,在不同生物学水平(分子、细胞、个体等)上因受环境污染物影响而异常化的信号指标。它可以对严重毒性伤害提供早期警报。
这种信号指标可以是细胞分子结构和功能的变化、可以是某一生化代谢过程的变化或生成异常的代谢产物或其含量,可以是某一生理活动或某一生理活性物质的异常表现,可以是个体表现出的异常现象,可以是种群或群落的异常变化,可以是生态系统的异常变化。
这是RNA-seq上游分析的最后一站,seq数据定量。这一篇文章会介绍基于k-mer定量两软件:kallisto和salmon。其中关于kallisto的部分我会附上TBtools插件的用法。
抱歉又更新晚了,之前一直想尝试selected alignment method来定量RNA-seq数据。电脑不给力,试了好几次都失败了,只好放弃……
如果你有兴趣,可以跳转进一步了解。
https://cloud.tencent.com/developer/article/1613847
安装kallisto还是很轻松
定量需要两步,第一步是对你的数据建立index。之后就能用建立好的index做RNA-seq数据定量。
建立目录的命令很简单:
由于可变剪切等原因,同一个mRNA可能有不止一个isoform,如果你只在乎某个基因转录了多少,不在乎有多少同一个mRNA有多少个isoform的话,那么可以用TBtools提取每个mRNA的最独特的序列。一般来讲提取的是所有isoform中最长的那个序列。听起来很合理,但有些时候会出问题,比如那个最长序列本身不太对的时候。
定量之后只需要一个for语句循环就能完成RNA-seq的定量
salmon的逻辑跟kallisto是一样的,都是先建立index再定量。
跟kallisto不同得地方是,salmon支持更多种的index模式
小麦因为基因组太大了,试了好几次建库都不完整,索性只说最简单的,既基于转录组数据建立index。如果你目标基因组比较小(如水稻,拟南芥),推荐你们尝试一下selective alignment。
地址为:
https://combine-lab.github.io/alevin-tutorial/2019/selective-alignment/
废话不多说,salmon的建立index得命令差不太多。就是把index和输出参数换了个位置
具体命令:
其中
-t 是转录组数据文件
-i 是输出地址
之后再进行定量就好
如果是双端测序数据
其中
-i 对应的是index地址
-1和-2对应双端测序两个fastq文件
-p 是设定核心数量
-o 是输出地址
这部分可能是最没必要讲的了。
都是最简单的东西了,需要注意的是,TBtools插件每次定量前都默认会重新建立一次index,所以……数据多的时候耗时会比较久……
不过这个插件最后会自动统计并整理好gene counts和TPM文件,方便后续DEseq2的操作。
首先老版本好像有问题,新版本修复了。具体参考马省伟大佬的文章。
http://blog.sciencenet.cn/blog-1094241-1133526.html
其次,好像是不是alignment-free最终准确率都差不多。但是基于k-mer明显快很多,而且普通pc就能跑……具体参考发表在NC上的文章
https://www.nature.com/articles/s41467-017-00050-4
抱歉鸽了这么久……也不知道为啥会鸽……
目前我们主要分析的数据还是二代测序的数据,也就是大家经常挂在嘴边的 NGS ,而这其中最大的赢家应该算是 illumina 测序公司了,其经典的边合成边测序(sequencing by synthesis,SBS)巧妙地利用带不同荧光的dNTP来让碱基组成可视化,本身还是很有意思的。但随之而来的就有一些问题,比如以RNA-seq为例, 如果你是一个经典的从表达矩阵开始的数据分析选手,那其实建库细节对你来说好像也没那么重要;而如果你是一个从原始fastq下机数据(甚至建库实验)开始的数据分析选手,此时建库的细节就可能显得尤为重要,需要你做到知根知底。 或许你经常遇到一些名词,其中有一些可能让你感到迷惑:
现在我们就以illumina经典的 TruSeq Stranded mRNA 建库测序为例来走一遍整个illumina测序的流程,为什么会选择这个建库策略呢? 首先,RNA-seq是目前我们触手可及、应用最广的基因表达量检测技术;其次,相较之于链非特异性测序,链特异性测序对大多数人来说更复杂,更难以理解。 关于链特异性测序我之前已经有一个长篇大论谈到了这个问题: 一文阐述链特异性测序——stranded? reverse-stranded? un-stranded? ,阅读量还不错,反馈也还可以,有兴趣的可以去看看,在这里就只以 TruSeq Stranded mRNA 为例了。
老规矩,我还是以图辅以文字的方式来先整体介绍一下 TruSeq Stranded mRNA :
对着流程看,提前说一下, 红色始终代表sense strand的信息,天蓝色代表antisense strand的信息 :
注意了,我们现在回到这个结构,开始走上机测序的流程:
做过fastq文件比对的人都知道,这个过程中非常重要的,大家挂在嘴边的就是 去接头 ,第三个名词出来了: adapter 。那么到底什么是接头? fastqc 这样的软件又是怎样检测到的? cutadapt 、 fastp 、 trimmomatic 、 trim_galore 这些软件又是怎么去接头的?似乎这些都是灰色地带,下面是我的理解:
首先还是看文库结构:
这实际上很好理解,我们没有人去adapter是从fastq文件中每条read的开头去的。那么什么是adapter呢?你可以简单理解为,在一个文库中,非生物学序列的其余序列都属于adapter,包括 P5、P7、测序引物结合位点 。那么fastqc是怎么检测adapter的呢?你去看看fastqc的GitHub,会发现它有这样的几个序列:
你可能会觉得很神奇,其实fastqc判断你的序列有没有adapter就是在和这几个序列做简单的匹配罢了。接踵而来的问题就是:
首先给答案:
听起来很离谱,画个图就清楚了:
果然,不能说完全相同,只能说一模一样,也就是说,现在市场上所有的Tn5转座酶都必须将这段序列连接到DNA的两端,这样才能让我们检测到adapter。
你可能还是不信,好吧,那再来一个其它的例子吧:
这不能说完全相同,只能说一模一样吧……总该信了?
结束了上面的测试,你或许会发现一个问题: 那按这么说,是不是read1和read2的测序引物的3'端总是会有部分是一样的啊?一样的部分就是作为判断adapter是否存在的那条序列? 你自己看看上面的那个图,不就知道了, 事实上就是这样。
最后,为了让你更信,我还把trim_galore的adapter序列也粘贴在这里,这不和fastqc的一模一样?原来纷繁复杂的illumina测序竟然这么统一!
本文地址:http://dadaojiayuan.com/jiankang/303782.html.
声明: 我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本站部分文字与图片资源来自于网络,转载是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:douchuanxin@foxmail.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!