登录
首页 >> 健康生活

借助第三代测序韩国发表最连续人类基因组

佚名 2024-05-11 23:47:17

借助第三代测序韩国发表最连续人类基因组

国立首尔大学医学院的研究人员和美国被誉为“测序黑马”的公司——10x genomics联合运用去年新发售的gemcodetm测序平台以及第三代测序pacbio单分子实时测序平台在本期的nature上发表了一项新的研究,对一名韩国人的基因组(ak1)进行从头组装和单倍体型定相信息分析。这是迄今为止发表的最为连续的人类基因组组装。作者填补了特异人群参考基因组的空白,并确定了结构变异。

该研究的显着改进

这项工作提供了了到目前为止最邻近的二倍体基因组装配与之前未报道的亚洲特异结构变异的广泛调查。其优质的临床相关的等位基因的单体型分析有着提高精准医疗的潜力。这对于目前基于欧洲人和白人人群的基因组分析方法,是一个显着的改进。这个方法提高了从一个个体的短读长序列比对形成到一个单倍体的一致性参考基因组的分析状况,调整了通常无法捕捉到相对于个体基因组或种族人群属于新序列的问题。

主要研究方法

gemcode平台能够与现有的短读取测序仪互补,产生长片段信息(10-100 kb),实现结构变异和单体型等分析。为了更全面了解结构变异的范围和更好地理解ak1二倍体基因组结构的相,研究者对从pacbio单分子实时测序reads组装得到的,每个染色体单倍型的装配体——“haplotig”进行从头组装。除了pacbio长读长测序,该研究还使用了illumina短读长测序、10x genomics连接读取、细菌人工染色体(bac)测序和bionano genomics光学图谱。

实验设计及数据分析流程

数据上的提升

到目前为止该研究在之前最佳的n50长度上提高了18mb,最大的91个scaffold覆盖了基因组的90%,8个染色体的臂是由单个scaffold构成的。研究人员用ak1的组装序列补齐了在人类参考基因组grch38上的190个空缺中的105个,补齐的序列由364kb变成1.5mb。另外也将剩下的85个空缺中的72个从663kb补充到4.1mb。该研究鉴定到的18,210个结构变异,包含7,358个删除,10,077个插入,71个转换和704个复杂变异,所有这些变异均在ak1组装结果和人类参考基因组grch37之间进行了直接比较,达到了单碱基的分辨率。在18,210个结构变异中,总共有11,927个变异是以前未曾报道的。

数据结果进行比较

测序新技术的强大作用

这项研究的结果显示了测序新技术在从头基因组组装和“真正的”二倍体定相方面的强大能力,可以用来检测全方位的遗传变异和了解临床相关基因的单倍体的结构。这项基因包括:主要组织相容性复合体(mhc)的人类白细胞抗原(hla)的基因变异,对药物基因组非常重要的cyp2d6基因,以及罕见的常染色体隐性遗传疾病,如家族性地中海热、upshaw–shalman综合征中涉及到的基因。

该项研究的领导者,国立首尔大学医学院的seo医生说:“10x genomics的gemcode平台和有针对性的bac克隆测序在这项研究中成功单倍体定相是必不可少的。”

10x genomics的联合创始人和首席执行官sergesaxonov说:“从头装配和定相就像十字瞄准线一样是我们的主要目标。我们的技术非常适合于临床和人群规模的测序。”

人类基因组从头组装及单倍体型定相信息总结统计

作者在文章中还比较了目前已有的人类基因组组装的测序平台、算法、组装和定相统计数据。该列表表明,单分子长读长测序技术在生成高质量组装数据上远超过短读长测序技术。这项研究清楚地表明了第三代测序长读长技术结合gemcode测序平台解决单倍型的从头组装方法的潜力,并揭示了以前未被发现的新的遗传变异,将迎来人类基因组测序的新标准。

一代测序,二代测序,三代测序的优点缺点分别是什么,求大神赐教

一代测序,二代测序,三代测序的优点缺点分别介绍如下:

一代测序优点是读长较长、准确性高。缺点是测序成本高、通量低,使得de novo测序、转录组测序等应用难以普及。
二代测序优点是相比一代测序大幅降低了成本,保持了较高准确性,并且大幅降低了测序时间,将一个人类基因组从3年降为1周以内。缺点是序列读长方面比第一代测序技术要短很多。
三代测序优点是读长较长,可以减少拼接成本,节省内存和计算时间。缺点是单读长的错误率偏高,需重复测序以纠错(增加测序成本)。

想要了解更多有关一代测序,二代测序,三代测序的相关信息,推荐咨询海普洛斯。旗下医学检验实验室具有国际顶尖基因测序平台以及完善的国际标准质量体系,通过CAP(美国病理学家协会)/EMQN(欧洲分子基因诊断质量联盟)/中国卫生部临检中心等权威认证,业务覆盖肿瘤全病程管理、遗传性疾病筛查、重大感染性疾病(含新冠核酸)等领域,已为全国500多家三甲医院、数百家科研院所、体检机构、保险公司、互联网平台以及各地政府提供基因检测技术服务和整体解决方案。


【● 没病有必要做基因检测吗?过来人有话说......】

人类基因组图谱的介绍

由美国国立人类基因组研究所(nhgri)和能源部(doe)领导的ihgsc不久前宣布,人类基因组测序工作已圆满完成,其发表在2004年10月21日nature(2004,431:931)上的分析
报告对2001年2月发表的初步分析报告进行了补充。这篇最新分析报告不但为世人展现了一张精度大于99%、误差小于10万分之一的精确版人类基因组图谱,而且还进一步纠正了蛋白编码基因的数量,仅为2万~2.5万个,而非原先估计的3万~3.5万个。新基因组图谱 准确率达99.999%
旨在破译人类基因组常染色质遗传密码的人类基因组计划(hgp)自1990年启动至2003年结束,历时共13年, 该计划由ihgsc来完成。ihgsc是由法国、德国、日本、中国、英国和美国等6个国家20个研究所的科学家组成的开放性国际协作组织,全球2800余名科学家参加了ihgsc的工作。
2001年2月,ihgsc宣布,人类基因组草图已经完成。以今天的眼光来看,草图显然存在很多重要的不足,例如,仅测出了约90%的常染色质基因组序列,而且序列之间存在147821个未检测出的空缺等等。
在2001-2003年之间,ihgsc的不懈努力终于将此草图转化为今天这张既高度精确又相当完整的人类基因组图。此外,在这段时间内,还陆续发表了关于第2、6、7、9、10、13、14、19、20、21、22号染色体和y染色体的详细评注和分析,其余12条染色体的资料不久也将发表。
现在的基因组序列(buiid35)共包含28.5亿个核苷酸,它近乎完整,涵盖了99%以上的常染色质基因组序列;准确率为99.999%,也就是说误差率只有1个碱基/10万个碱基对,比最初制订的目标精确了10倍。
序列的连续性亦获得了显著改善,常染色质基因组序列中仅存在341个空缺。现在,平均每一段连续序列含有3850万个碱基对,约比2001年版草图的81500个碱基对长475倍。这些没有中断的已知序列可以在很大程度上帮助科学家寻找目标基因及其邻近的调节目标基因活性的序列,并显著减少他们寻找疾病相关性短而少见的序列的工作量和费用。在剩余的341个空缺中,很多与片段的重复(segmentalduplications)相关,需要采用新的方法才能将其填满。
ihgsc所完成的测序工作不仅完整而且精确,足以进行一些对敏感性要求较高的科学分析,例如基因数目的研究,疾病相关性重复片段的研究,以及进化过程中基因“生”或“死”
的研究。该基因组序列的资料已于2003年4月被载入免费公用数据库。“完成”并非意味着现在的人类基因组图就是完美无缺的。虽然与2001版草图相比,空缺已经从近15万个减少至341个,但是人类基因组序列的这些顽固空缺已很难用现有的技术来填补。填补这些空隙需要做进一步的研究,并需要采用新的技术。
美国马萨诸塞州麻省理工学院和哈佛大学broad研究所所长lander说:“已完成的人类基因组序列在准确率、完整性和连续性方面远远超过了我们的预期目标。它反映出全球数百名科学家为了一个共同目标——为21世纪的生物医学奠定扎实的基础——而进行大协作的奉献精神。”
仅有2万~2.5万个蛋白编码基因
ihgsc最新分析所得出的最出人意料的结果就是,人类基因组只含有2万~2.5万个蛋白编码基因。
nhgri所长collins说:“仅仅在10年以前,大多数科学家还认为,人类基因组大约含有10万个蛋白编码基因。3年前,当我们对人类基因组序列草图进行分析时,我们估计人类约有3万~3.5万个蛋白编码基因,这在当时已经使很多人感到震惊。而刚刚结束的分析结果发现人类的蛋白编码基因数比预计的还要少得多,这使我们对人类基因组的真实情况有了更准确的了解。全世界的科学家都可以从免费公用数据库中获得该高度精确的人类基因组序列,这就使他们有可能对人类遗传学及其影响人类健康和疾病的机制进行更精确的研究。”
人类基因组分析的主要目的之一就是确定人类的全部基因。基因是编码特定蛋白质的一段dna序列,是遗传的基本功能单位。目前的研究结果显示,人类基因组有19599个已经获得确定的蛋白编码基因,另外还有2188段可能为蛋白编码基因的dna序列。
英国wellcometrustanger研究所rogers说:“由于2001年版人类基因组草图不够完善,因此导致了一些早期基因模型是错误的。基因鉴定仍是一项艰巨的任务。除了其他生物的基因组序列、更好的计算机化模型和其他手段的改进外,人类基因组测序工作的完成必将为基因鉴定工作提供极大的帮助。”
人类基因重复片段高达5.3%
科学家们认为,已完成的人类基因组序列不但确定了更为确切的人类基因数量,而且与2001版基因组序列草图相比,质量也有显著的提高,并且使人们对某些现象有了征(胸腺发育不良)。美国圣路易斯市华盛顿大学基因组测序中心前主任、西雅图市华盛顿大学基因组系主任waterston说:“以前只有基因组序列草图的时候,要对重复片段进行研究几乎是不可能的。通过全世界科学家坚持不懈的努力,现在我们已经可以对人类基因组中这一重要而快速进化的部分进行研究了。”
重复片段覆盖了5.3%的人类基因组,显著多于大鼠的基因组(约为3%)或小鼠的基因组(在1%~2%之间)。重复片段为人们开启了一个了解人类基因组是如何进化的以及人类基因组目前正在经历什么样的变化的窗口。人类基因组如此高的重复片段百分比表明,在最近4000万年内,人类的遗传物质经历了快速的功能变革和结构改变。这大概就是人类具有独特的特征,从而有别于其非人类灵长类动物祖先的原因。
ihgsc在分析中发现,重复片段在不同的人类染色体之间的分布差异很大。y染色体就是一个最极端的例子,其重复片段占总长度的25%以上。有些重复片段往往群集于每
条染色体的中部(着丝粒)或末端(端粒)附近。科学家们推测,基因组可能将着丝粒和端粒处的重复片段用作一个进化实验室,来生成具有新功能的基因。揭示基因的“生”与“死”
已完成的人类基因组序列准确度很高,这使科学家有可能了解在人类进化过程中基因的“生”和“死”。科学家在人类基因组中发现了1000多个新基因,这些基因是大约7500万年前人类与啮齿类动物向不同方向进化以后产生的。这些基因多数是最近通过基因重复产生的,与免疫、嗅觉和生殖功能有关,例如,人类基因组中最近重复的两个基因家族分别编码两组蛋白质,妊娠特异性β1糖蛋白和绒毛膜促性腺激素β蛋白,这两组蛋白质可能与人类独特的较长的妊娠期相关。
此外,科学家们还利用已完成的人类基因组序列发现并鉴定了33个几乎没什么变化的基因,但是由于它们在近期发生了1个或1个以上突变而导致了其功能丧失(或称为“死亡”)。科学家通过将这些基因与大鼠和小鼠基因组中的对应基因(鼠类中这些对应基因的功能仍保持)进行对照比较后,确定了这些无功能基因(又称为假基因)在人类基因组的确切位置。有趣的是,科学家们还发现,上述33个假基因中的10个似乎与编码嗅觉感受器的蛋白相关,这就有助于解释为什么人类的功能性嗅觉感受器较少,从而导致了人类的嗅觉比啮齿类动物差。axel和buck不久前就因在嗅觉分子生物学方面所做出的杰出贡献而获得了2004年诺贝尔生理学或医学奖。
然后,科学家将这33个假基因和黑猩猩的基因组序列草图进行了对照比较,以确定这些基因在大约500万年前类人猿进化为人类前是否还是有功能的。分析结果显示,33个假基因中的27个在人类中和在黑猩猩中均无功能,但有5个假基因虽在人类中无功能,但在黑猩猩中还是有功能的。美国休斯顿baylor医学院人类基因组测序中心主任gibbs说:“对这些人类基因组中的假基因以及黑猩猩基因组中仍有功能的对应基因的确定,为将来的研究项目打下了坚实的基础。”gibbs等目前正在进行另一种非人类灵长类动物——恒河猴基因组的测序工作。

本文地址:http://www.dadaojiayuan.com/jiankang/254974.html.

声明: 我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理,本站部分文字与图片资源来自于网络,转载是出于传递更多信息之目的,若有来源标注错误或侵犯了您的合法权益,请立即通知我们(管理员邮箱:602607956@qq.com),情况属实,我们会第一时间予以删除,并同时向您表示歉意,谢谢!

上一篇:

下一篇:

相关文章