摘要 :2022 年 8 月 5 日,2022 阿里云生命科学与智能计算峰会在北京望京昆泰酒店举办,圣庭医疗联结创始人 & 首席科学家谷红仓博士,带来了题为《高通量基因测序在药物研发和靶向医治中的利用》,以下是他的演讲内容整顿,供大家阅览:
杭州圣庭医疗联结创始人 & 首席科学家 谷红仓博士
01 高通量测序技术(NGS)背景介绍
人们对基因作为遗传物质的钻研历史能够追溯到上个世纪中叶,1944 年 Avery 博士等人首次证实 DNA 是遗传物质。1953 年,James Watson 和 Francis Cricket 发现了 DNA 双螺旋构造,因而两位科学家也经常被称为分子生物学之父。1977 年,Allan Maxam 和 Walter Gilbert 发现了化学降解测序办法,因为化学降解测序操作流程简单和应用大量的放射性物质,很快被弃用。同期,Fredirich Sanger 报道了双脱氧链终止法测序法又称 Sanger(桑格)测序法。与化学测序法相比,桑格测序简略快捷和准确性高,利用越来越宽泛。两种测序法独特被称为一代测序。
1990 年,美国的科学家们提出人类基因组打算。过后尚处于一代测序技术刚刚衰亡,一次测序的长度很短,个别只有 500 BP。到 2003 年,人类基因组打算历时十多年齐全采纳桑格测序仪实现,总计消耗 30+ 亿美金。中国于 1999 年退出人类基因组打算,奉献 HPG-1%,这对于过后改革开放初期的中国已是十分了不起的奉献。我国许多驰名的科学家包含杨焕明院士和陈润生院士都参加了该打算。
人类基因组打算催生了高通量测序的倒退。业内人士看到了测序的微小商业价值,许多生产测序仪的公司应运而生,从 2005 到当初不到 20 年的工夫,大概呈现了十几家测序仪公司,它们中的大部分在成立后的十年之内破产,目前 lllumina 占据最大市场份额。华大在收买美国 Complete Genomics 公司之后,对其技术进行革新,测序后果越来越好,目前市场份额越来越大。
2001 年至 2021 年,基因测序费用迅速升高,每百万碱基对测序费用由 2001 年的一万美元升高到 2021 年的一美分,每个人的基因组测序费用由 2001 年的一亿美元升高到 2021 年的 1000 美元,二十年升高了 100 万倍。
测序技术是 21 世纪对生命科学畛域影响最大和倒退最快的技术。生命科学的最重要的实践是中心法则。中心法则的核心内容是 DNA 能够通过复制的形式传递信息到 DNA,DNA 通过转录的模式把遗传信息传递给 RNA,RNA 通过翻译将遗传信息传递到蛋白质。这个链条上的 DNA 和 RNA 均可进行测序发现其携带的信息。此外,能够通过 Ribosome profiling 和表观遗传揣测蛋白相干信息,这也意味着 DNA 测序技术简直涵盖了生命科学的各个层面。
一代测序采纳逐段测序的形式,二代测序又称散弹枪测序。就是通过超声或者是酶切的形式将基因组打成很小的片段。而后将小片段 DNA 的两端各加上一段叫接头的序列,这样能够一次性可对成千上万个 DNA 小片段进行测序,这也是二代测序费用升高、测序速度放慢的重要起因。
但因为二代测序较一次性测序数据量太大,传统的一代测序软件无奈剖析二代测序后果。比照一代测序,二代测序后果剖析流程比较复杂,最后测序的后果是影像文件,影响文件十分大,首先须要转换成包含核苷酸序列和质控信息的 FASTQ 文件,而后 FASTQ 文件再转成 BAM file 等,通过一系列转换能力进行最终测序后果的剖析。
如右上图所示,全基因测序会首先产生 250Gb(1Gb= 千兆字节)FASTQ 数据,再加上后续每一步产生的数据转换都会产生海量次级数据,自建服务器必须不停的更新和扩容,否则难以满足计算和数据存储的需要。
此外,生物信息剖析中还需面临以下要害挑战:
① 如何高效传输基因测序数据?
② 如何高平安、低成本地存储?
③ 如何应答海量数据的剖析需要以及突发的剖析工作?自建服务器算力不够弱小,导致过程迟缓。
④ 如何构建高效、麻利、弹性的基因剖析平台?随着样本数量增多,外加国家相干法规规定必须对病人的数据存储若干年限,这意味着服务器不能呈现任何问题,而地震、火灾等意外对服务器的打击是致命的。
因而,咱们冀望借助阿里云的弱小能力,帮忙解决生物信息剖析中面临的诸多痛点。云计算弱小的算力可能大幅提高计算速度,云上提供了超大平安存储容量,满足了爆发式增长数据动静扩容的需要,且将数据存储于云上可能保障数据安全。此外,它提供了弹性公网 IP,即开即用,无需简单配置,遇突发流量可实现秒级扩缩容。作为临床基因测序行业负责任的公司,圣庭医疗这两年通过和阿里云单干,解决了咱们依附自建服务器不能解决的许多辣手问题。
02 高通量测序技术(NGS)在靶向医治上的利用
基因检测目前次要利用于以下四个方面:肿瘤易感、早筛与用药检测慢性病遗传病基因检测产前产后检测与母婴诊断衰弱治理基因检测其中肿瘤易感基因检测,晚期筛查和随同诊断占据 NGS 检测的大部分业务。
以后,肿瘤钻研畛域投入力量极大,钻研绝对比拟透彻。对来自 66 种癌症的约 28000 个肿瘤的基因组进行剖析后鉴定出 568 个癌症驱动基因。大多数驱动基因具备高度的癌种特异性,不同癌种之间驱动基因图谱差别微小。不到 2%(10 个)驱动的基因作用宽泛,能够导致 20 种以上不同类型的癌症。当然,并不是所有靶点基因都能够做药。
近 5 年,肿瘤靶向医治曾经倒退得十分成熟。科学家通过对各个不同基因的基因突变和基因重排钻研出了各种药物,且明确了药物的作用机理。在医院,肿瘤科医生会依据病人的基因检测后果来给予对应的药物医治。疗效绝对于传统的化疗药物,成果非常明显。
上图为 2018 年美国国立衰弱研究院(NIH)的统计数据,数据显示在美国有 75.6% 的肿瘤医生在医治病人过程中应用了基因检测来领导用药,而目前咱们国内大型三甲医院的医生应用基因检测后果来决定病人用药的数据应该不落后该百分比。
无论是欧盟、美国还是中国,都应用高通量测序进行基因检测,而且这些国家包含中国都出台了相应的临床指南。指南对如何进行基因测序、如何对测序后果进行剖析、如何保留数据和如何解读测序后果等进行了具体的形容。
NGS 的领导的肿瘤精准用药次要体现在三个层面:
⚫ 靶向医治的精准抉择:目前已有多种已被 FDA/NMPA 批准上市的抗肿瘤靶向药物,另外还有许多在研的抗肿瘤的靶向药物。NGS 能够对靶向渐变基因信号通路进行精准的解析,还能够发现为什么有些病人对靶向药敏感而另外一些人出现耐药。
⚫ 免疫治疗综合领导:通过肿瘤免疫负荷(TMB)、微卫星不稳固(MSI)、人类白细胞抗原(HLA)检测后果等辨别哪些病人适宜免疫治疗,哪些病人不适宜免疫治疗,实现对病人的精准用药。
⚫ 分子分型与预后剖析:联合基因组渐变特色,多因素提醒肿瘤分子剖析分型,帮忙医生确定医治计划以及进行预后评估。
目前,业内针对对非小细胞肺癌的信号通路、常见渐变等钻研曾经较为透彻,已上市了泛滥对应靶向药物。
另外,肿瘤医治前后,肿瘤的基因组并不是变化无穷的。可能用药一段时间当前肿瘤细胞中的渐变类型和突变频率都会产生扭转,因而须要通过对肿瘤病人医治一段时间后进行基因测序,从新剖析肿瘤细胞的渐变类型,并制订新的医治计划。
免疫治疗也是目前比拟风行的医治形式,该形式可能通过激发病人本身的免疫力毁灭肿瘤。多项独立的临床钻研表明不同类型的癌症免疫治疗中,患者的 OS(生存期)和 PFS(无好转生存期)均有显著的进步。通过对肿瘤标识物,如肿瘤渐变负荷(TMB)进行 NGS 检测能够无效的发现哪些病人能够采纳免疫治疗。对适于免疫治疗的病人,其成果可能远优于传统的化疗、靶向医治。
另外,能够通过基因高通量测序的形式对疾病进行分型。比方对结直肠癌能够通过基因检测,可分为高渐变、非高渐变,之后还可进行各类型的细分,以进行精准医治。
循环肿瘤 DNA(ctDNA)基因检测是一种新兴的监测肿瘤医治成果的形式。其原理是肿瘤细胞在成长过程中会凋亡或坏死,这些死亡的的肿瘤细胞 DNA 会进入血液循环系统中。因而能够通过检测病人的外周血的 ctDNA 有无,在外周血中的含量及 ctDNA 渐变类型,从而对医治成果进行监测和领导用药。右图展现的是肺癌、结直肠癌、乳腺癌等疾病,通过 ct-DNA 的检测并采纳适宜的医治计划,可能显著缩短病人的生存期。
03 高通量测序技术(NGS)在药物研发上的利用
药物研发流程如上图左侧所示,高通量测序技术既能够利用于后期的靶点发现、也罕用于临床一期、二期、三期医治成果察看或对药物作用的分子的机理进行摸索。
该图展现 NGS 如何帮忙发现新的药物靶点。在靶点发现上,通常能够通过对大量正常人和病人的基因进行测序、比照,而后对后果进行剖析,发现仅在病人中独特存在的基因突变,这些渐变是药物作用的潜在靶点。利用计算机和人工智能等伎俩对靶点进行零碎评估,接下来通过一系列体外、体内试验对药物潜在靶点进行验证,最终确立药物靶点。这就是基因测序在药物靶点抉择中的利用场景。
上图为 2016-2021 年期间新药设计靶点的 TOP30。
高通量测序投入理论利用的四五年间曾经发现很多靶点,咱们也能够乐观地预期,未来会有更多靶向药,新药的研发也肯定更疾速,更高效!
点击这里,观看嘉宾在本次峰会上的演讲视频回放。