关于机器学习:葡萄风味有奥秘农科院用机器学习揭示基因渐渗过程

45次阅读

共计 3527 个字符,预计需要花费 9 分钟才能阅读完成。

内容一览: 基因渐渗与葡萄的驯化、遗传改进密切相关。先前钻研揭示了欧洲栽培葡萄中,家养葡萄基因渐渗的基因组信号,但尚未深入研究这些渐渗事件产生的工夫、形式、基因组模式和生物学效应。本文中,中国农业科学院深圳农业基因组研究所的钻研人员,应用机器学习的种群遗传分析方法,对栽培葡萄以及家养葡萄进行了重测序数据分析,这对于葡萄育种具备重要意义。
关键词: 基因渐渗 葡萄驯化 机器学习

本文首发自 HyperAI 超神经微信公众平台~

基因渐渗是指基因从一种物种或种群,渗入到另一种物种或种群的过程。 它通常产生在不同物种之间的杂交和回交过程中。在基因渐渗中,外源基因通过杂交进入指标物种的基因池,与指标物种的本地基因产生混合。 这种渐渗能够导致指标物种的基因组产生扭转,取得新的遗传变异和多样性。

葡萄的基因渐渗是指家养葡萄 (Vitis vinifera ssp. sylvestris) 与栽培葡萄 (V. vinifera ssp. vinifera) 之间基因交换和基因流动的过程。 在自然界和人工抉择的影响下,家养葡萄与栽培葡萄之间产生基因替换,导致栽培葡萄中呈现家养葡萄的遗传特色。

近期,中国农业科学院深圳农业基因组的钻研人员,钻研了驯化葡萄与其欧洲家养近缘种之间的渐渗历史,他们应用基于机器学习的群体遗传办法,揭示了葡萄风味的造成机制,对其基因特色及其对葡萄育种的影响提供了深刻的见解。 目前,该研究成果已发表在《Proceedings of the National Academy of Sciences》期刊上,题目为《Adaptive and maladaptive introgression in grapevine domestication》。

该研究成果已发表在《Proceedings of the National Academy of Sciences》期刊上

论文地址:
https://www.pnas.org/doi/abs/10.1073/pnas.2222041120

数据集

钻研人员对一组 345 个测序样本进行了剖析,这些样本包含酿酒葡萄和食用葡萄,涵盖了家养葡萄的宽泛地理分布范畴, 其中包含来自欧洲的 72 种家养葡萄 (V. vinifera ssp. sylvestris)、来自中东和高加索地区的 36 种家养葡萄和 231 种驯化葡萄 (V. vinifera ssp. vinifera),以及代表北美外群物种的 Vitis californica (n = 3) 和 Muscadinia rotundifolia (n = 3)。此外,钻研人员还对欧洲家养葡萄进行了采样以笼罩欧洲和近东的预测散布区域。

数据 (基因组序列;script) 已寄存在 GitHub 中:https://github.com/zhouyflab/Grapevine_Adaptive_Maladaptive_Introgression

试验后果

基因渐渗历史

首先,钻研人员评估了欧洲家养葡萄、酿酒葡萄和食用葡萄之间的差别,以深刻理解种群和驯化历史。 值得注意的是,欧洲家养葡萄 (EU sylvestris) 造成了一个独特的群体,与酿酒葡萄共享多数混合成分。

图 1. 不同葡萄种类比照

A: 混合剖析的零碎产生树。

在零碎产生中,分支的色彩反映了不同的群体:ME 1,黄色;ME 2,紫色;家养葡萄,红棕色;酿酒葡萄,蓝色;食用葡萄, 绿色。Admixture 图,K = 6。图右侧的红点和蓝色三角形别离显示来自食用或酿酒组的叶绿体或线粒体是否显著起源于欧洲家养葡萄。

B: 五个组的 PCA。

C: 五组的杂合性。

D: 不同流传类型下的正向模仿后果。蓝线示意异交滋生,而橙色线示意克隆繁殖。

图 1 显示,酿酒葡萄和食用葡萄在进化过程中产生了晚期的分化,表明它们在用处上有显著的区别。家养葡萄样本也呈现出单系群,但分为三个不同的群体:欧洲家养葡萄(EU)、位于里海四周葡萄 (ME 1) 和位于地中海左近的肥沃新月地带的葡萄 (ME 2)。通过 主成分剖析 (PCA) 和先人成分比例的预计,也证实了这些种群之间的分化。 酿酒葡萄和食用葡萄 (均为 0.24) 的杂合性比家养种群更高 (欧洲为 0.17,ME1 为 0.20,ME2 为 0.22),这可能是因为历史上的渐渗事件和长期的无性繁殖导致了杂合渐变的积攒。

基因渐渗方向

钻研人员在最后的模型根底上,预计了食用葡萄、酿酒葡萄和欧洲家养葡萄之间可能存在的 34 种基因流动模式。 依据最佳模型,fastsimcoal 推断欧洲家养葡萄大概在 4 万年前产生了分化。

图 2:渐渗检测

程度分支中的工夫 (T) 是每个组的分化工夫 (年),T\_i 示意推断的渐渗开始工夫。

底部的数字是每组的预计无效种群规模 (Ne)。

图 2 显示,在最佳模型下,fastsimcoal 推断出 EU 类群在大概 4 × 104 年前分化;食用葡萄的驯化早在 1.5 × 104 年前就开始了;大概在 1.0 × 104 年前,酿酒葡萄从食用葡萄中分离出来。模型表明,欧洲家养种群和驯化种群之间的基因流动始于 1.8 × 103 年前。 此外,最佳拟合模型还表明,基因从欧洲家养种群流动到驯化种群的概率很高,向酿酒葡萄 (1.7 × 10−4) 的迁移率是食用葡萄 (3.8 × 10−5) 的 5 倍。

基因渐渗区域

钻研人员应用机器学习办法来辨认葡萄基因组的基因渐渗区域,以及这些区域的基因组特色。

图 3:渐渗区域的三种基因

Filet 预测的假设基因渐渗区域用黑线标记在 19 条染色体上。

三种色彩代表三种基因渐渗区域内的基因

红色: 开花相干基因

绿色: 芬芳化合物相干基因

蓝色: 应激反应基因。

钻研人员对整个基因组中的渐渗抉择基因进行了 GO 性能钻研, 并重点关注开花相干基因、风味相干基因和应激反应相干基因。 图 3 显示,许多与开花相干的基因在渗入后抉择,其次是芳香族化合物相干的基因。大多数 GO 分类的富集也与风味相干,包含木质素降解过程、L- 苯丙氨酸降解过程和肉桂酸生物合成过程。 因而,钻研人员推断酿酒葡萄和欧洲家养葡萄之间的适应性渐渗次要影响了与风味相干的性状。

为理解等位基因的渐渗动静, 钻研人员对异交滋生和克隆繁殖的渐渗进行了正向模仿。

图 4:非渐渗区域和渐渗区域中无益 SNPs 和无害 SNPs 的 SFS

E: 整个渐渗群体中渐渗等位基因的总数

F: 整个渐渗群体中不同类型的渐渗等位基因的数量

G: 异交组第 500 代渐渗无益和无害等位基因的 SFS

H: 克隆组第 500 代渐渗无益和无害等位基因的 SFS

钻研发现,杂交后渐渗等位基因 (包含无益和无害等位基因) 的总数都有所增加,直至达到均衡。这些模仿表明,在克隆和异交零碎中,渐渗等位基因的状况可能存在显著差别。渐渗对无益和无害变异的补充起到了重要作用,这些变异可能成为葡萄栽培基因组设计的次要指标,包含在有性滋生过程中革除潜在的无害变异。

AGIS:专一农业科技翻新

值得注意的是,该论文的多名作者均来自中国农业科学院深圳农业基因组研究所。 基因组所成立于 2014 年,通过整合生物学和大数据迷信,来意识与利用农业生物基因组,服务寰球农业生产。 基因组所的长期愿景是致力于通过颠覆性翻新来促成寰球农业可继续倒退,服务于个性化食品供应体系,并晋升人类衰弱程度和农民社会位置。

基因组所在包含 Science、Nature、Cell 等顶级期刊在内的杂志上发表 SCI 论文 620 多篇,农业基因组学等钻研畛域占据世界前沿。 除了钻研葡萄的基因渐渗问题,该所还公布了另外两篇与葡萄基因相干的研究成果,不仅联结国内外学者首次绘制了葡萄残缺基因组图谱,还揭示了家养葡萄的抗皮尔斯病的全基因组效应和气象适应性机制。

所长示意,基因组所还是一个十分年老的科研院所,建设国内一流的农业科研院所任重而道远,将立足新时代新征程新使命,以保持「四个面向」助力高水平科技自立自强,为建设「农业强国」持续做出咱们的奉献。目前,基因组所联结深圳市相干部门提出了建设「深圳国内食品谷」倡议,布局已失去市政府批复, 将在深圳构建农业食品产学研合作生态,做出科技推动农业食品产业转型降级的后行示范。

基因组所官网:

https://www.agis.org.cn/index.htm

参考文献:

[1]https://www.163.com/dy/article/I6KVQLV205328VPM.html

[2]https://www.sohu.com/a/682674856_121124027

[3]https://www.caas.cn/xwzx/kyhd/60f2e9b4dff84bed9e315b7097aeb26…

[4]https://www.agis.org.cn/bsgk/yjsjj/index.htm

[5]https://www.agis.org.cn/xwzx/kyjz/677aecae97c448c9bed7e89f95d…

正文完
 0