关于程序员:生信教程|替代模型选择

35次阅读

共计 2695 个字符,预计需要花费 7 分钟才能阅读完成。

摘要

因为教程工夫比拟长远,因而不倡议实操,仅浏览以理解学习。

在运行基于可能性的系统发育剖析之前,用户须要决定模型中应蕴含哪些自在参数:是否应该为所有替换假如繁多速率(如序列进化的 Jukes-Cantor 模型)或者是否应该容许不同的转换率和颠换率(如 HKY 模型)。或者是否应该对所有替换应用不同的比率(如 GTR 模型)四种核苷酸的频率(“状态频率”)是否应该被预计或假如为全副相等?自在模型参数的最佳数量取决于可用数据,并且能够依据 Akaike 信息准则(AIC)等规范进行抉择,该准则旨在在模型拟合的改良与模型拟合所需的附加参数数量之间获得均衡。

在本教程中,我将介绍如何应用软件 PAUP (Swofford 2003) 抉择系统发育剖析的代替模型,PAUP 是一种用于各种类型系统发育剖析的风行多功能工具。

数据集

本教程中应用的数据是教程多序列比对中为 16s 和 RAG1 序列生成的比对的过滤版本。因为 PAUP* 须要 Nexus 格局的对齐作为输出,因而请应用文件 16s_filtered.nex 和 rag1_filtered.nex。

PAUP*

该软件最后开发于 20 世纪 80 年代末,是最古老的系统发育分析程序之一,只管它曾经存在了很长时间,但其作者 Dave Swofford 从未公布过最终版本。只管在基于可能性的系统发育推断方面,PAUP 在速度方面早已被其余程序超过,但它对于它蕴含的各种其余性能依然很重要。不久前,PAUP 只能以 100 美元左右的价格从 Sinauer Associates 购买。自 2015 年起,Dave Swofford 在他的新 PAUP 网站上收费散发 PAUP 4.0 的更新版本作为试用版。这些试用版会在几个月后过期,因而如果您未来还想应用 PAUP,则可能须要从新下载。这种状况可能只是临时的,因为 PAUP 5 的开发正在进行中,该产品将至多局部进行商业散发。

尽管本教程中的形容假如您已装置实用于 Mac OS X 或 Windows 的 PAUP 图形用户界面 (GUI) 版本,但也能够装置 PAUP 的命令行版本,这在 Linux 上是必须的或 Mac OS X Catalina 或更新版本,因为这些零碎以后不存在 GUI。如果您应用命令行版本,您可能须要查找等效命令;启动 PAUP 后,始终能够通过 PAUP 的帮忙屏幕来实现此操作,只需键入“?”即可显示该帮忙屏幕。并按 Enter 键。上面的屏幕截图显示了 PAUP* 命令行版本的帮忙屏幕。

模型抉择和系统发育推断

基于替换模型与序列数据的拟合水平的比拟已在多种工具中实现,并且最常应用程序 jModelTest 进行。但因为最近在 PAUP 中实现了主动抉择代替模型,并且该存储库中的其余教程无论如何都须要装置 PAUP,因而我在这里应用 PAUP* 而不是 jModelTest 来进行模型抉择。实际上,两个程序之间的模型抉择十分类似。

  • 单击 PAUP 的“文件”菜单中的“关上 …”。确保在关上的窗口底部抉择“执行”作为初始模式,如下一个屏幕截图所示。抉择 Nexus 格局的 16s 序列对齐文件 (16s_filtered.nex),而后单击“关上”。PAUP 将给出其对该文件的解释的简短报告,包含在比对中发现的物种(分类单元)和字符的数量。
  • “主动模型抉择”选项能够在 PAUP 的“剖析”菜单中找到。然而,当您单击它时,您会看到为了运行此模型抉择,须要系统发育。尽管这可能看起来可能会导致循环推理(抉择代替模型是最大似然系统发育剖析所必须的,但也取决于系统发育),但这在实践中不是问题,因为模型抉择的后果并不强烈依赖于正确的系统发育;因而,任何正当的系统发育都会导致类似的模型抉择后果。因而,最好的解决方案是应用 Neighbor-Joining 算法运行疾速系统发育剖析,该算法也能够在 PAUP 中不便地实现。
  • 要从邻接系统发育剖析的可用设置中进行抉择,请单击 PAUP* 的“剖析”菜单中的“邻接 /UPGMA…”,如上面的屏幕截图所示。
  • 在新关上的弹出窗口中,保留所有默认选项并单击“确定”(PAUP* 命令行版本中的等效命令只是 NJ;)。
  • 再次单击“剖析”菜单中的“主动模型抉择 …”。应用邻接生成的树将已被抉择用于模型抉择,弹出窗口当初将为您提供用于此模型抉择的多个选项。模型抉择的可用规范称为“AIC”、“AICc”、“BIC”和“DT”。这些与似然比测验相似,但长处是它们可用于比拟非“嵌套”模型(如果其中一个模型具备其余模型的所有参数加上附加参数,则两个模型是嵌套的)。“AIC”代表“Akaike 信息准则”,“AICc”是“针对小样本量校对的 Akaike 信息准则”,“BIC”是“贝叶斯信息准则”,“DT”是“决策实践”规范。其中最罕用的是 Akaike 信息准则。每个模型的 AIC 独立计算为 AIC = 2 k −2 log(L),其中 k 是模型中自在参数的数量,L 是所有自在参数优化后数据的可能性(即最大可能性)。通常,如果一个模型的 AIC 分数比另一个模型的 AIC 分数好(= 小)至多 4 分,则该模型被认为优于另一个模型。设置“AIC”旁边的勾号,但删除“AICc”、“BIC”和“DT”旁边的勾号。另请抉择“利用抉择模型的设置:”右侧的“AIC”。作为“模型集”,抉择数字“3”。这意味着将测试具备相等代替率的模型(例如 Jukes-Cantor 模型)、具备独自的转换和颠换代替率的模型(例如 HKY 模型)以及具备六个独立代替率的模型(GTR 模型)。保留“等速率”和“gamma”旁边的勾号(容许站点间速率变动的伽玛散布),但删除“invar.sites”和“两者”的勾号。我倡议这样做,因为不变位点比例(“+I”)和位点间速率变动(“+G”)的参数很凌乱,因为对一组位点利用特地低的速率简直具备雷同的成果。思考到这些站点的成果齐全不变。保留“显示每个模型的输入”旁边的勾号,并设置“显示每个模型的参数估计”旁边的勾号。确保设置面板如上面的屏幕截图所示,而后单击“确定”。
  • PAUP* 将在三个表中报告模型抉择的输入。在第一个局部(在“评估树 1 的模型”下),您将看到已比拟的 12 个模型的列表,如下所示(“JC”代表 Jukes-Cantor 模型)。
  • 在同一个表的第 4 列和第 5 列中,您将看到 k,即模型中自在参数的数量。第 4 列列出了与最简略模型相比额定的自在参数的数量,第 5 列列出了自在参数的总数。第二个表列出了每个模型的参数估计值。每个型号的编号和名称前面有九列数字。最初,第三个表再次列出了模型,但这次是按 AIC 分数排名。
  • 反复替换模型与 RAG1 序列比对 (rag1_filtered.nex) 的比拟。

动动您发财的小手点个赞吧!

本文由 mdnice 多平台公布

正文完
 0