关于程序员:生信教程多序列比对

所有系统发育推断办法都须要同源数据集作为输出。因而，当核苷酸序列用于系统发育剖析时，第一步通常是推断不同类群序列中的哪些核苷酸彼此同源，以便这些核苷酸之间的差别仅源于序列进化中产生的变动。不同序列的核苷酸之间的同源性推断最常通过属于“多序列比对”类别的办法来实现。

在本教程中，我将介绍如何应用最快、最风行的多序列比对工具之一，程序 MAFFT（Katoh 和 Standley 2013）。我将进一步演示如何检测和排除其中核苷酸同源性可能存在问题的比对区域，如何应用公共序列数据库（NCBI 的 GenBank）辨认其余同源序列，以及如何应用这些序列来补充现有数据集。

本教程中应用的数据集是 Matschiner 等人应用的数据的一小部分。预计非洲和新寒带丽鱼科鱼类与冈瓦纳大陆印度、马达加斯加、非洲和南美洲决裂相干的分化工夫。这里应用的数据集包含两个基因的序列；编码 16S 核糖体 RNA 的线粒体 16S 基因和编码重组激活蛋白 1 的核 RAG1 基因。

MAFFT：MAFFT 网页上提供了 MAFFT 的装置阐明和预编译版本。尽管该程序的装置在所有操作系统上都应该很容易，但本教程的所有步骤也能够应用 MAFFT 的服务器版本进行；因而，该软件的装置是可选的。
AliView：为了可视化序列比对，举荐应用软件 AliView (Larsson 2014)。AliView 的装置在 http://www.ormbunkar.se/aliview/ 中进行了形容，并且应该能够在所有操作系统上进行。
BMGE：BMGE 对于辨认和删除序列比对中对齐不良的区域十分有用。最新版本的 BMGE 以 Java jar 文件模式提供，位于 ftp://ftp.pasteur.fr/pub/gensoft/projects/BMGE/。

咱们将首先应用 MAFFT 程序比对线粒体 16S 基因的序列，而后应用软件 AliView 可视化并改良比对。

将蕴含 16S 序列的文件 16s.fasta 下载到您的剖析目录。在文本编辑器或命令行上查看该文件，例如应用 less 命令：

less 16s.fasta

您将看到每条记录都由一个 ID 和一个序列组成，其中 ID 始终位于以“>”符号结尾的单行上，前面是蕴含序列的行。序列尚未对齐；这就是它们不蕴含间隙且长度不同的起因。能够利用其余命名计划，而不是该文件中应用的 14 个字符的 ID；然而，我强烈建议应用简短的 ID，因为在系统发育剖析中，如果您应用蕴含空格或连字符的理论拉丁名或常见物种名称，许多程序或脚本可能无奈工作。

关上 MAFFT 在线版本的网站。该网站提供了 MAFFT 对齐程序的 Web 界面。如果您胜利装置了 MAFFT，您还能够在计算机上应用 MAFFT，而不是应用该网站。
在 MAFFT 服务器网站上的“高级设置”题目下（向下滚动查看），您将找到可用的对齐选项。在第一个题目为“策略”的灰色框中，您能够在全局和部分对齐办法之间进行抉择。“G-INS-i”办法实现全局 Needleman-Wunsch 算法（Needleman 和 Wunsch 1970），“L-INS-i”办法实现部分“Smith-Waterman”算法（Smith 和 Waterman 1981）。为简略起见，保留默认的“主动”选项。如果您在本人的计算机上应用 MAFFT 的命令行版本而不是 MAFFT 服务器，则等效命令如下：

mafft --auto 16s.fasta > 16s_aln.fasta

在“高级设置”局部的第三个灰色框中，题目为“参数”，您能够更改评分矩阵。对于氨基酸序列，您能够抉择任何与 PAM 矩阵等效的 BLOSUM 矩阵。对于核苷酸序列，能够抉择“1PAM / K=2”、“20PAM / K=2”和“200PAM / K=2”。目前，保留所有默认选项。单击“提交”按钮。将 Fasta 格局的比对下载到您的计算机。为此，请右键单击页面最顶部的“Fasta 格局”链接。将文件命名为 16s_aln.fasta。
反复雷同的操作，这次惩办设置为 2，而不是默认值 1.53。将剖析所得的比对文件命名为 16s_op2_aln.fasta。如果您应用 MAFFT 的命令行版本，则等效命令如下：

mafft --auto --op 2 16s.fasta > 16s_op2_aln.fasta

在 AliView 中关上文件 16s_aln.fasta。在不敞开 AliView 窗口的状况下，在第二个 AliView 窗口中关上文件 16s_op2_aln.fasta。比拟右下角状态栏中显示的总对齐长度。在两个 AliView 窗口中，滚动到地位 1250 和 1350 之间的区域。
在 16s_aln.fasta 的窗口中，辨认对齐不良的区域（例如地位 1020 到 1040 四周）并尝试从新对齐。为此，请通过单击路线顶部的标尺来抉择区域，如上面的屏幕截图所示。

抉择对齐不良的区域后，单击 AliView 的“对齐”菜单中的“从新对齐所选块”。

正如您所看到的，16S 序列的比对蕴含高度可变区域和激进区域的混合。因而，核苷酸的同源性在基因的某些局部相当显著，但在其余局部可能不明确。为了防止上游系统发育剖析中的比对谬误导致的问题，咱们将依据缺口的比例和这些区域内发现的遗传变异来辨认比对不良的区域，并将它们从比对中排除。

要从 16S 比对中排除不牢靠的比对区域，请应用软件 BMGE。要查看该程序是否在您的计算机上运行并查看可用选项，请关上命令行窗口（例如 Mac OSX 上的终端应用程序）并键入以下命令：

java -jar BMGE.jar -?
  
# 如果上述办法无效，请输出以下命令：java -jar BMGE.jar -i 16s_aln.fasta -t DNA -of 16s_filtered.fasta -oh 16s_filtered.html

通过上述命令，BMGE 以 Fasta 格局在文件 16s_filtered.fasta 中写入过滤后的比对，并在文件 16s_filtered.html 中以 HTML 格局可视化过滤后的比对。在浏览器中关上文件 16s_filtered.html。滚动浏览对齐并留神彩色对齐块。在对齐的最顶部，您将看到为每个站点以浅灰色和彩色绘制的两个值。差距比例用浅灰色等号显示，范畴从 0 到 1。彩色冒号示意 BMGE 的作者所说的“平滑熵状分数”（Criscuolo 和 Gribaldo 2010）。基本上，这是对该位点核苷酸多样性的掂量。您会留神到彩色对齐块与低间隙比例和低熵的区域统一，这是最适宜系统发育推断的对齐地位。咱们对对齐块的抉择基于 BMGE 的熵分数截止（选项 -h）、间隙率截止（-g）和最小块大小（-b）的默认设置。默认状况下，BMGE 抉择熵分数低于 0.5 (-h 0.5) 且间隙比例低于 0.2 (-g 0.2) 的位点，并且仅当这些位点造成至多 5 个具备这些属性的位点 (-b 5) 时。

应用熵分数截止、间隙率截止和最小块大小的自定义设置反复 BMGE 块抉择，并留神这如何扭转所选站点的总数以及对齐中所选块的散布。例如，应用 -g 0.3 减少容许的间隙比例：

java -jar BMGE.jar -i 16s_aln.fasta -t DNA -g 0.3 -of 16s_g03_filtered.fasta -oh 16s_g03_filtered.html

BMGE 到终端的规范输入告诉您有多少站点（字符）仍被选中。请留神最初两次运行之间的差别。除了文件 16s_filtered.html 之外，还要在独自的浏览器窗口中关上文件 16s_g03_filtered.html。滚动对齐。您会留神到，因为每个站点容许的间隙比例减少，当初有更多区域被标记为彩色。
在 AliView 中关上文件 16s_filtered.fasta。请留神，它当初比以前的对齐形式更短并且看起来更压缩。应用 AliView 的“文件”菜单中的“另存为 Phylip（全名和填充）”选项，将文件以 Phylip 格局保留为 16s_filtered.phy。还能够应用“另存为 Nexus”选项将文件保留为 Nexus 格局的 16s_filtered.nex。
在文本编辑器中关上 Phylip 和 Nexus 文件以查看文件格式之间的差别。

本文由 mdnice 多平台公布

关于程序员:生信教程多序列比对

摘要

数据集

依赖

比对与可视化

BMGE 主动对齐过滤