关于github:用kmer分析进行基因组调查六用KmerGenie一步实现

47次阅读

共计 2656 个字符,预计需要花费 7 分钟才能阅读完成。

(全文约 1800 字)

【举荐】用 Smudgeplot 评估物种倍性后,用组合 jellyfish+GenomeScope1.0 做二倍体物种的基因组考察,用组合 KMC+GenomeScope2.0 做多倍体物种的基因组考察。

1. k-mer 进行基因组考察的软件

k-mer 进行基因组考察分为 k-mer 频数统计基因组特色评估 两步。

  • KmerGenie 能够同时实现两步。第一步 k -mer 频数统计和第二步基因组特色评估。
  • KmerGenie 第一步的后果可用于其他软件第二步基因组特色评估。
  • KmerGenie 能够同时剖析多个预设的 k -mers,并选出一个最佳基因组组装 k -mer 值。

2. KmerGenie 简介

  • KmerGenie 在 2014 年第一次发表,2018 年最近一次更新。开发用于基因组组装的参数 k 的最佳值的抉择。
  • KmerGenie 官网:http://kmergenie.bx.psu.edu/。
  • 官网蕴含软件的下载地址,示例报告,和版本更新记录。

3. KmerGenie 装置

在 KmerGenie 官网:http://kmergenie.bx.psu.edu/ 下载,目前最新版是 18 年更新的 1.7051。

装置前须要 python(>=2.7)和 R 反对,我用的 anaconda 的 python,装置运行实现后主动把 kmergenie 命令增加到了 /anaconda3/bin/ 上面,所以不必再次把 kmergenie 命令增加到环境变量了。

wget http://kmergenie.bx.psu.edu/kmergenie-1.7051.tar.gz
tar -xzvf kmergenie-1.7051.tar.gz
python setup.py install
kmergenie -h

4. KmerGenie 运行

  1. 命令

kmergenie fastq_list.txt -o ./sample -l 17 -k 121 -s 10 -t 4 > sample.log1.txt 2> sample.log2.txt

  • fastq_list.txt 文件保留着 fastq 文件的地位和文件名,每个文件一行。
  • 默认单倍体模式,以 k -mer 长度 17 为起始,121 为终止,10 为距离逐个测试;程序运行线程数 4。
  • 后果输入在以后门路下,以 sample 为后果文件前缀名。
  • “sample.log1.txt”和“sample.log2.txt”别离为程序运行时的正确 / 谬误输入日志。
  1. 参数
  2. –diploid:应用二倍体模式,默认是单倍体模式(haploid)。
  3. –one-pass:默认是两次评估(two passes),这个参数设置用来跳过在 2bp 分辨率上评估 k 的第二次评估。
  4. -k 121:最大的 k -mer 值,默认是 121。
  5. -l 15:最小的 k -mer 值,默认是 15。
  6. -s 10:在最小和最大的 k -mer 值间的距离,默认是 10。意味着会进行 k =15,25,35…115,121 的剖析。
  7. -e 200:程序运行内存,默认是每个线程 200MB。
  8. -t 8:线程数。
  9. -o histograms:输入文件的前缀,默认是 histograms。
  10. –debug:开发者应用,输入 R 脚本。
  11. –orig-hist:老程序的评估办法(更慢且准确性更低)。

5. KmerGenie 后果

  1. 后果报告文件 sample_report.html

下载所有后果文件,关上 sample_report.html,报告内容包含:

  • 结尾以折线图的模式展现出在每种长度 k -mer 下,估算的基因组大小。
  • 同时给出了 最佳 k -mer抉择数值。其实就是将评估基因组总大小 最高 的那个 k -mer 值断定为 最佳 k -mer,为基因组组装时 k -mer 的抉择提供参考。
  • 折线图的具体阐明,包含最佳 k -mer 的评估规定,以及当测序深度足够高时的 k -mer 抉择等。
  • 每种 k -mer 的频数分布图,在基因组的 k -mer 中可依据该图断定基因组杂合度或反复序列比例。
  1. 频数散布表 sample.histo
  2. 包含各 k -mer 取值下的频数散布表 sample.histo 和对应的频数分布图 sample.histo.pdf。
  3. 如果想用某个 k -mer 的频数散布表做 基因组特色评估,本人绘制频数分布图,能够应用 sample.histo 文件。
  4. 所有 k -mer 取值评估的基因组大小记录在 sample.dat
  5. 包含 sample.dat 和 sample.dat.pdf。

6. notes

  1. 二倍体模式
  2. 如果待测物种是低杂合低反复的简略基因组,则应用 单倍体模式
  3. 如果是简单基因组,应用 二倍体模式
  4. 如果不确定基因组简略还是简单,能够先用单倍体模式运行,依据后果中是否有 显著杂合峰 判断,再运行二倍体模式。
  5. KmerGenie 软件默认将 k -mer 频数曲线的纵坐标进行了 log10 转化
    能够通过批改脚本来更改展现成果:
  6. 在脚本 kmergenie-1.7051/scripts/plot_histogram.r 中第 110 行,suppressWarnings函数的参数 log='y' 设置的 log10 转化,能够通过去除 log='y' 参数来展现未 log10 转化的原始坐标。
  7. 在脚本 kmergenie-1.7051/scripts/plot_histogram.r 中第 110 行,suppressWarnings函数的参数 covNormalized 改为 covNormalized[-c(1:5)] 来过滤掉 Abundance<5 的区域。
  8. k-mer 取值
  9. KmerGenie 软件是用于二代数据组装基因组举荐 k -mer 参数的。举荐的 最佳 k -mer是评估基因组最大的对应的 k -mer。
  10. 在基因组组装时,k-mer 的取值 受测序深度的影响,若测序深度越高,可抉择更高的 k -mer 进行尝试组装,以失去更长更残缺的 contigs 序列。
  11. 但若在低深度测序模式下应用较高的 k -mer 进行组装时,就会引入较高的 错误率。体现为 k -mer 频数散布曲线(纵坐标未进行 log10 转化的)的左侧因为测序谬误导致的低频 k -mer 数量未随着 k -mer 频数升高降落至最低即产生了回升趋势。
  12. 用 KmerGenie 软件做基因组考察时,能够依据每个 k -mer 值的频数分布图后果抉择更为适合的 k -mer 值做 基因组特色评估

7. references

  1. KmerGenie website:http://kmergenie.bx.psu.edu/
  2. KmerGenie paper:https://academic.oup.com/bioi…
  3. http://blog.sciencenet.cn/blo…
  4. https://www.jianshu.com/p/025…

正文完
 0