共计 2656 个字符,预计需要花费 7 分钟才能阅读完成。
(全文约 1800 字)
【举荐】用 Smudgeplot 评估物种倍性后,用组合 jellyfish+GenomeScope1.0 做二倍体物种的基因组考察,用组合 KMC+GenomeScope2.0 做多倍体物种的基因组考察。
1. k-mer 进行基因组考察的软件
k-mer 进行基因组考察分为 k-mer 频数统计 和基因组特色评估 两步。
- KmerGenie 能够同时实现两步。第一步 k -mer 频数统计和第二步基因组特色评估。
- KmerGenie 第一步的后果可用于其他软件第二步基因组特色评估。
- KmerGenie 能够同时剖析多个预设的 k -mers,并选出一个最佳基因组组装 k -mer 值。
2. KmerGenie 简介
- KmerGenie 在 2014 年第一次发表,2018 年最近一次更新。开发用于基因组组装的参数 k 的最佳值的抉择。
- KmerGenie 官网:http://kmergenie.bx.psu.edu/。
- 官网蕴含软件的下载地址,示例报告,和版本更新记录。
3. KmerGenie 装置
在 KmerGenie 官网:http://kmergenie.bx.psu.edu/ 下载,目前最新版是 18 年更新的 1.7051。
装置前须要 python(>=2.7)和 R 反对,我用的 anaconda 的 python,装置运行实现后主动把 kmergenie 命令增加到了 /anaconda3/bin/
上面,所以不必再次把 kmergenie 命令增加到环境变量了。
wget http://kmergenie.bx.psu.edu/kmergenie-1.7051.tar.gz
tar -xzvf kmergenie-1.7051.tar.gz
python setup.py install
kmergenie -h
4. KmerGenie 运行
- 命令
kmergenie fastq_list.txt -o ./sample -l 17 -k 121 -s 10 -t 4 > sample.log1.txt 2> sample.log2.txt
- fastq_list.txt 文件保留着 fastq 文件的地位和文件名,每个文件一行。
- 默认单倍体模式,以 k -mer 长度 17 为起始,121 为终止,10 为距离逐个测试;程序运行线程数 4。
- 后果输入在以后门路下,以 sample 为后果文件前缀名。
- “sample.log1.txt”和“sample.log2.txt”别离为程序运行时的正确 / 谬误输入日志。
- 参数
- –diploid:应用二倍体模式,默认是单倍体模式(haploid)。
- –one-pass:默认是两次评估(two passes),这个参数设置用来跳过在 2bp 分辨率上评估 k 的第二次评估。
- -k 121:最大的 k -mer 值,默认是 121。
- -l 15:最小的 k -mer 值,默认是 15。
- -s 10:在最小和最大的 k -mer 值间的距离,默认是 10。意味着会进行 k =15,25,35…115,121 的剖析。
- -e 200:程序运行内存,默认是每个线程 200MB。
- -t 8:线程数。
- -o histograms:输入文件的前缀,默认是 histograms。
- –debug:开发者应用,输入 R 脚本。
- –orig-hist:老程序的评估办法(更慢且准确性更低)。
5. KmerGenie 后果
- 后果报告文件 sample_report.html
下载所有后果文件,关上 sample_report.html,报告内容包含:
- 结尾以折线图的模式展现出在每种长度 k -mer 下,估算的基因组大小。
- 同时给出了 最佳 k -mer抉择数值。其实就是将评估基因组总大小 最高 的那个 k -mer 值断定为 最佳 k -mer,为基因组组装时 k -mer 的抉择提供参考。
- 折线图的具体阐明,包含最佳 k -mer 的评估规定,以及当测序深度足够高时的 k -mer 抉择等。
- 每种 k -mer 的频数分布图,在基因组的 k -mer 中可依据该图断定基因组杂合度或反复序列比例。
- 频数散布表 sample.histo
- 包含各 k -mer 取值下的频数散布表 sample.histo 和对应的频数分布图 sample.histo.pdf。
- 如果想用某个 k -mer 的频数散布表做 基因组特色评估,本人绘制频数分布图,能够应用 sample.histo 文件。
- 所有 k -mer 取值评估的基因组大小记录在 sample.dat
- 包含 sample.dat 和 sample.dat.pdf。
6. notes
- 二倍体模式
- 如果待测物种是低杂合低反复的简略基因组,则应用 单倍体模式。
- 如果是简单基因组,应用 二倍体模式。
- 如果不确定基因组简略还是简单,能够先用单倍体模式运行,依据后果中是否有 显著杂合峰 判断,再运行二倍体模式。
- KmerGenie 软件默认将 k -mer 频数曲线的纵坐标进行了 log10 转化
能够通过批改脚本来更改展现成果: - 在脚本
kmergenie-1.7051/scripts/plot_histogram.r
中第 110 行,suppressWarnings
函数的参数log='y'
设置的 log10 转化,能够通过去除log='y'
参数来展现未 log10 转化的原始坐标。 - 在脚本
kmergenie-1.7051/scripts/plot_histogram.r
中第 110 行,suppressWarnings
函数的参数covNormalized
改为covNormalized[-c(1:5)]
来过滤掉 Abundance<5 的区域。 - k-mer 取值
- KmerGenie 软件是用于二代数据组装基因组举荐 k -mer 参数的。举荐的 最佳 k -mer是评估基因组最大的对应的 k -mer。
- 在基因组组装时,k-mer 的取值 受测序深度的影响,若测序深度越高,可抉择更高的 k -mer 进行尝试组装,以失去更长更残缺的 contigs 序列。
- 但若在低深度测序模式下应用较高的 k -mer 进行组装时,就会引入较高的 错误率。体现为 k -mer 频数散布曲线(纵坐标未进行 log10 转化的)的左侧因为测序谬误导致的低频 k -mer 数量未随着 k -mer 频数升高降落至最低即产生了回升趋势。
- 用 KmerGenie 软件做基因组考察时,能够依据每个 k -mer 值的频数分布图后果抉择更为适合的 k -mer 值做 基因组特色评估。
7. references
- KmerGenie website:http://kmergenie.bx.psu.edu/
- KmerGenie paper:https://academic.oup.com/bioi…
- http://blog.sciencenet.cn/blo…
- https://www.jianshu.com/p/025…
正文完