关于github:用kmer分析进行基因组调查六用KmerGenie一步实现

（全文约1800字）

【举荐】用Smudgeplot评估物种倍性后，用组合jellyfish+GenomeScope1.0做二倍体物种的基因组考察，用组合KMC+GenomeScope2.0做多倍体物种的基因组考察。

1. k-mer进行基因组考察的软件

k-mer进行基因组考察分为k-mer频数统计和基因组特色评估两步。

KmerGenie能够同时实现两步。第一步k-mer频数统计和第二步基因组特色评估。
KmerGenie第一步的后果可用于其他软件第二步基因组特色评估。
KmerGenie能够同时剖析多个预设的k-mers，并选出一个最佳基因组组装k-mer值。

2. KmerGenie 简介

KmerGenie在2014年第一次发表，2018年最近一次更新。开发用于基因组组装的参数k的最佳值的抉择。
KmerGenie官网：http://kmergenie.bx.psu.edu/。
官网蕴含软件的下载地址，示例报告，和版本更新记录。

3. KmerGenie 装置

在KmerGenie官网：http://kmergenie.bx.psu.edu/ 下载，目前最新版是18年更新的1.7051。

装置前须要python（>=2.7）和R反对，我用的anaconda的python，装置运行实现后主动把kmergenie命令增加到了/anaconda3/bin/上面，所以不必再次把kmergenie命令增加到环境变量了。

wget http://kmergenie.bx.psu.edu/kmergenie-1.7051.tar.gz
tar -xzvf kmergenie-1.7051.tar.gz
python setup.py install
kmergenie -h

4. KmerGenie 运行

命令

kmergenie fastq_list.txt -o ./sample -l 17 -k 121 -s 10 -t 4 > sample.log1.txt 2> sample.log2.txt

fastq_list.txt文件保留着fastq文件的地位和文件名，每个文件一行。
默认单倍体模式，以k-mer长度17为起始，121为终止，10为距离逐个测试；程序运行线程数4。
后果输入在以后门路下，以sample为后果文件前缀名。
“sample.log1.txt”和“sample.log2.txt”别离为程序运行时的正确/谬误输入日志。

参数
–diploid：应用二倍体模式，默认是单倍体模式（haploid）。
–one-pass：默认是两次评估（two passes），这个参数设置用来跳过在2bp分辨率上评估k的第二次评估。
-k 121：最大的k-mer值，默认是121。
-l 15：最小的k-mer值，默认是15。
-s 10：在最小和最大的k-mer值间的距离，默认是10。意味着会进行k=15,25,35…115,121的剖析。
-e 200：程序运行内存，默认是每个线程200MB。
-t 8：线程数。
-o histograms：输入文件的前缀，默认是histograms。
–debug：开发者应用，输入R脚本。
–orig-hist：老程序的评估办法（更慢且准确性更低）。

5. KmerGenie 后果

后果报告文件sample_report.html

下载所有后果文件，关上sample_report.html，报告内容包含：

结尾以折线图的模式展现出在每种长度k-mer下，估算的基因组大小。
同时给出了最佳k-mer抉择数值。其实就是将评估基因组总大小最高的那个k-mer值断定为最佳k-mer，为基因组组装时k-mer的抉择提供参考。
折线图的具体阐明，包含最佳k-mer的评估规定，以及当测序深度足够高时的k-mer抉择等。
每种k-mer的频数分布图，在基因组的k-mer中可依据该图断定基因组杂合度或反复序列比例。

频数散布表sample.histo
包含各k-mer取值下的频数散布表sample.histo和对应的频数分布图sample.histo.pdf。
如果想用某个k-mer的频数散布表做基因组特色评估，本人绘制频数分布图，能够应用sample.histo文件。
所有k-mer取值评估的基因组大小记录在sample.dat
包含sample.dat和sample.dat.pdf。

6. notes

二倍体模式
如果待测物种是低杂合低反复的简略基因组，则应用单倍体模式。
如果是简单基因组，应用二倍体模式。
如果不确定基因组简略还是简单，能够先用单倍体模式运行，依据后果中是否有显著杂合峰判断，再运行二倍体模式。
KmerGenie软件默认将k-mer频数曲线的纵坐标进行了log10转化
能够通过批改脚本来更改展现成果：
在脚本kmergenie-1.7051/scripts/plot_histogram.r中第110行，suppressWarnings函数的参数log='y'设置的log10转化，能够通过去除log='y'参数来展现未log10转化的原始坐标。
在脚本kmergenie-1.7051/scripts/plot_histogram.r中第110行，suppressWarnings函数的参数covNormalized改为covNormalized[-c(1:5)]来过滤掉Abundance<5的区域。
k-mer取值
KmerGenie软件是用于二代数据组装基因组举荐k-mer参数的。举荐的最佳k-mer是评估基因组最大的对应的k-mer。
在基因组组装时，k-mer的取值受测序深度的影响，若测序深度越高，可抉择更高的k-mer进行尝试组装，以失去更长更残缺的contigs序列。
但若在低深度测序模式下应用较高的k-mer进行组装时，就会引入较高的错误率。体现为k-mer频数散布曲线（纵坐标未进行log10转化的）的左侧因为测序谬误导致的低频k-mer数量未随着k-mer频数升高降落至最低即产生了回升趋势。
用KmerGenie软件做基因组考察时，能够依据每个k-mer值的频数分布图后果抉择更为适合的k-mer值做基因组特色评估。

7. references

KmerGenie website：http://kmergenie.bx.psu.edu/
KmerGenie paper：https://academic.oup.com/bioi…
http://blog.sciencenet.cn/blo…
https://www.jianshu.com/p/025…

关于github:用kmer分析进行基因组调查六用KmerGenie一步实现

1. k-mer进行基因组考察的软件

2. KmerGenie 简介

3. KmerGenie 装置

4. KmerGenie 运行

5. KmerGenie 后果

6. notes

7. references

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于github:用kmer分析进行基因组调查六用KmerGenie一步实现

1. k-mer进行基因组考察的软件

2. KmerGenie 简介

3. KmerGenie 装置

4. KmerGenie 运行

5. KmerGenie 后果

6. notes

7. references

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复