共计 2205 个字符,预计需要花费 6 分钟才能阅读完成。
(全文约 1300 字)
【举荐】用 Smudgeplot 评估物种倍性后,用组合 jellyfish+GenomeScope1.0 做二倍体物种的基因组考察,用组合 KMC+GenomeScope2.0 做多倍体物种的基因组考察。
1. k-mer 进行基因组考察的软件详情
k-mer 进行基因组考察分为 k-mer 频数统计 和基因组特色评估 两步。
- KMC 能够实现第一步 k -mer 频数统计。
- KMC 的后果 sample.histo 能够用在 GenomeScope 上,实现第二步基因组特色评估。
2. KMC 简介
- KMC 是一个用来从 FASTQ/FASTA 文件中计算 k -mers 的基于 KMC 二进制数据库的程序。
- KMC 是波兰的 Silesian University of Technology 的算法和软件学院的 REFRESH Bioinformatics Group 开发的工具。
- 2017 年公布了第三个版本,KMC3。
- KMC 是次要基于 C 语言的程序。
3. KMC 装置
-
版本
有两个版本的 KMC,个别应用第一个版本,Smudgeplot 评估物种倍性时用到了第二个版本。
- 一个是 REFRESH Bioinformatics Group 的 refresh-bio/KMC。
- 一个是 GenomeScope2.0 的开发团队 tbenavi1 批改的 tbenavi1/KMC
-
下载
在 KMC download 找对应零碎的最新版本 KMC 软件,下载解压缩即可应用。
mkdir KMC && cd KMC
wget https://github.com/refresh-bio/KMC/releases/download/v3.2.1/KMC3.2.1.linux.tar.gz #下载最新版本的 KMC
tar -xzf KMC3.2.1.linux.tar.gz #解压缩和解包,生成 bin 文件夹和 include 文件夹
-
应用
解压缩后 bin 目录下会蕴含可执行文件,可间接应用,倡议退出环境变量,包含:
- bin/kmc:计算 k -mer 频数的主程序
- bin/kmc_dump:在 kmc 生成数据库中列出 k -mers 的程序
- bin/kmc_tools:容许操作 kmc 数据库的程序
4. KMC 运行
用 KMC 计算 k -mer 频率,生成 k -mer 频数直方表和 k -mer 直方图。
-
运行
mkdir tmp #创立长期文件夹 ls *.fastq.gz > FILES #用于剖析的 clean reads 门路保留到文件 FILES 中 kmc -k21 -t16 -m64 -ci1 -cs10000 @FILES kmcdb tmp #计算 k -mer 频率 kmc_tools transform kmcdb histogram sample.histo -cx10000 #生成 k -mer 频数直方表 sample.histo 和 k -mer 直方图
- kmc 命令参数
- -k21:k-mer 长度设置为 21
- -t16:线程 16
- -m64:内存 64G,设置应用 RAM 的大抵数量,范畴 1 -1024。
- -ci1 -cs10000:统计 k -mer coverages 覆盖度范畴在 [1-10000] 的。
- @FILES:保留了输出文件列表的文件名为 FILES
- kmcdb:KMC 数据库的输入文件名前缀
- tmp:长期目录
- kmc_tools 命令参数
- -cx10000:贮存在直方图文件中 counter 的最大值。
-
后果
生成的 sample.histo 可用于第二步 GenomeScope 的剖析。
5. 基因组特色评估
取得 k -mer 频数散布表 sample.histo 后
- 举荐用 GenomeScope1.0 或者 GenomeScope2.0 或者 GenomeScope 的 R 脚本来做基因组特色评估和画图。
- 也可间接用 R 绘制 sample.histo 的频率散布直方图 / 频率散布曲线。
5.1. GenomeScope 网页版
5.1.1. GenomeScope1.0 网页版 —— 实用于二倍体物种
- 在 GenomeScope1.0 网页版上传前一步取得的 k -mer 频数散布表 sample.histo 文件。
- 设置参数 k -mer length 为第一步抉择的 k -mer 长度值,这里是 17;参数 Read length 为序列读长,个别为 150;最初一个参数 Max kmer coverage 倡议批改成更大的 10000,以统计更多的 k -mers。
- 结果显示预估的基因组大小,杂合度,反复率等信息。
5.1.2. GenomeScope2.0 网页版 —— 实用于多倍体物种
GenomeScope2.0 网页版也是相似的步骤。
5.2. R 绘制
- R 绘制 k -mer 频数散布曲线初步查看基因组特色。
- 取得 kmer_plot.png 为频数散布曲线,可依据曲线峰值对基因组大小进行计算和预估。
#R 脚本示例
kmer <- read.table('sample.histo')
kmer <- subset(kmer, V1 >=5 & V1 <=500) #对频数范畴 5 -500 的数据进行绘制
Frequency <- kmer$V1
Number <- kmer$V2
png('kmer_plot.png')
plot(Frequency, Number, type = 'l', col = 'blue')
dev.off()
6. references
- KMC3 paper:https://academic.oup.com/bioi…
- refresh-bio/KMC:https://github.com/refresh-bi…
- tbenavi1/KMC github:https://github.com/tbenavi1/KMC
正文完