关于经验:用kmer分析进行基因组调查三用KMC进行kmer频数统计

111次阅读

共计 2205 个字符,预计需要花费 6 分钟才能阅读完成。

(全文约 1300 字)

【举荐】用 Smudgeplot 评估物种倍性后,用组合 jellyfish+GenomeScope1.0 做二倍体物种的基因组考察,用组合 KMC+GenomeScope2.0 做多倍体物种的基因组考察。

1. k-mer 进行基因组考察的软件详情

k-mer 进行基因组考察分为 k-mer 频数统计基因组特色评估 两步。

  • KMC 能够实现第一步 k -mer 频数统计。
  • KMC 的后果 sample.histo 能够用在 GenomeScope 上,实现第二步基因组特色评估。

2. KMC 简介

  • KMC 是一个用来从 FASTQ/FASTA 文件中计算 k -mers 的基于 KMC 二进制数据库的程序。
  • KMC 是波兰的 Silesian University of Technology 的算法和软件学院的 REFRESH Bioinformatics Group 开发的工具。
  • 2017 年公布了第三个版本,KMC3。
  • KMC 是次要基于 C 语言的程序。

3. KMC 装置

  1. 版本

    有两个版本的 KMC,个别应用第一个版本,Smudgeplot 评估物种倍性时用到了第二个版本。

  2. 一个是 REFRESH Bioinformatics Group 的 refresh-bio/KMC。
  3. 一个是 GenomeScope2.0 的开发团队 tbenavi1 批改的 tbenavi1/KMC
  4. 下载

    在 KMC download 找对应零碎的最新版本 KMC 软件,下载解压缩即可应用。

mkdir KMC && cd KMC
wget https://github.com/refresh-bio/KMC/releases/download/v3.2.1/KMC3.2.1.linux.tar.gz #下载最新版本的 KMC
tar -xzf KMC3.2.1.linux.tar.gz #解压缩和解包,生成 bin 文件夹和 include 文件夹
  1. 应用

    解压缩后 bin 目录下会蕴含可执行文件,可间接应用,倡议退出环境变量,包含:

  2. bin/kmc:计算 k -mer 频数的主程序
  3. bin/kmc_dump:在 kmc 生成数据库中列出 k -mers 的程序
  4. bin/kmc_tools:容许操作 kmc 数据库的程序

4. KMC 运行

用 KMC 计算 k -mer 频率,生成 k -mer 频数直方表和 k -mer 直方图。

  1. 运行

    mkdir tmp #创立长期文件夹
    ls *.fastq.gz > FILES #用于剖析的 clean reads 门路保留到文件 FILES 中
    kmc -k21 -t16 -m64 -ci1 -cs10000 @FILES kmcdb tmp #计算 k -mer 频率
    kmc_tools transform kmcdb histogram sample.histo -cx10000 #生成 k -mer 频数直方表 sample.histo 和 k -mer 直方图
  2. kmc 命令参数
  3. -k21:k-mer 长度设置为 21
  4. -t16:线程 16
  5. -m64:内存 64G,设置应用 RAM 的大抵数量,范畴 1 -1024。
  6. -ci1 -cs10000:统计 k -mer coverages 覆盖度范畴在 [1-10000] 的。
  7. @FILES:保留了输出文件列表的文件名为 FILES
  8. kmcdb:KMC 数据库的输入文件名前缀
  9. tmp:长期目录
  10. kmc_tools 命令参数
  11. -cx10000:贮存在直方图文件中 counter 的最大值。
  12. 后果

    生成的 sample.histo 可用于第二步 GenomeScope 的剖析。

5. 基因组特色评估

取得 k -mer 频数散布表 sample.histo 后

  • 举荐用 GenomeScope1.0 或者 GenomeScope2.0 或者 GenomeScope 的 R 脚本来做基因组特色评估和画图。
  • 也可间接用 R 绘制 sample.histo 的频率散布直方图 / 频率散布曲线。

5.1. GenomeScope 网页版

5.1.1. GenomeScope1.0 网页版 —— 实用于二倍体物种

  1. 在 GenomeScope1.0 网页版上传前一步取得的 k -mer 频数散布表 sample.histo 文件。
  2. 设置参数 k -mer length 为第一步抉择的 k -mer 长度值,这里是 17;参数 Read length 为序列读长,个别为 150;最初一个参数 Max kmer coverage 倡议批改成更大的 10000,以统计更多的 k -mers。
  3. 结果显示预估的基因组大小,杂合度,反复率等信息。

5.1.2. GenomeScope2.0 网页版 —— 实用于多倍体物种

GenomeScope2.0 网页版也是相似的步骤。

5.2. R 绘制

  • R 绘制 k -mer 频数散布曲线初步查看基因组特色。
  • 取得 kmer_plot.png 为频数散布曲线,可依据曲线峰值对基因组大小进行计算和预估。
#R 脚本示例
kmer <- read.table('sample.histo')
kmer <- subset(kmer, V1 >=5 & V1 <=500) #对频数范畴 5 -500 的数据进行绘制 
Frequency <- kmer$V1
Number <- kmer$V2
png('kmer_plot.png')
plot(Frequency, Number, type = 'l', col = 'blue')
dev.off()

6. references

  1. KMC3 paper:https://academic.oup.com/bioi…
  2. refresh-bio/KMC:https://github.com/refresh-bi…
  3. tbenavi1/KMC github:https://github.com/tbenavi1/KMC

正文完
 0