乐趣区

关于后端:sambamba-samtools-的高效平替工具

sambamba — samtools 的高效平替工具

sambamba 是一个 BAM 文件解决工具。

它应用了 D 语言的多线程和异步 IO 个性,实现了高效的并行化解决。sambamba 能够在多核 CPU 上同时运行多个工作,利用硬盘和内存的带宽,进步了处理速度。sambamba 还应用了一些优化算法和数据结构,比方疾速排序,哈希表,位图等,缩小了内存占用和磁盘读写。

sambamba 反对 samtools 和 picard 的大部分性能,而且速度更快,内存占用更少,操作更简略。<u>sambamba 不仅能够对 BAM 文件进行排序、索引、过滤、统计、标记反复等常见的操作,还能够进行一些非凡的性能,比方区域过滤,标记反复序列,检测构造变异等。</u>sambamba 还反对多种输出和输入格局,比方 CRAM、SAM、BED、VCF 等,让咱们能够灵便地解决各种数据类型。

此外,sambamba 还补救了 samtools 无奈对超过 512Mb 长度的染色体建设 bam 文件索引的缺点,例如:

$ samtools index -b test.sort.bam test.sort.bam.bai
[E::hts_idx_check_range] Region 536870922..536871063 cannot be stored in a bai index. Try using a csi index[E::sam_index] Read 'E00548:269:HV7NVCCXY:3:2117:26494:57301' with ref_name='chr1H', ref_length=558535432, flags=81, pos=536870923 cannot be indexed
samtools index: failed to create index for "Atlas.sort.bam": Numerical result out of range

错误信息表明区域 536870922..536871063 无奈存储在 .bai 索引中,并倡议尝试应用 .csi 索引。然而 GATK 等一些生信工具不反对 .csi 格局的索引文件。sambamba 可能给最大参考序列长度的 bam 文件构建 bai 索引。

https://lomereiter.github.io/sambamba/docs/sambamba-markdup.html

装置形式

应用 conda 装置

conda install -c bioconda sambamba
/opt/miniconda3/bin/sambamba

装置日期:23/12/25

装置版本:1.0.0

源码装置

从 https://github.com/biod/sambamba/releases/tag/v1.0.1 下载安装包。

wget -c https://github.com/biod/sambamba/archive/refs/tags/v1.0.1.tar.gz
tar -zxvf sambamba-1.0.1.tar.gz
cd sambamba-1.0.1
make

这个时候可能会报错

which: no ldmd2 in (/opt/miniconda3/condabin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin)
python3 ./gen_ldc_version_info.py  > utils/ldc_version_info_.d
make: *** [utils/ldc_version_info_.d] Error 1

零碎无奈在给定的门路中找到 ldmd2 命令。ldmd2 是 D 语言编译器 LDC 的一部分。这个谬误通常表明 LDC 没有被正确装置,或者其装置地位没有被退出到零碎的环境变量 PATH 中。

LDC 编译器的 Github 存储库提供二进制版本。Sambamba 以后首选的版本是 LDC – LLVM D 编译器 (>= 1.6.1)。从 https://github.com/ldc-developers/ldc/releases/ 装置 LDC:

wget https://github.com/ldc-developers/ldc/releases/download/v1.35.0/ldc2-1.6.1-linux-x86_64.tar.xz
tar xvJf ldc2-1.35.0-linux-x86_64.tar.xz
export PATH=/app/sambamba-1.0.1/ldc2-1.35.0-linux-x86_64/bin:$PATH
export LIBRARY_PATH=/app/sambamba-1.0.1/ldc2-1.35.0-linux-x86_64/lib

再装置 sambamba

make
cd bin
echo "export PATH=`pwd`:$PATH" >>~/.bashrc
source ~/.bashrc

或者间接应用预编译版本

wget https://github.com/biod/sambamba/releases/download/v1.0.1/sambamba-1.0.1-linux-amd64-static.gz
gzip -d sambamba-1.0.1-linux-amd64-static.gz
chmod 755 sambamba-1.0.1-linux-amd64-static
mkdir sambamba-1.0.1
mv sambamba-1.0.1-linux-amd64-static sambamba-1.0.1/
ln -s /app/sambamba-1.0.1/sambamba-1.0.1-linux-amd64-static /usr/local/bin/sambamba

应用形式

装置实现后间接运行看一下 sambamba 性能:

$ /opt/miniconda3/bin/sambamba
                                                                                                                                                    
sambamba 1.0.0                                                                                                                                      
 by Artem Tarasov and Pjotr Prins (C) 2012-2022                                                                                                     
    LDC 1.28.1 / DMD v2.098.1 / LLVM12.0.0 / bootstrap LDC - the LLVM D compiler (1.28.1)                                                           
                                                                                                                                                    
                                                                                                                                                    
Usage: sambamba [command] [args...]                                                                                                                 
                                                                                                                                                    
  Available commands:                                                                                                                               
                                                                                                                                                    
    view        view contents and convert from one format                                                                                           
                to another (SAM/BAM/JSON/UNPACK)                                                                                                    
    index       build index (BAI)                                                                                                                   
    merge       merge files (BAM)                                                                                                                   
    sort        sort file (BAM)
    slice       slice file (BAM using BED)
    markdup     mark or remove duplicates (BAM)
    subsample   subsample (BAM)
    flagstat    output statistics (BAM)
    depth       output statistics (BAM)
    validate    simple validator (BAM)

  No longer recommended:

    mpileup     parallel execution of samtools (BAM)

To get help on a particular command, call it without args.

Global options

    -q          quiet mode (do not show banner)

For bug reports and feature requests see

       https://github.com/biod/

sambamba 的次要性能如下:

  • sort: 对 SAM/BAM 文件进行排序,能够依照地位或者名称排序,反对多线程和压缩。
  • index: 对 BAM 文件建设索引,能够减速后续的查看和切片操作。
  • view: 查看 SAM/BAM 文件的内容,能够指定输入格局和过滤条件,也能够查看参考序列的信息。
  • merge: 合并多个 BAM 文件,能够主动解决 header 和压缩级别。
  • flagstat: 统计 BAM 文件中的 reads 的标记位,能够显示 QC 通过和失败的 reads 数目,以及各种配对状况和反复状况。
  • markdup: 标记或者移除 BAM 文件中的反复 reads,能够设置长期文件目录和压缩级别,应用 Picard 算法。
  • slice: 提取 BAM 文件中的某个区域,能够指定输入格局和过滤条件。
  • subsample: 对 BAM 文件进行子采样。子采样是指从原始数据中随机抉择一部分数据,以便在保留原始数据特色的同时缩小数据量,能够进步计算效率。
  • depth: 输入统计信息(BAM)
  • validate: 简略验证器(BAM)
  • mpileup 变异检测(不举荐)

flagstat — 统计

从 read flags 中提取和输入统计信息

统计信息第一行是过品质管制(QC-passed)和未通过品质管制(QC-failed)的 read 数量,而后别离对通过和未通过的 read 进行统计

index — 建索引

sambamba index test.sort.bam test.sort.bam.bai

depth — 覆盖度统计

用于计算 BAM 文件中指定区域笼罩深度,这个工具在玩法上显著优于 samtools。

 sambamba depth region|window|base [options] input.bam [input2.bam [...]]

劣势在于该工具有三种模式:baseregionwindow,每种模式的名称示意以其作为单位输入统计数据:

公共选项

  • -F, --filter=FILTER: 设置比照对的自定义过滤条件。默认值是 'mapping_quality > 0 and not duplicate and not failed_quality_control',这意味着只计算那些映射品质大于 0、非反复、品质管制通过的 read
  • -o: 指定输入文件名,默认输入到规范输入
  • -t: 设定线程
  • -c, --min-coverage=MINCOVERAGE: 设置输入的最小均匀笼罩深度,默认为 0(region/window 模式)或 1(base 模式)。只有均匀覆盖度达到这个阈值的区域才会被报告
  • -C, --max-coverage=MAXCOVERAGE: 设置输入的最大均匀笼罩深度。这有助于辨认和排除异样高笼罩的区域
  • -q, --min-base-quality=QUAL: 不计算低于此品质值的碱基。这有助于进步笼罩深度计算的准确性
  • --combined: 输入所有样本的组合统计。通常用于比拟多个样本的笼罩深度
  • -a, --annotate: 增加额定的列来标记是否满足给定的规范,而不是跳过不满足条件的记录
  • -m, --fix-mate-overlaps: 检测配对读取的重叠局部,并在每个碱基的根底上解决它们;这有助于更精确地计算覆盖度

base 模式特定选项

  • -L, --regions=FILENAME|REGION

    (可选)指定感兴趣区域的列表或单个区域的模式(例如 chr:beg-end)。通常用于剖析特定基因或区域的笼罩深度。

region 模式特定选项

  • -L, --regions=FILENAME|REGION

    (必要)与下面的 base 模式选项雷同,但必须。

  • -T, --cov-threshold=COVTHRESHOLD

    提供一个或多个覆盖度阈值,对于每个阈值,会增加一个额定的列,显示区域中覆盖度超过此值的碱基的百分比。

这个模式是最有用的,联合它咱们能够输入染色体上的碱基笼罩深度及占比。

window 模式特定选项

  • -w, --window-size=WINDOWSIZE: 窗口的宽度,以碱基对(bp)为单位(必须);这定义了计算覆盖度的窗口大小
  • --overlap=OVERLAP: 间断窗口之间的重叠,以碱基对(bp)为单位(默认是 0);这能够帮忙平滑覆盖度的变动
  • -T, --cov-threshold=COVTHRESHOLD: 与 ‘region’ 子命令中的含意雷同,示意覆盖度的阈值

后果会生成一个文本文件,列出了每个染色体上每个碱基地位的覆盖度。

slice 拆分 bam 文件

sambamba slice input.bam chr1H:10000-20000 > output.bam

markdup — 去重

sambamba markdup OPTIONS <input.bam> <output.bam>
sambamba markdup -t 4 --tmpdir=./tmp/ ./test.bam  ./test.markdup.bam 2>>log/sambamba_markdup_log.txt

-t:线程数

-r:示意删除反复,默认仅标记不删除

–tmpdir=TMPDIR:指定临时文件的目录

–overflow-list-size=OVERFLOW_LIST_SIZE:减少大小会缩小创立的临时文件的数量。

如果呈现 Too many open files 报错,须要通过应用 ulimit -n 8000 或增加 --overflow-list-size=600000 来解决

扫码关注微信公众号【生信 F3】获取文章残缺内容,分享生物信息学最新常识。

本文由 mdnice 多平台公布

退出移动版