关于后端:AGAT-强大的-GFFGTFBED-工具包

10次阅读

共计 3496 个字符,预计需要花费 9 分钟才能阅读完成。

AGAT – 弱小的 GFF/GTF/BED 工具包

还在用 gffread、GenomeTools 等软件将 GFF 文件转化为 GTF 格局?连忙试试 AGAT 这款更弱小的工具!!!

AGAT (Another GTF/GFF Analysis Toolkit) 是一个 GFF/GTF 工具包,简直能实现所有你可能想要对这两种格式文件进行的操作。

AGAT 有能力查看、修复、填充任何类型的 GTF 和 GFF 的缺失信息 (特色 / 属性),以创立残缺、分类和标准化的 gff3 格局。通过多年的优化,它曾经开发了大量工具来执行简直任何可能与 GTF/GFF 格式文件相干的工作 (转换,合并,批改,过滤,FASTA 序列提取,增加信息等)。与其余办法相比,AGAT 即便对最不标准的 GTF/GFF 文件也可实用。

<img src=”https://cdn.jsdelivr.net/gh/ShengXinF3/ShengXinF3/Pics/agat.png” style=”zoom:67%;” />

次要性能

  • 将任何 GTF/GFF 文件标准化 / 整顿为全面的 GFF3 格局 (通过带有 _sp_ 前缀的脚本)

    工作 工具
    查看、修复、填充缺失信息到分类和标准化的 gff3 agat_convert_sp_gxf2gxf.pl

    增加缺失的父特色 (例如,如果只有 CDS/ 外显子存在,则增加基因和 mRNA)

    增加缺失的性能 (例如外显子和 UTR)

    增加缺失的强制属性 (即 ID, Parent)

    修复标识符至惟一

    修复特色地位

    删除反复特色

    汇合相干特色 (如果扩散在文件的不同地位)

    排序功能 (tabix 可选)

    合并重叠的基因座成一个繁多的基因座(仅当选项激活)

  • 转换多种格局
工作 工具
任意 GTF/GFFBED agat_convert_sp_gff2bed.pl
任意 GTF/GFF GTF agat_convert_sp_gff2gtf.pl
任意 GTF/GFF 转 表格 agat_sp_gff2tsv.pl
任意 BAM (minimap2) 转 GFF agat_convert_sp_minimap2_bam2gff.pl
任意 GTF/GFFZFF agat_sp_gff2zff.pl
任意 GTF/GFF 转 任意 GTF/GFF (bioperl) agat_convert_sp_gxf2gxf.pl
BEDGFF3 agat_convert_bed2gff.pl
EMBLGFF3 agat_convert_embl2gff.pl
genscanGFF3 agat_convert_genscan2gff.pl
mfannotGFF3 agat_convert_mfannot2gff.pl
  • 其它
工作 工具
特色 统计 agat_sp_statistics.pl
make function statistics agat_sp_functional_statistics.pl
提取 任何类型的序列 agat_sp_extract_sequences.pl
提取 属性 agat_sp_extract_attributes.pl
补充 正文 (non-overlapping loci) agat_sp_complement_annotations.pl
合并 正文 agat_sp_merge_annotations.pl
通过 ORF 长度 过滤 基因模型 agat_sp_filter_by_ORF_size.pl
筛选 最长转录本 agat_sp_keep_longest_isoform.pl
增加 内含子特色 agat_sp_add_introns.pl
修复 cds 相位 agat_sp_fix_cds_phases.pl
操作 IDs agat_sp_manage_IDs.pl
操作 UTRs agat_sp_manage_UTRs.pl
操作 introns agat_sp_manage_introns.pl
操作 性能正文 agat_sp_manage_functional_annotation.pl

性能简介

  • 所有以 GFF/GTF 为输出的工具能够分为两组: _sp__sq_

    • 带有 _sp_ 前缀的工具

      sp 代表 SLURP。这些工具将以特定的数据结构在内存中存储文件,在付出内存老本的状况下使运行更顺畅。实际上,它容许以更省时的形式执行简单的工作 (AGAT 能够随时拜访任何特色)。此外,它容许在格局自身给出的可能性限度内修复所有潜在的谬误。

    • 带有 _sq_ 前缀

      sq 代表 SEQUENTIAL。这些工具将从上到下逐行读取和解决 GFF/GTF 文件,实时执行工作。只管这进步了内存效率,但文件的完整性检查是最小的,因而只能执行简略工作。

  • AGAT 解析器 / 由 sp 前缀工具 / 标准化应用,用于创立兼容任何工具的 GXF 文件

    带有 sp 前缀的 AGAT 工具的第一步是修复文件以使其标准化 (例如,只蕴含外显子的文件将被批改以创立 mRNA 和基因特色)。为了执行这项工作,AGAT 将解析整个数据并将其放入特定的数据结构中,AGAT parser 预计执行以下操作:

    • 创立缺失的父特色(例如,如果第 2 级或第 3 级特色没有父特色,咱们就创立短少的第 2 级和 / 或第 1 级特色)
    • 创立缺失的强制属性(ID 和 / 或 Parent)
    • 使标识符惟一
    • 删除反复的特色(雷同的地位、ID 和 Parent)
    • 扩大共享多个父特色的 level3 特色(例如,如果一个外显子在其父属性中有多个父 mRNA 的列表,则将为每个父特色创立一个具备对立 ID 的外显子)
    • 修复特色的地位谬误(例如,当一个 mRNA 逾越了它基因的地位时修复基因地位)
    • 在 CDS 和外显子存在的条件下,增加 UTR
    • 在可能的条件下,增加外显子(CDS 必须存在)
    • 将特色汇集(如果相干的特色散布在文件的不同中央)

常用工具

修复 GFF 文件的格局

agat_convert_sp_gxf2gxf.pl

用法:

agat_convert_sp_gxf2gxf.pl \
    -g genome.gff -o genome.gff

选项:

  • –gff or -f

    输出 GTF/GFF 文件

  • –output or -o

    输入文件

提取和总结 GFF 文件中的性能信息

agat_sp_functional_statistics.pl

用法:

agat_sp_functional_statistics.pl --gff genome.gff [-o dirname]
agat_sp_functional_statistics.pl --help

选项:

  • –gff or -f

    输出 GTF/GFF 文件

  • –output or -o

    输入后果的文件夹门路(默认 output_functional_statistics)

依据 gff 文件中形容的特色以 fasta 格局提取序列

agat_sp_extract_sequences.pl

用法:

# Gene
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t gene -o gene.fa
# mRNA
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t mrna -o mrna.fa
# CDS
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t cds -o cds.fa
# Protein
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t cds -p -o pep.fa
# To extract 3000nt upstream region of a gene
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t gene --upstream 3000 -o promoter_3kb.fa

选项:

  • –gff or -f

    输出 GTF/GFF 文件

  • –output or -o

    输入后果的文件夹门路(默认 output_functional_statistics)

将 GTF/GFF 格局转换为 BED

agat_sp_functional_statistics.pl

用法:

agat_convert_sp_gff2bed.pl --gff genome.gff [-o filename]

选项:

  • –gff

    输出 GTF/GFF 文件

  • –output or -o

    输入文件

筛选最长的转录本序列

agat_sp_functional_statistics.pl

用法:

agat_sp_keep_longest_isoform.pl --gff genome.gff [-o filename]

选项:

  • –gff

    输出 GTF/GFF 文件

  • –output or -o

    输入文件

扫码关注微信公众号【生信 F3】获取文章残缺内容,分享生物信息学最新常识。

本文由 mdnice 多平台公布

正文完
 0