共计 3496 个字符,预计需要花费 9 分钟才能阅读完成。
AGAT – 弱小的 GFF/GTF/BED 工具包
还在用 gffread、GenomeTools 等软件将 GFF 文件转化为 GTF 格局?连忙试试 AGAT 这款更弱小的工具!!!
AGAT (Another GTF/GFF Analysis Toolkit) 是一个 GFF/GTF 工具包,简直能实现所有你可能想要对这两种格式文件进行的操作。
AGAT 有能力查看、修复、填充任何类型的 GTF 和 GFF 的缺失信息 (特色 / 属性),以创立残缺、分类和标准化的 gff3 格局。通过多年的优化,它曾经开发了大量工具来执行简直任何可能与 GTF/GFF 格式文件相干的工作 (转换,合并,批改,过滤,FASTA 序列提取,增加信息等)。与其余办法相比,AGAT 即便对最不标准的 GTF/GFF 文件也可实用。
<img src=”https://cdn.jsdelivr.net/gh/ShengXinF3/ShengXinF3/Pics/agat.png” style=”zoom:67%;” />
次要性能
-
将任何 GTF/GFF 文件标准化 / 整顿为全面的 GFF3 格局 (通过带有
_sp_
前缀的脚本)工作 工具 查看、修复、填充缺失信息到分类和标准化的 gff3 agat_convert_sp_gxf2gxf.pl
增加缺失的父特色 (例如,如果只有 CDS/ 外显子存在,则增加基因和 mRNA)
增加缺失的性能 (例如外显子和 UTR)
增加缺失的强制属性 (即 ID, Parent)
修复标识符至惟一
修复特色地位
删除反复特色
汇合相干特色 (如果扩散在文件的不同地位)
排序功能 (tabix 可选)
合并重叠的基因座成一个繁多的基因座(仅当选项激活)
- 转换多种格局
工作 | 工具 |
---|---|
任意 GTF/GFF 转 BED | agat_convert_sp_gff2bed.pl |
任意 GTF/GFF 转 GTF | agat_convert_sp_gff2gtf.pl |
任意 GTF/GFF 转 表格 | agat_sp_gff2tsv.pl |
任意 BAM (minimap2) 转 GFF | agat_convert_sp_minimap2_bam2gff.pl |
任意 GTF/GFF 转 ZFF | agat_sp_gff2zff.pl |
任意 GTF/GFF 转 任意 GTF/GFF (bioperl) | agat_convert_sp_gxf2gxf.pl |
BED 转 GFF3 | agat_convert_bed2gff.pl |
EMBL 转 GFF3 | agat_convert_embl2gff.pl |
genscan 转 GFF3 | agat_convert_genscan2gff.pl |
mfannot 转 GFF3 | agat_convert_mfannot2gff.pl |
- 其它
工作 | 工具 |
---|---|
特色 统计 | agat_sp_statistics.pl |
make function statistics | agat_sp_functional_statistics.pl |
提取 任何类型的序列 | agat_sp_extract_sequences.pl |
提取 属性 | agat_sp_extract_attributes.pl |
补充 正文 (non-overlapping loci) | agat_sp_complement_annotations.pl |
合并 正文 | agat_sp_merge_annotations.pl |
通过 ORF 长度 过滤 基因模型 | agat_sp_filter_by_ORF_size.pl |
筛选 最长转录本 | agat_sp_keep_longest_isoform.pl |
增加 内含子特色 | agat_sp_add_introns.pl |
修复 cds 相位 | agat_sp_fix_cds_phases.pl |
操作 IDs | agat_sp_manage_IDs.pl |
操作 UTRs | agat_sp_manage_UTRs.pl |
操作 introns | agat_sp_manage_introns.pl |
操作 性能正文 | agat_sp_manage_functional_annotation.pl |
性能简介
-
所有以 GFF/GTF 为输出的工具能够分为两组:
_sp_
和_sq_
-
带有
_sp_
前缀的工具sp 代表 SLURP。这些工具将以特定的数据结构在内存中存储文件,在付出内存老本的状况下使运行更顺畅。实际上,它容许以更省时的形式执行简单的工作 (AGAT 能够随时拜访任何特色)。此外,它容许在格局自身给出的可能性限度内修复所有潜在的谬误。
-
带有
_sq_
前缀sq 代表 SEQUENTIAL。这些工具将从上到下逐行读取和解决 GFF/GTF 文件,实时执行工作。只管这进步了内存效率,但文件的完整性检查是最小的,因而只能执行简略工作。
-
-
AGAT 解析器 / 由 sp 前缀工具 / 标准化应用,用于创立兼容任何工具的 GXF 文件
带有 sp 前缀的 AGAT 工具的第一步是修复文件以使其标准化 (例如,只蕴含外显子的文件将被批改以创立 mRNA 和基因特色)。为了执行这项工作,AGAT 将解析整个数据并将其放入特定的数据结构中,AGAT parser 预计执行以下操作:
- 创立缺失的父特色(例如,如果第 2 级或第 3 级特色没有父特色,咱们就创立短少的第 2 级和 / 或第 1 级特色)
- 创立缺失的强制属性(ID 和 / 或 Parent)
- 使标识符惟一
- 删除反复的特色(雷同的地位、ID 和 Parent)
- 扩大共享多个父特色的 level3 特色(例如,如果一个外显子在其父属性中有多个父 mRNA 的列表,则将为每个父特色创立一个具备对立 ID 的外显子)
- 修复特色的地位谬误(例如,当一个 mRNA 逾越了它基因的地位时修复基因地位)
- 在 CDS 和外显子存在的条件下,增加 UTR
- 在可能的条件下,增加外显子(CDS 必须存在)
- 将特色汇集(如果相干的特色散布在文件的不同中央)
常用工具
修复 GFF 文件的格局
agat_convert_sp_gxf2gxf.pl
用法:
agat_convert_sp_gxf2gxf.pl \
-g genome.gff -o genome.gff
选项:
-
–gff or -f
输出 GTF/GFF 文件
-
–output or -o
输入文件
提取和总结 GFF 文件中的性能信息
agat_sp_functional_statistics.pl
用法:
agat_sp_functional_statistics.pl --gff genome.gff [-o dirname]
agat_sp_functional_statistics.pl --help
选项:
-
–gff or -f
输出 GTF/GFF 文件
-
–output or -o
输入后果的文件夹门路(默认 output_functional_statistics)
依据 gff 文件中形容的特色以 fasta 格局提取序列
agat_sp_extract_sequences.pl
用法:
# Gene
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t gene -o gene.fa
# mRNA
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t mrna -o mrna.fa
# CDS
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t cds -o cds.fa
# Protein
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t cds -p -o pep.fa
# To extract 3000nt upstream region of a gene
agat_sp_extract_sequences.pl -g genome.gff -f genome.fa -t gene --upstream 3000 -o promoter_3kb.fa
选项:
-
–gff or -f
输出 GTF/GFF 文件
-
–output or -o
输入后果的文件夹门路(默认 output_functional_statistics)
将 GTF/GFF 格局转换为 BED
agat_sp_functional_statistics.pl
用法:
agat_convert_sp_gff2bed.pl --gff genome.gff [-o filename]
选项:
-
–gff
输出 GTF/GFF 文件
-
–output or -o
输入文件
筛选最长的转录本序列
agat_sp_functional_statistics.pl
用法:
agat_sp_keep_longest_isoform.pl --gff genome.gff [-o filename]
选项:
-
–gff
输出 GTF/GFF 文件
-
–output or -o
输入文件
扫码关注微信公众号【生信 F3】获取文章残缺内容,分享生物信息学最新常识。
本文由 mdnice 多平台公布