关于数据分析:富集分析一概述

（全文约 6600 字）

富集剖析

富集剖析，实质上是对数据的散布测验，如果散布集中在某个区域，则认为富集。

罕用的散布测验办法有卡方测验、Fisher 准确测验以及 KS 测验等办法。

生物信息学畛域的富集剖析

在 背景基因集 (N) 下取得 一组特定基因集 (S)，S 可能是基因列表，表白图谱，基因芯片等模式。在事后构建好 基因正文数据库 (例如 GO,KEGG 等) 已对背景基因集 (N) 依据生物性能或过程进行分类的前提下，通过 统计学算法 找出有那些显著区别于背景基因集 (N) 的类别(生物组成 / 性能 / 过程)，或者找出这组特定基因集间在生物组成 / 性能 / 过程的共性，通过聚类后去除冗余失去基因富集后果的过程，即为富集剖析。

罕用数据
其中，背景基因集(N) 经常是一个物种的基因组正文基因总和。
一组 特定基因集(S) 经常是差别表白基因集(differentially expressed genes, DEGs)。
事后构建好 基因正文数据库 罕用 GO 或 KEGG 数据库。
常见的 统计学算法 包含 ORA,FCS,PT,NT 四种。
理论利用

通常会应用其余剖析的后果作为 特定基因集(S)，做基因富集剖析来查看这些基因集是否次要集中在某些类别，这些类别代表的性能是否与表型或者进化事件有关联。比方：

比拟转录组剖析失去的差别表白基因集；
比拟基因组剖析中失去的某物种特有的基因集；
基因家族膨胀扩张剖析失去的基因组中显著扩张 / 膨胀的基因集；
基因组共线性剖析中在全基因组复制事件左近的 Ks 值的基因集等各种剖析失去的基因集；

富集剖析算法通过倒退，常见的有四类：

<p align=”center”>Figure 1. 富集剖析四类算法
图片起源：paper:Progress in Gene Functional Enrichment Analysis</p>

过表白剖析 (ORA) 概念

过表白剖析 (ORA) 是对背景基因集 (N) 和特定基因集 (S) 依照已知的基因功能或通路等分组，并鉴定特定基因集 (S) 在哪些组蕴含比背景基因集 (N) 比例更多的基因 (适度表白，over-represented，即富集 enriched) 或更少的基因 (表白有余，under-represented) 的一种统计学办法。

ORA 是呈现最早，最罕用，有欠缺的统计学实践根底的办法。ORA 重点在于通过基因集组成的比例来判断富集水平。

过表白剖析的散布测验

ORA 类办法用的是离散散布的测验（Fisher 准确测验，根据超几何散布的原理）。

超几何散布有很多材料可参考，比方：https://www.jianshu.com/p/13f…

过表白剖析 (ORA) 的局限性
ORA 应用的统计办法 (例如超几何散布，二项分布，卡方散布) 只思考差异基因数量，疏忽了差别水平(不同表白程度)，，须要人为设置阈值，没有一个设置规定，阈值设置有主观性。
通过一刀切的人为规定的阈值，找出差别最显著的单个基因，而疏忽其余基因，比方差别小但变动方向统一的基因集，往往后者比前者更重要。
利用的统计学假如每个基因互相独立，然而就生物体自身而言，疏忽了基因间外部的简单的相互作用，并且每个基因在不同的生物学过程中施展的作用大小不一样，等同对待后果可能会不精确。
假如每条通路都独立其余通路。
过表白剖析 (ORA) 的实际操作
须要四组数据：
背景基因集(N)：经常是一个物种的基因组正文基因总和
特定基因集(S)：经常是差别表白基因集(differentially expressed genes, DEGs)
背景基因集的分类信息：经常通过正文数据库 (GO,KEGG 等) 和背景基因集取得
特定基因集的分类信息：经常通过正文数据库 (GO,KEGG 等) 和特定基因集取得

通过四组数据取得基因数量的 2×2 列联表，再利用 fisher 准确测验或超几何散布失去 p 值。认为设置一个显著性阈值，高于阈值的即为富集基因。

1.2.2.1. 性能分类打分(FCS)

性能分类打分 (FCS) 概念和改良

性能分类打分 (FCS) 与 ORA 相比进行了根本假如的扭转，除了思考单个基因的显著变动外，还思考微效基因的叠加成果。

代表是基因集富集剖析(Gene Set Enrichment Analysis, GSEA)

FCS 剖析的三个步骤
计算单个基因表白程度的统计值，采纳如掂量差异基因的 ANOVA、Q-statistic、t 测验、Z-score、信噪比，进行打分或排序，或者间接应用排序好的基因表白谱
同一通路上所有基因的表白程度统计值进行整合，会集成单个通路程度的分数或统计值，采纳基因程度统计的和、均值或中位数，Wilcoxon rank sum, Maxmean statistic, Kolmogorov-Smirnov statistic
对通路程度的显著性进行评估：利用重抽样 (bootstrap) 的统计学办法
性能分类打分 (FCS) 的劣势(与 ORA 相比)
不须要人为规定的阈值来一刀切显著性
FCS 思考同一通路中基因表白的协调变动，即思考微效基因的叠加成果。
通过思考基因表白的协调变动，FCS 办法解释了通路中基因之间的依赖性
性能分类打分 (FCS) 的限度
与 ORA 相似，FCS 独立剖析每个通路。一个基因能够在多个通路中发挥作用，这意味着这些通路能够穿插和重叠。
许多 FCS 办法应用基因表白的变动来对给定通路中的基因进行排序，并抛弃进一步剖析的变动。例如，假如通路中的两个基因 A 和 B 别离产生 2 倍和 20 倍的变动。只有它们与通路中的其余基因相比具备雷同的各自等级，大多数 FCS 办法都会平等地看待它们。

1.2.2.2. 基因富集剖析(gene set enrichment analysis, GSEA)

基因富集剖析 (GSEA) 是 FCS 算法中最罕用的一种。

基因富集剖析 (GSEA) 的原理
基因排序

首先，依据各基因与表型间相关性 r 或两组间 t 测验统计量得分值对背景基因集 (N) 进行降序排列，比方把所有基因在两个分组 (或表型) 中的差别度从大到小排序，造成排好序的基因列表。

基因富集

查看基因正文数据库 (GO/KEGG) 中每个小组基因集 (例如 GO 一个通路一个小组) 里的基因是否在排序的背景基因集里均匀分布，或者次要散布在排序背景基因集的顶部 / 底部。均匀分布阐明不在这两个分组 (或表型) 中富集，集中散布在顶部 / 底部阐明这个小组基因集在两个分组 (表型) 之一富集。

富集剖析

计算每一小组基因集的富集分数 (enrichment score,ES) 值，而后对 ES 值进行显著性测验和多重假设检验，计算得出显著富集的基因集。

基因富集剖析 (GSEA) 剖析步骤
计算富集分数(enrichment score,ES)

对每一个小组基因集，遍历排好序的背景基因集 (N)，当基因呈现在特定基因集(S) 就加分，反之减分，加减分值由基因与表型的相关性决定。

预计 ES 的统计显著性

基于样品的置换测验能够计算 P 值。

多重假设检验改正

依据每一小组基因集的大小对每个基因的 ES 做标准化，失去标准化 NES（normalized enrichment score，NES）。为了测验每一小组基因集的 NES 是否显著，将排好序的背景基因集 (N) 随机打乱排列肯定次数，每次都计算每个基因集的 NES(ES)，失去每个基因集的 NES 在随机排序状况下的实践散布，从而计算其 p 值。若 p <0.05，则阐明该基因集在有序背景基因集 (N) 中大都富集在顶部，为富集基因集。FDR 则是对 p 值进行 FDR 校对之后的 p 值。

背景
大量公开可用的通路数据库提供的信息超出了每个通路的简略基因列表。与 GO 和分子特色数据库 (MSigDB) 不同，这些知识库还提供无关在给定路径中相互作用的基因产物、它们如何相互作用（例如，激活、克制等）以及它们在何处相互作用（例如、细胞质、细胞核等）。这些知识库包含 KEGG、MetaCyc、Reactome、RegulonDB、STKE (http://stke.sciencemag.org)、BioCarta (http://www.biocarta.com)、和 PantherDB 等。
ORA 和 FCS 办法仅思考通路中的基因数量或基因共表达来辨认重要通路，而疏忽这些知识库中可用的附加信息。因而，即便通过基因之间的新分割齐全从新绘制了通路，只有它们蕴含雷同的基因组，ORA 和 FCS 也会产生雷同的后果。
曾经开发的通路拓扑 (PT) 的办法则利用这些通路数据库的附加信息。
通路门路拓扑 (PT) 的办法实质上与 FCS 办法雷同，因为它们执行与 FCS 办法雷同的三个步骤。两者之间的次要区别在于应用通路拓扑来计算基因程度的统计数据。
通路拓扑(PT)

在通路的富集剖析中，个别上游基因的表白程度扭转要显著大于上游基因对整个通路的影响。PT 办法就是把基因在通路中的地位，和其余基因的互作和调控关系联合在一起，评估每个基因对通路的奉献并算出权重，而后把权重整合到富集剖析。

代表是 SPIA，因为可用数据库的限度，利用还很少。

利用现有的全基因组范畴的生物网络，提取数据库的基因相互作用关系（如：基因连贯度、基因在网络中的间隔），把基因的生物学属性整合到功能分析。利用网络拓扑构造来计算基因对特定生物通路的重要性并给予相应的权重，再利用传统的 ORA 或 FCS 办法来评估特定生物通路的富集水平，如 GANPA 和 LEGO。毛病就是算法太简单，计算速度慢。

GO 是一个国内标准化的基因功能分类体系，由基因本体联合会(Gene Ontology Consortium，GOC) 负责。它提供了一套动静并可控的词汇表（controlled vocabulary）来全面形容生物体中基因和基因产物的属性，它由一组事后定义好的 GO 术语（GO term）组成，这组术语对基因产物的性能进行限定和形容。
可在 GO 官网)应用的 AmiGO2 网站查问 GO ID 和 GO term 信息。之前罕用的 WEGO 2.0 也能够查问。

GO 由三个 ontology（本体）组成，是由独立的术语示意的，别离形容基因的细胞组分（cellular component，CC）、分子性能（molecular function，MF）、参加的生物过程（biological process，BP）。

GO 这三个本体的含意：

细胞组成（cellular component，CC）

形容基因产物执行性能的细胞构造相干的地位，比方一个蛋白可能定位在细胞核中，也可能定位在核糖体中。

分子性能（Molecular Function，MF）

形容基因产物产生在分子程度上的流动，例如催化或运输。通常对应于单个基因产物（即蛋白质或 RNA）能够进行的流动。常见的宽泛的分子性能形容是催化活性 (catalytic activity) 和转运流动(transporter activity)。为了防止与基因产物名称混同，通常分子性能形容后加上 ”activity” 一词。

生物过程（biological process，BP）

形容的是指基因产物所关联的一个大的生物性能，或者说是多个分子流动实现的一个大的生物程序。例如有丝分裂或嘌呤代谢。

GO terms，它提供生物过程的逻辑构造与相干关系，不同 GO terms 之间的关系能够通过一个有向无环图来示意。

此处须要留神的是，GO terms 是对 基因产物，而不是基因自身进行形容，因为基因自身的产物有时候不止一种。GO 数据库中的 GO 分类相干信息会失去一直地更新与减少，这个特点要记住，因为不同的 GO 剖析工具应用的数据库版本有可能不一样，造成 GO 剖析后果呈现不同。

GO 正文（GO annotations）是对于特定基因功能的申明，它次要是将 GO terms 和基因或基因产物相关联来提供正文，也就是形容这个 GO terms 关联的基因产物是什么（蛋白质，还是非编码 RNA，还是大分子等），有什么性能，如何在分子程度发挥作用，在细胞中的哪个地位发挥作用，以及它有助于执行哪些生物过程(路径、程序)。

KEGG 是解决基因组，生物通路，疾病，药物，化学物质的数据库汇合，于 1995 年由京都大学化学研究所传授 Minoru Kanehisa 在过后正在进行的日本人类基因组打算下发动。
KEGG 是一种数据库资源，用于从基因组和分子级信息理解生物零碎（例如细胞、生物体和生态系统）的高级性能和效用。它是生物零碎的计算机示意，由基因和蛋白质（基因组信息）和化学物质（化学信息）的分子构建块组成，它们与相互作用、反馈和关系网络（零碎信息）的分子接线图常识相结合。它还蕴含疾病和药物信息（衰弱信息）作为对生物零碎的扰动。

KEGG 网站提供了 KEGG 信息查问入口，包含 KEGG Pathway 中查问 KEGG Pathway ID(ko00000)的详细信息。

KEGG 是一个集成的数据库资源，由如下所示的 16 个数据库组成。它们大抵分为零碎信息、基因组信息、化学信息和衰弱信息，它们通过网页的色彩编码来辨别。

<caption><h4>KEGG Database</h4></caption>

Category	Database	Content	Color
Systems information	KEGG PATHWAY	KEGG pathway maps	<font color=green>kegg3green</font>
	KEGG BRITE	BRITE hierarchies and tables
	KEGG MODULE	KEGG modules and reaction modules
Genomic information	KEGG ORTHOLOGY (KO)	Functional orthologs	<font color=yellow>kegg4 yellow</font>
	KEGG GENES	Genes and proteins	<font color=red>kegg1red</font>
	KEGG GENOME	KEGG organisms and viruses	<font color=red>kegg1red</font>
Chemical information	KEGG COMPOUND	Metabolites and other chemical substances	<font color=blue>kegg2blue</font>
	KEGG GLYCAN	Glycans
	KEGG REACTIONKEGG RCLASS	Biochemical reactionsReaction class
	KEGG ENZYME	Enzyme nomenclature
Health information	KEGG NETWORK	Disease-related network variations	<font color=purple>kegg5purle</font>
	KEGG VARIANT	Human gene variants
	KEGG DISEASE	Human diseases
	KEGG DRUGKEGG DGROUP	DrugsDrug groups

KEGG PATHWAY Database 是 KEGG 资源的外围，是一组手工绘制的 KEGG 通路图，代表细胞和生物体的推陈出新和各种其余性能的试验常识。每个通路图都蕴含一个分子相互作用和反馈网络，旨在将基因组中的基因与通路中的基因产物（次要是蛋白质）分割起来。

目前有许多程序能够用于富集剖析。包含 NASQAR,PlantRegMap,MSigDB,Broad Institute,WebGestalt,Enrichr,GeneSCF,DAVID,Metascape,AmiGO 2,GREAT,FunRich,FuncAssociate,InterMine,ToppGene Suite,QuSAGE,Blast2GO,g:Profiler。

能够依据须要剖析的物种类别和数据库更新抉择剖析平台，依据须要抉择先验基因集。

大部分富集分析程序都只反对已有数据库的物种的富集剖析，如果是不在反对物种列表里的物种，能够用富集剖析的 R 包做富集剖析。

上面介绍几种常见的。

NASQAR (Nucleic Acid SeQuence Analysis Resource)是一个开源的网页平台，能够用 R 包 clusterProfiler 做 GSEA 剖析，反对 Org.Db 数据库的所有物种的 GO Term 和 KEGG Pathway 富集剖析。

PlantRegMap，反对 165 种动物的 GO 正文和 GO 富集剖析。

Enrichr 是针对哺乳动物的基因富集剖析工具。能够通过 API 应用，并提供可视化后果。

GeneSCF 反对多个物种，实时的性能富集剖析工具。不须要额定更新数据库，GeneSCF 是实时最新的数据库，并且反对多物种富集剖析。后果以文本出现。

DAVID 是做正文，富集和可视化的整合的数据库。但正文数据库自从 2016 年 10 月就没有更新。

Blast2GO 能够做组学数据的性能正文和 GSEA 剖析。

KOBAS 是中科院和北大联合开发的做性能正文和 GSEA 剖析的工具。
目前曾经发表了第三个版本，KOBAS-intelligence(KOBAS-i)，KOBAS- i 引入了之前公布的基于机器学习的新办法 CGPS，并扩大了可视化性能，反对的物种减少到 5944 个。
KOBAS 蕴含正文模块和富集模块。
正文模块承受基因列表作为输出，包含 ID 或序列，并依据通路、疾病和 GO 信息等多个数据库为每个基因生成正文。
富集模块给出了对于哪些通路和 GO 术语与输出基因列表或表白在统计上显着相干的后果。有两种不同的富集剖析可用，命名为基因列表富集和 exp-data 富集。
KOBAS- i 有网页版，也有本地版。

给了两个可用的网址：http://kobas.cbi.pku.edu.cn/，http://bioinfo.org/kobas。
KOBAS-i。

3.7.2.1. 正文 (annotation) 和富集 (Enrichment) 的步骤

输出
正文只有三个输出项：
抉择物种。

目前反对 5944 个物种。

抉择输出基因集数据类型。

反对核苷酸或者蛋白质的 fasta 序列，blast 的 Tabular 输入后果，Ensembl Gene ID，Entrez Gene ID，UniProtKB AC，Gene Symbol。

输出基因集。

能够粘贴文本，也能够上传文件。

富集除了须要下面三个输出项外，还须要抉择用哪写先验基因集的数据库来做富集剖析。包含 PATHWAY,DISEASE,GO。其中 KEGG Pathway 是所有物种都能够用，其余的只有部份物种能够选。

PATHWAY。有四个选项，KEGG Pathway(K),Reactome(R),BioCyc(B),PANTHER(p)。
DISEASE。
有三个选项，OMIM(o),KEGG Disease(k),NHGRI GWAS Catalog(N)
GO(G)

此外还有高级选项，能够抉择统计学办法和纠错办法。

而后点击 Run，就能够期待运行后果了。

后果
运行完结后，点击右上角的 Download total terms 就能够下载到后果。
富集剖析还能够点击 Visualization 失去后果的可视化图。

在线工具 GOEAST

如果是模式物种，或者已有数据库的物种，举荐在线网站 PlantRegMap 和 KOBAS- i 做 GO 和 KEGG 的富集剖析。

常见的有 topGO，clusterProfiler，有一些进行富集剖析的程序应用了这些包。

用 topGO 做富集剖析的具体教程能够查看博文 blog_topGO。

topGO 是一个 R 包，用于半自动的 GO terms 的富集剖析。topGO 的后果能够展现为有向无环图。

<p align=”center”>Figure 1. DAG 图示例
from wikipedia:directed acyclic graph</p>

注：对每个 GO 节点进行富集，在图中用方框示意显著度最高的 10 个节点，图中还蕴含其各层对应关系。每个方框（或椭圆）内给出了该 GO 节点的内容形容和富集显著性值。不同色彩代表不同的富集显著性，色彩越深，显著性越高。

clusterProfiler 包的具体应用参考博文 blog_clusterProfiler。

clusterProfiler 是一个 R 包，是一个解释组学数据的通用富集工具，反对 Gene Ontology(GO), Kyoto Encyclopedia of Genes and Genomes(KEGG), Disease Ontology(DO), Disease Gene Network(DisGeNET), Molecular Signatures Database(MSigDb), wikiPathways 和许多其余的基因集的性能正文和富集剖析，以及富集剖析后果的可视化。2021 年 07 月公布了 clusterProfiler 4.0 版本。

Gene Ontology(GO)
Kyoto Encyclopedia of Genes and Genomes(KEGG)
Disease Ontology(DO)
Disease Gene Network(DisGeNET)
Molecular Signatures Database(MSigDb)
wikiPathways

Over Representation Analysis, ORA

ORA 是用于判断已知的生物性能或过程在试验产生的基因列表（例如差别表白基因列表, differentially expressed genes, DEGs）中是否过表白 (over-represented=enriched) 的罕用办法。

Gene Set Enrichment Analysis, GSEA
Leading edge analysis and core enriched genes

GSEA wiki：https://en.wikipedia.org/wiki…
paper-Ten Years of Pathway Analysis: Current Approaches and Outstanding Challenges：https://journals.plos.org/plo…
paper-Progress in Gene Functional Enrichment Analysis：https://www.sciengine.com/SSV…
enrichment analysis：https://www.jianshu.com/p/be8…
enrichment analysis methods：https://www.jianshu.com/p/042…
enrichment analysis methods：https://blog.csdn.net/fjsd155…
GOEAST introduction：https://mp.weixin.qq.com/s?__…
topGO tutorial：https://bioconductor.org/pack…
topGO blog：https://datacatz.wordpress.co…
R topGO：https://www.codenong.com/cs10…
enrichment：https://www.jianshu.com/p/47b…
GO explanation：https://www.jianshu.com/p/717…
GO overview：http://geneontology.org/docs/…
KEGG：https://en.wikipedia.org/wiki…
clusterProfiler github：https://github.com/YuLab-SMU/…
universal enrichment analysis using clusterProfiler：http://yulab-smu.top/biomedic…
clusterProfiler paper：https://www.cell.com/the-inno…(21)00066-7?_returnURL=https%3A%2F%2Flinkinghub.elsevier.com%2Fretrieve%2Fpii%2FS2666675821000667%3Fshowall%3Dtrue

关于数据分析:富集分析一概述

1. 富集剖析

1.1. 富集剖析概念

1.2. 富集剖析的算法

1.2.1. 过表白剖析(Over Representation Analysis, ORA)

1.2.2. 性能分类打分(Functional Class Scoring,FCS)

1.2.2.1. 性能分类打分(FCS)

1.2.2.2. 基因富集剖析(gene set enrichment analysis, GSEA)

1.2.3. 通路拓扑(Pathway Topology,PT)

1.2.4. 网络拓扑构造(Network Topology,NT)

2. 富集剖析罕用基因集

2.1. Gene Ontology(GO)

2.1.1. GO

2.1.2. GO terms

2.1.3. GO annotations

2.2. Kyoto Encyclopedia of Genes and Genomes(KEGG)

2.2.1. KEGG

2.2.2. KEGG Database

2.2.3. KEGG PATHWAY Database

3. 富集分析程序

3.1. NASQAR

3.2. PlantRegMap

3.3. Enrichr

3.4. GeneSCF

3.5. DAVID

3.6. Blast2GO

3.7. KOBAS-i

3.7.1. KOBAS- i 简介

3.7.2. KOBAS- i 网页版【举荐】

3.7.2.1. 正文 (annotation) 和富集 (Enrichment) 的步骤

3.8. GOEAST

4. 富集剖析的 R 包

4.1. topGO

4.2. clusterProfiler

4.2.1. clusterProfiler

4.2.2. clusterProfiler 反对的基因集(gene sets)

4.2.3. clusterProfiler 性能 —— enrichment analysis

5. references