关于后端:文献阅读RNAseq数据归一化

最近始终在做 lncRNA 的剖析，其中的 lncRNA 的差别表白剖析中，须要对 reads count 进行归一化，之前没有思考很多，就用的通常的流程：

hisat2→stringtie→prepDE.py/featureCount→DESeq2

其中的 DESeq2 的归一化局部，也是咱们通常称的标准化，是咱们关注的重点，DESeq2 次要原理：通过计算一个 归一化因子 ，并进行变换，进而 进步中等表白基因的位置 。
归一化和标准化总是搞不清，我还顺便查了二者的共性和区别：

共性：归一化和标准化实质上都是一种线性变换。线性变换放弃线性组合与线性关系式不变，这保障了特定模型不会生效，归一化和标准化的实质都是缩放和平移。区别：他们的区别直观的说就是归一化的缩放是“拍扁”对立到区间（0-1），而标准化的缩放是更加“弹性”和“动静”的，和整体样本的散布有很大的关系。

下文对立应用归一化。

这篇文献是我在查问归一化办法的时侯，Github 上一个网友举荐《Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data》，翻译过去就是：
《Illumina 高通量 RNA-seq 数据差别剖析的归一化办法比拟》。

上面开始介绍这篇 2015 年发表在 BMC Bioinformatics 文献。

如果感觉后面内容太多，能够间接跳到最初看总结。

RNA-seq 技术的疾速倒退和测序老本的升高使其成为一种广泛应用的基因表白定量技术。因为归一化在 RNA-seq 数据分析中的重要性，人们提出了各种归一化办法。
归一化办法：

非丰度预计）的归一化办法（non-abundance normalization
    1. RC（row count）：每个基因的原始计数是所有 run 基因计数的总和。2. UQ（upper quartile）：上四分位数是通过对所有样本的基因计数利用 0.75 的上四分位数来计算的，次要在芯片测序数据中应用。3. Med（median）：中位数计算为所有样本基因计数的中位数。4. TMM（Trimmed mean of M-values normalization）：M 值的 trim 均值是一种用于 RNA-seq 数据差别表白剖析的标度归一化办法。这种归一化办法是在 R 包 edgeR 中实现的。应用包中的 CalcNormFactors 函数计算缩放因子（scaling factors），而后通过将基因计数除以每次运行的每个缩放因子来取得从新缩放的基因计数。TMM 是所有样品 从新缩放(rescaled) 基因计数的总和。5. DESeq：DESeq 是一种基于负二项分布模型的差异基因表白分析方法，方差和均值通过部分回归分割起来，并给出了一个也给出比例因子(scale factors) 的实现。它在 DESeq 包中，通过 EstimateSizeFactorsFormatrix 函数，能够计算每次运行的缩放因子。将基因计数除以每个标度因子后，DESeq 值被计算为所有样品从新缩放基因计数的总和。6. Q (quantiles)：分位数以前被用来归一化数组之间的单通道或 A -value 芯片数据。R 包 limma 中的 normalizequantiles 函数将矩阵的列归一化为具备雷同的分位数。这里，咱们将函数输入的总值设置为分位数的归一化值。7. RPKM：这种办法通过对总转录本长度和测序 reads 数进行归一化，从 RNA-seq 数据中量化基因表白。RPKM 值能够应用以下定义轻松计算：

    8. ERPKM:：RPKM 的变形体，采纳 effective transcript length，然而作用不大。因为 reads 的长度不为零，而 reads 概率取决于无效长度，咱们应用无效 reads 长度计算了每千贝每百万映射 reads 的无效转录本。![](https://files.mdnice.com/user/36119/1fffe664-101b-40dc-b91e-a860cfbe5a0b.png)

丰度预计的归一化办法（abundance normalization）：应用机器学习算法进行丰度预计
     RSEM: 不同于以往的归一化办法。提出了一种联合冀望最大化算法的有向图模型来预计丰度。RSEM 提供了一个从 RNA-SEQ 数据中量化基因丰度的软件包，因而咱们通过筹备参考转录本数据和输出 RNA-SEQ 数据计算 RSEM 值来生成参考指数。Sailfish：在丰度预计中，被介绍为无比对。它利用 K -MER 的概念对 RNA-Seq reads 进行索引和计数。在这里，咱们应用偏置后的预计 K -MERS 数作为预计计数。

对目前存在的归一化办法进行比拟，以便为未来的试验抉择最合适的办法产生适合的指导方针。

== 艰深解释：==
用试验测量的 qRT-PCR 值 和每种归一化计算出的RNA-seq 的丰度（或者能够了解为归一化后的 reads count）预测进行比拟, 用能够评估 数据相关性 的统计办法，来评估每种归一化办法计算结果的 准确性。

【这里我是存在纳闷的，qRT-PCR 试验中也存在误差，其数据后果是否可行，反复了几次，文中作者仅应用原作者数据进行的评估，本人没有理论做试验失去 qRT-PCR 数据】

== 学术解释：==
用 Shapiro-Wilk 正态性测验QRT-PCR 值的散布和所有的归一化后果。
依据 P 值 <0.05 的检测后果，QRTPCR 值和归一化后果均不呈正态分布。
为了对数据进行形容，咱们应用 Spearman 的秩相关系数，通过计算每种归一化办法的 RNA-Seq 丰度预测与测量的 QRT-PCR 值之间的相似性来评估性能。

Spearman 相关系数作为一种非参数办法来度量两个变量之间的线性相关性。它被计算为数据秩上的皮尔逊相关系数。对于一组大小为 n 的基因和相应的 n 个原始数据，变量 x 为 QRT-PCR 基因表白值，变量 y 为归一化办法 的后果，相干Rs 应用上面的公式计算。

Spearman 相关系数将产生 + 1 和 - 1 之间的值，其中 + 1 示意总的正相干，0 示意不相干，而 - 1 示意总的负相关。最靠近 + 1 或 - 1 的值示意最高的相关性，因而也是最好的归一化后果。

高通量 RNA-seq 数据收集自 NCBI 数据库中的 SRA (Sequence Read Archive) 数据库，如果本人的实验室没有条件进行测序，又想做数据分析，能够在这个数据库下载数据，本人解决和剖析。

脑组织 (HBR) 和组织类型混合物 (UHR) 的原始 RNA-seq 数据
    35 bp reads length SRA010153.1
    76 bp reads length SRA039286

个别当初的测序数据都是 reads length 或者说插入片段长度都是 150 或者 151 bp 的双端测序数据。

Spearman 相干剖析显示，无论 reads 长度如何，RC，UQ，Med，TMM，DESeq 和 Q 都没有明显改善基因表白正常化。
ERPKM 并没有获得比 RPKM 更好的后果。应用无效的转录本长度显然不能改善归一化后果
在试验后果中，RPKM 联合 Salifish 的归一化办法简直能够取代 qRT-PCR 测量。而对于 76 bp 序列数据，采纳无丰度预计归一化办法的 RC 取得了最好的后果，其次是相关性类似的 RSEM；Salifish 办法产生了更差的相干值。
从比拟后果来看，归一化办法并不是所有序列数据都必须的。TMM、DESeq 和 Q 等样本间归一化办法无论 reads 长度如何都不能显著进步基因表白，但当比对精度较低时，RPKM 可能更无效。
对于 35 bp 的 reads 数据，在两种丰度预计归一化办法中，Salifish 办法与 RPKM 联合的归一化后果比 RSEM 更好，因为它没有比对，也是一种相当高效的组合。然而，== 当比对精度较高时，RC 仿佛足够用于理论试验中的基因表白计算。==
表 1 给出了八种非丰度预计归一化办法（未利用丰度预计归一化）的 Spearman 相关系数后果。

表 2 给出了联合 RC 和 RPKM 的两种丰度预计办法（RSEM 和 Salifish 办法）的 Spearman 相关系数后果。

换句话说，通过减少 Poly- A 尾长，能够将更多的 reads 映射到一个参考转录本。
总之，抉择适合的 Poly- A 尾部长度能够改善差别剖析；然而，基于本钻研中察看到的最小效应，Poly- A 尾长可能能够忽略不计。

对于 reads 长度为 35 bp 的样本，在 8 种非丰度预计归一化办法中，RPKM 的相干值高于 RC、UQ、MED、TMM 和 Q，证实在归一化中思考转录本长度是相当无效的。
- 这个后果在咱们进行短序列测序，例如 miRNA 测序的时侯就能够作为参考，个别的 miRNA 定量用的是 RPM，华中农大夏瑞老师课题组开发的 sRNAminer 中用的是RP10M（reads per 10 million），也就是说，RPM 次要利用于 sRNA（sRNA 长度变动不大），来打消测序深度 bias；而 RPKM/FPKM 利用范畴会更宽泛，用于同时打消长度及测序深度这两种 bias。
通过应用无效转录本长度，ERPKM 与 RPKM 相比并没有改善归一化后果。在联合丰度预计归一化办法后，对归一化后果进行了改良。特地是 RPKM 和 Salifish 联合，咱们倡议研究者在将来的剖析中作为一种归一化办法，简直能够取代 QRT-PCR，因为察看到了近 0.8 的相关性。而且，Salifish 是无比对的，比 RSEM 更节省时间。RSEM 也产生了良好的成果。
- 这预计是 ERPKM 没有 RPKM 风行的起因，因为 effective transcript length 并没用什用，当初 TPM 准确性更高，应用的更频繁，TPM 和 RPKM 计算公式雷同。
  - TPM 与 RPKM 的区别：惟一的不同是计算操作的程序，TPM 是先去除了基因长度的影响，而 RPKM/FPKM 是先去除测序深度的影响，TPM 实际上改良了 RPKM 办法在不同样品间定量的不准确性。
然而，对于 reads 长度为 76bp 的样本，没有一种归一化办法改善相干后果。因而，咱们得出结论，当比对精度较高时，RC 足以用于理论试验中的基因表白计算。另外，Poly- A 尾的影响试验是通过在转录本数据中增加腺嘌呤（0-25），结果表明，抉择适当的 poly- A 尾部长度能够改善差别剖析，但在本钻研中仿佛没有影响。因而，咱们倡议研究者在基因差别表白剖析的归一化步骤中不须要思考 ploy-a tails。
- 当初有参考基因组的物种比对精度都比拟高，因为 RNA-seq 测序品质曾经不是问题，因而能够应用 Row count 作为基因表白的计算，而后计算一下 Fold Change，再取对数，比方我当初的这个课题就齐全实用。
  计算方法如下：
```
  E = mean(group1) 
  B=mean(group2)
  FC = (E-B) / min(E,B)
```

Li P, Piao Y, Shon HS, Ryu KH. Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data. BMC Bioinformatics. 2015 Oct 28;16:347. doi: 10.1186/s12859-015-0778-7. PMID: 26511205; PMCID: PMC4625728.
deweylab/RSEM: RSEM: accurate quantification of gene and isoform expression from RNA-Seq data (github.com)
【生信】【转录组】RSEM 转录本定量 – 知乎 (zhihu.com)

本文由 mdnice 多平台公布

关于后端:文献阅读RNAseq数据归一化

一、背景和目标

1.1 背景：

1.2 目标：

二、办法和资料

2.1 办法

2.2 资料

后果

3.1 归一化办法的比拟

3.2 增加 poly-A tails 的比拟

四、总结

参考文献