关于后端:文献阅读RNAseq数据归一化

最近始终在做lncRNA的剖析，其中的lncRNA的差别表白剖析中，须要对reads count 进行归一化，之前没有思考很多，就用的通常的流程：

hisat2→stringtie→prepDE.py/featureCount→DESeq2

其中的DESeq2 的归一化局部，也是咱们通常称的标准化，是咱们关注的重点，DESeq2次要原理：通过计算一个归一化因子，并进行变换，进而进步中等表白基因的位置。
归一化和标准化总是搞不清，我还顺便查了二者的共性和区别：

共性：归一化和标准化实质上都是一种线性变换。线性变换放弃线性组合与线性关系式不变，这保障了特定模型不会生效，归一化和标准化的实质都是缩放和平移。区别：他们的区别直观的说就是归一化的缩放是 “拍扁” 对立到区间（0-1），而标准化的缩放是更加 “弹性” 和 “动静” 的，和整体样本的散布有很大的关系。

下文对立应用归一化。

这篇文献是我在查问归一化办法的时侯，Github上一个网友举荐《Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data》，翻译过去就是：
《Illumina 高通量 RNA-seq 数据差别剖析的归一化办法比拟》。

上面开始介绍这篇2015年发表在 BMC Bioinformatics 文献。

如果感觉后面内容太多，能够间接跳到最初看总结。

一、背景和目标

1.1 背景：

RNA-seq 技术的疾速倒退和测序老本的升高使其成为一种广泛应用的基因表白定量技术。因为归一化在RNA-seq 数据分析中的重要性，人们提出了各种归一化办法。
归一化办法：

非丰度预计）的归一化办法（non-abundance normalization    1. RC（row count）：每个基因的原始计数是所有run基因计数的总和。     2. UQ（upper quartile）：上四分位数是通过对所有样本的基因计数利用0.75的上四分位数来计算的，次要在芯片测序数据中应用。     3. Med（median）：中位数计算为所有样本基因计数的中位数。    4. TMM（Trimmed mean of M-values normalization）：M值的 trim 均值是一种用于RNA-seq 数据差别表白剖析的标度归一化办法。 这种归一化办法是在R包 edgeR中实现的。 应用包中的 CalcNormFactors 函数计算缩放因子（scaling factors），而后通过将基因计数除以每次运行的每个缩放因子来取得从新缩放的基因计数。 TMM是所有样品 从新缩放(rescaled) 基因计数的总和。     5. DESeq：DESeq是一种基于负二项分布模型的差异基因表白分析方法， 方差和均值通过部分回归分割起来，并给出了一个也给出比例因子(scale factors) 的实现。 它在DESeq包中，通过 EstimateSizeFactorsFormatrix函数，能够计算每次运行的缩放因子。 将基因计数除以每个标度因子后，DESeq值被计算为所有样品从新缩放基因计数的总和。     6. Q (quantiles)：分位数以前被用来归一化数组之间的单通道或A-value 芯片数据。 R包limma中的normalizequantiles函数将矩阵的列归一化为具备雷同的分位数。 这里，咱们将函数输入的总值设置为分位数的归一化值。     7. RPKM：这种办法通过对总转录本长度和测序 reads 数进行归一化，从RNA-seq数据中量化基因表白。 RPKM值能够应用以下定义轻松计算：

    8. ERPKM:：RPKM的变形体，采纳effective transcript length，然而作用不大。因为reads的长度不为零，而reads 概率取决于无效长度，咱们应用无效reads长度计算了每千贝每百万映射reads的无效转录本。![](https://files.mdnice.com/user/36119/1fffe664-101b-40dc-b91e-a860cfbe5a0b.png)丰度预计的归一化办法（abundance normalization）：应用机器学习算法进行丰度预计     RSEM: 不同于以往的归一化办法。 提出了一种联合冀望最大化算法的有向图模型来预计丰度。 RSEM提供了一个从RNA-SEQ数据中量化基因丰度的软件包，因而咱们通过筹备参考转录本数据和输出RNA-SEQ数据计算RSEM值来生成参考指数。      Sailfish：在丰度预计中，被介绍为无比对。它利用K-MER的概念对RNA-Seq reads进行索引和计数。 在这里，咱们应用偏置后的预计K-MERS数作为预计计数。

1.2 目标：

对目前存在的归一化办法进行比拟，以便为未来的试验抉择最合适的办法产生适合的指导方针。

二、办法和资料

2.1 办法

==艰深解释：==
用试验测量的 qRT-PCR值 和每种归一化计算出的RNA-seq的丰度（或者能够了解为归一化后的 reads count）预测进行比拟, 用能够评估 数据相关性 的统计办法，来评估每种归一化办法计算结果的准确性。

【这里我是存在纳闷的，qRT-PCR试验中也存在误差，其数据后果是否可行，反复了几次，文中作者仅应用原作者数据进行的评估，本人没有理论做试验失去 qRT-PCR 数据】

==学术解释：==
用Shapiro-Wilk正态性测验QRT-PCR值的散布和所有的归一化后果。
依据P值<0.05的检测后果，QRTPCR值和归一化后果均不呈正态分布。
为了对数据进行形容，咱们应用Spearman的秩相关系数，通过计算每种归一化办法的RNA-Seq丰度预测与测量的QRT-PCR值之间的相似性来评估性能。

Spearman相关系数作为一种非参数办法来度量两个变量之间的线性相关性。它被计算为数据秩上的皮尔逊相关系数。对于一组大小为n的基因和相应的n个原始数据，变量 x 为 QRT-PCR 基因表白值，变量 y 为归一化办法的后果，相干Rs 应用上面的公式计算。

Spearman相关系数将产生+1和-1之间的值，其中+1示意总的正相干，0示意不相干，而-1示意总的负相关。最靠近+1或-1的值示意最高的相关性，因而也是最好的归一化后果。

2.2 资料

高通量 RNA-seq 数据收集自NCBI数据库中的SRA (Sequence Read Archive) 数据库，如果本人的实验室没有条件进行测序，又想做数据分析，能够在这个数据库下载数据，本人解决和剖析。

脑组织(HBR)和组织类型混合物(UHR)的原始 RNA-seq 数据    35 bp reads length SRA010153.1    76 bp reads length SRA039286

个别当初的测序数据都是reads length 或者说插入片段长度都是 150或者151 bp的双端测序数据。

后果

3.1 归一化办法的比拟

Spearman相干剖析显示，无论reads 长度如何，RC，UQ，Med，TMM，DESeq 和Q 都没有明显改善基因表白正常化。
ERPKM并没有获得比RPKM更好的后果。应用无效的转录本长度显然不能改善归一化后果
在试验后果中，RPKM联合Salifish 的归一化办法简直能够取代qRT-PCR测量。而对于76 bp 序列数据，采纳无丰度预计归一化办法的RC取得了最好的后果，其次是相关性类似的RSEM； Salifish办法产生了更差的相干值。
从比拟后果来看，归一化办法并不是所有序列数据都必须的。 TMM、DESeq和Q等样本间归一化办法无论 reads 长度如何都不能显著进步基因表白，但当比对精度较低时，RPKM可能更无效。
对于35 bp的reads 数据，在两种丰度预计归一化办法中，Salifish办法与RPKM联合的归一化后果比RSEM更好，因为它没有比对，也是一种相当高效的组合。然而，==当比对精度较高时，RC仿佛足够用于理论试验中的基因表白计算。 ==
表1给出了八种非丰度预计归一化办法（未利用丰度预计归一化）的Spearman相关系数后果。

表2给出了联合RC和RPKM的两种丰度预计办法（RSEM和Salifish办法）的Spearman相关系数后果。

3.2 增加 poly-A tails 的比拟

换句话说，通过减少Poly-A尾长，能够将更多的 reads 映射到一个参考转录本。
总之，抉择适合的Poly-A尾部长度能够改善差别剖析；然而，基于本钻研中察看到的最小效应，Poly-A尾长可能能够忽略不计。

四、总结

对于reads长度为35 bp的样本，在8种非丰度预计归一化办法中，RPKM的相干值高于RC、UQ、MED、TMM和Q，证实在归一化中思考转录本长度是相当无效的。
- 这个后果在咱们进行短序列测序，例如miRNA测序的时侯就能够作为参考，个别的miRNA定量用的是RPM，华中农大夏瑞老师课题组开发的sRNAminer 中用的是RP10M （reads per 10 million），也就是说，RPM次要利用于sRNA（sRNA长度变动不大），来打消测序深度bias；而RPKM/FPKM利用范畴会更宽泛，用于同时打消长度及测序深度这两种bias。
通过应用无效转录本长度，ERPKM与RPKM相比并没有改善归一化后果。在联合丰度预计归一化办法后，对归一化后果进行了改良。特地是RPKM和Salifish联合，咱们倡议研究者在将来的剖析中作为一种归一化办法，简直能够取代QRT-PCR，因为察看到了近0.8的相关性。而且，Salifish是无比对的，比RSEM更节省时间。 RSEM也产生了良好的成果。
- 这预计是ERPKM没有RPKM风行的起因，因为effective transcript length 并没用什用，当初TPM准确性更高，应用的更频繁，TPM和RPKM计算公式雷同。
  - TPM与RPKM的区别：惟一的不同是计算操作的程序，TPM是先去除了基因长度的影响，而RPKM/FPKM是先去除测序深度的影响，TPM实际上改良了RPKM办法在不同样品间定量的不准确性。
然而，对于reads长度为76bp的样本，没有一种归一化办法改善相干后果。因而，咱们得出结论，当比对精度较高时，RC足以用于理论试验中的基因表白计算。另外，Poly-A尾的影响试验是通过在转录本数据中增加腺嘌呤（0-25），结果表明，抉择适当的poly-A尾部长度能够改善差别剖析，但在本钻研中仿佛没有影响。因而，咱们倡议研究者在基因差别表白剖析的归一化步骤中不须要思考ploy-a tails。
- 当初有参考基因组的物种比对精度都比拟高，因为RNA-seq测序品质曾经不是问题，因而能够应用 Row count 作为基因表白的计算，而后计算一下Fold Change，再取对数，比方我当初的这个课题就齐全实用。
  计算方法如下：
```
  E = mean(group1)   B=mean(group2)  FC = (E-B) / min(E,B)
```

参考文献

Li P, Piao Y, Shon HS, Ryu KH. Comparing the normalization methods for the differential analysis of Illumina high-throughput RNA-Seq data. BMC Bioinformatics. 2015 Oct 28;16:347. doi: 10.1186/s12859-015-0778-7. PMID: 26511205; PMCID: PMC4625728.
deweylab/RSEM: RSEM: accurate quantification of gene and isoform expression from RNA-Seq data (github.com)
【生信】【转录组】RSEM转录本定量 - 知乎 (zhihu.com)

本文由mdnice多平台公布