BN和LN

BN 的参数计算是以一个 mini batch 为组的，每一层的输出 $Z= R^{batch\_size,hidden\_size}$ 在进激活函数之前，针对每一个神经元，即每一个输出 $Z_i = R^{batch\_size,1}$ 做统计归一。统计指标为每个 batch 的输出的一个维度的均值和方差，对应的会有两个 hidden_size 维的向量:
$$\mu_{Z_i} = \frac{1}{batch\_size} \sum\limits^{batch\_size}_{j=1} Z_{i,j} $$
$$\sigma_{Z_i}=\sqrt{\frac{1}{batch\_size}\sum\limits_{j=1}^{batch\_size}(\mu_{Z_i} – Z_i)^2} $$
BN 的更新
BN 得到两个参数向量后会对该层的输出 $Z$ 做变换，即更新该层的输出到一个合理的分布上。更新分两步，1. 变换到一个均值为 0 方差为 1 的分布上(针对的是每一维度)。2. 再做一次平移和缩放操作，这一步是通过一个线性变换得到的，平移参数可学习。两步更新后再过激活函数。
$$ Z’_i = \frac {Z_i – \mu_{Z_i}}{\sigma_{Z_i}} $$
$$ Z”_i = gZ’_i+b $$
BN 特点:
- 所有的操作都是在一个维度上进行的，参数的计算依赖于 batch_size
- 倾向于认为同一位置的特征的同一维度的信息应该具有相同的分布，也可以认为同一位置的特征具有相同分布。
- 因为参数和 batch_size 相关，batch_size 太小会带来分布和整体不一致的问题。故 train 的 batch_size 不适宜太小，且需尽量打散，以保证分布和整体接近。
- 在 infer 阶段和 train 阶段会有不一样的策略。infer 阶段往往只有一个样本，再去求参数，明显不可行，所以一般会在 train 阶段迭代的更新 $\mu 和 \sigma$ 参数，以估计所有训练样本的参数，且存下来，作为 infer 阶段使用的参数。

LN 的计算是在单个样本级别上做的 normlize。对每一层的输出 $Z= R^{batch\_size,hidden\_size}$ 在激活之前，针对每一个样本 $Z_j = R^{1,hidden_size}$ 求参数 $\mu 和 \sigma$，求取方式和 BN 类似，只是方向不同。最终 batch_size 个样本得到 batch_size 组参数。
LN 的更新，依据每个样本的参数逐个更新各个样本的每一维度。然后做同样的缩放和平移。平移参数和缩放参数可学习。
LN 特点:
1. 所有的操作都是在单个样本上计算的，所以不依赖于 batch_size，所以不用存储 $\mu 和 \sigma$ 参数到 infer 阶段。train 和 infer 一致。
2. 倾向于认为一个样本内部的所有 feature 是相似的，可以直接在样本内各个维度上 norm。这一假设在 nlp 任务中比较得到明显。一个句子的各个特征就是各个字词处理后得到的，基本是相似的。但假如输入特征是类似年龄，性别，身高这种多个不同特征 concat 起来的，再直接求样本内部的 norm，由于各个 feature 的分布不一样，就会存在很大的问题。

BN 不太适合 NLP 任务中的不定长类任务。
1. 不定长的样本，在靠后位置的有效样本会变少，相当于变相的 batch_size 在变小。
2. 在 RNN 类的循环网络中，越往后相当于样本越长，有效样本越少，BN 效果会变差。
3. 在 infer 阶段如果一个很长的样本在 train 阶段没有见过，则会找不到对应的参数。
LN 比较适合 NLP 任务
1. 变长样本处理起来无问题。
2. 一个样本的各个特征一般是比较相似的，如一个句子的特征是各个字，concat 后，各个维度的分布也是一致的。
3. 在 TF,pytoch 等的实现中，LN 一般是针对最内层的向量内部做 norm 参数。如 [batch_size,seq_len,hidden_size] 这样的一个输出，在 LN 时，是针对最内层的 hidden_size 个神经元求参，更是不会和 padding 的 feature 起冲突。而 BN 相当于在一个 [batch_size*seq_len,hidden_size] 的矩阵上做 BN，这时求均值方差时会把 padding 的样本也算进去。
LN 和 BN 都需要两步变换，第一步变换得到一个 $\mu=0 且 \sigma=1$ 的分布, 这一步目的把神经元的输出变换到一个比较均衡的分布上，达到参数稳定的目的。第二部通过两个可学系参数 (tf 中的 $\gamma 和 \beta $) 做缩放和平移，以期恢复原数据的表达的能力。

Batch Normalization

Layer Normalization

对比