关于深度学习:Mel频谱和MFCC深入浅出

在音频畛域，mel 频谱和 mfcc 是十分重要的特色数据，在深度学习畛域通常用此特色数据作为网络的输出训练模型，来解决音频畛域的各种分类、拆散等业务，如端点侦测、节奏辨认、和弦辨认、音高追踪、乐器分类、音源拆散、回声打消等相干业务。

当然，针对深度学习音频畛域的业务，不是用下这两个特色、选几个网络、打个标签，放数据训练就完事了，仅仅基于 mel 频谱和 mfcc 这两个特色，解决好上述业务某些状况下还是远远不够的，相熟这些特色的外在逻辑性、衍生细节和延展，能力更好的联合深度学习解决业务问题。

上面解说 mel 频谱和 mfcc 特色的算法流程和一些细节、延展，这些细节从部分角度来看，都会影响到最终特色出现的细节差别，这些差别放大到模型训练后果的准确性、鲁棒性上怎么样是十分值得钻研的，某些状况下可能会有质的变动，质的变动无论正向还是负向都是值得关注的，最怕的是没变动；同时，一些问题的延展从狭义角度来看，带来不同的特色组合、网络结构设计思考等也是解决业务问题十分重要的思维源泉。

设 sr 为采样率，fftLength 为帧长度，slideLength 为滑动长度

上面是一张 mel 频谱和 mfcc 的大略算法流程图。

如流程图所示的第 1 步，属于信号的预处理，弥补高频重量损失，晋升高频重量，个别状况下能够疏忽此步骤，属于信号的简略加强，对特色有肯定的晋升成果。公式如下

$$x[n]=x[n]-\alpha x[n-1]$$

$\alpha$个别取 0.97
公式属于差分一阶即高通滤波器。

事实中大多数信号都是非安稳的，但大多数短时间内能够近似看做是安稳的，能够用短时傅里叶变换体现非安稳信号频域特色。个别语音中采纳 10ms~30ms 左右，噪音中能够更长一些 64ms~256ms。

分帧波及到前后重叠（overlap），个别状况下以滑动帧长的 1 / 4 或 1 /2（前后重叠 3 / 4 或 1 /2）进行，即 $slideLength=\cfrac{fftLength}4 或 \cfrac{fftLength}2$。

加窗目标是缩小频谱泄露，升高透露频率烦扰，晋升频谱成果，默认不解决即加矩形窗（Rect），烦扰透露较重大，个别状况下加 Hann 窗，针对大多数信号都有不错的成果。公式如下
$$w(n)=0.5\left(1-\cos \left(2\pi \cfrac n{N} \right)\right) , 0 \le n \le N$$

Hann 为余弦窗，N 示意阶数。

分帧加窗傅里叶变换即短时傅里叶变换。公示如下
$$X(\tau,f)=\int_{-\infty}^\infty x(t)w(t-\tau)e^{-j2\pi f t}dt $$
$$X(m,k)=\sum_{n=0}^{N-1} x[n]W[n-m]e^{\frac{-j2\pi kn}{N} }$$

设数据长度为 dataLength，
t=$\begin{cases} \cfrac{(dataLength-fftLength)}{slideLength}+1, & 无填充 \ \cfrac{dataLength}{slideLength}+1 , & 填充 fftLength\end{cases}$

STFT 属于规范的数学变换，为复数域，尺寸为 $t*fftLength$，为示意辨别，个别的如 $|X(m,k)|$ 取模，尺寸为 $t*(fftLength/2+1)$ 示意为 STFT 频谱，有以下类型频谱。

$|X(m,k)|$，STFT 幅值频谱
$|X(m,k)|^2$，STFT 功率频谱
$\log(|X(m,k)|)$，STFT dB（分贝）频谱
$20\log\left(\cfrac{|X(m,k)|}{fftLength}\right)$，STFT 规范 dB 频谱

注：

dB 频谱属于绝对谱，加减乘除对频率绝对 dB 值没影响，规范 dB 频谱相当于建设一个基准参考线，不便剖析频谱和量化，大多数频谱示例都是此种类型。
深度学习中应用 dB 谱训练大多数要优于其它数值类型的频谱。

此过程是计算 mel 频谱要害局部和 mfcc 的重要一步。流程图如下

mel 刻度（scale）是一种基于人耳听觉设计的 log 压缩刻度，人耳针对低频比拟敏感，高频不太敏感，比方 110hz 和 116hz 个别人都能辨别进去，但 4000hz 和 4100hz 大部分分不进去。mel 刻度和 hz 的转换公式如下
$$\begin{cases} mel=2595\log_{10}(1+\cfrac{hz}{700}) \\ hz=700(10^{\frac{mel}{2595}}-1) \end{cases}$$

图中前三个步骤即依据业务 fre 边界和 num 频带个数计算 mel 刻度下所映射的 freBandArr。
接下来就是 STFT 频带如何映射到 mel 刻度的频带，用频带加三角窗进行计算 mel 刻度的filterBank matrix，三角窗公式如下
$$w(n)=\begin{cases} \cfrac{2n}N, & 0 \le n \le \cfrac N{2} \\ 2-\cfrac{2n}N, & \cfrac N{2} \le n \le N \end{cases}$$

如下图

当然这个是对称的，线性频带用对称的没问题，mel 刻度产生的频带 log 比例，左右不会对称，这时候应用三角窗就是非对称的，上面是 mel 刻度的 filterBank matrix 公式
$$w(k,h)=\begin{cases} \cfrac{h-f_{k-1}}{f_k-f_{k-1}}, & f_{k-1} \lt h\le f_k \\ \cfrac{f_{k+1}-h}{f_{k+1}-f_k} , & f_{k} \lt h\le f_{k+1} \\ 0, & other \end{cases}$$

上面给出一个简略的示意图

最初，个别应用 STFT功率频谱和 filterBank matrix 做矩阵乘法运算即得出mel 功率频谱。

对上一步 mel 功率频谱 取 log 运算，即 mel dB 频谱 就是通常所应用的“mel 频谱”，个别状况下 5、6 步作为一个整体对待，合到一块能够了解为 mel 频谱的计算。

上面是 STFT 频谱和 mel 频谱（num=128）的成果比照图。

离散余弦变换，即数据为偶函数的实数傅里叶的变换，有去相干和能量集中特点。公式如下
$$X[k]=\sum_{n=0}^{N-1}x[n]e^{\frac{-j2\pi kn}{N} }=\sum_{n=0}^{N-1}x[n] \left[\cos(\frac{2\pi kn}{N} )-j\sin(\frac{2\pi kn}{N} ) \right] $$

当 $\sin(\theta)=0$，即 DCT 变换，$\cos(\theta)=0$，即 DST 变换。

DCT 变换，属于数据高度去相干后的特色反映，因为能量集中的特点，在数据压缩畛域宽泛罕用，个别的，DCT 思考到数据解析延拓时两头点选取、边界、形式等状况有 8 种对应变换，罕用的为 DCT-II 变换，公式如下
$$X(k)=\sum_{n=0}^{N-1}x[n]\cos\left[\frac \pi{N}(n+\frac{1}2)k\right]$$

mel 频谱通过 DCT 变换后失去倒谱系数（cepstral coeffs）即MFCCs。

能量和 delta 的计算属于 mfcc 特色体系下的可选操作。
能量特色相当于给 mfcc 加上 bias 偏置，具备肯定抗噪作用，公式如下
$$energy=\sum_{n=1}^N x^2[n] =\frac{1}{N}\sum_{m=1}^N |X[m]|^2$$

依据公式，能够从时域计算，也能够基于频域计算，很显著，这样计算出的后果动静范畴太小，个别针对后果取 log 运算即 $energy=\log(\sum_{n=1}^N x^2[n] )$，又称 log 能量，能够替换首个 mfcc 直流重量值或首地位追加。

delta 是计算数据的变动，基于以后点区域的部分斜率最小二乘近似值，公式如下
$$delta=\cfrac{\sum_{k=-M}^Mkx[k]}{\sum_{k=-M}^Mk^2}$$

M 为阶数，为奇数，个别取 9

针对 mfcc 计算其 delta，而后再计算 delta 的 delta，能够侦测 mfcc 状态的变动，变动的变动，能够作为 mfcc 的两组辅助特色参加网络模型的训练，某些状况下起到更好的准确性和泛化能力。

mfcc 相干效果图如下

综上所有，详细描述解释了 算法流程 中每一步计算流程，上面将对一些步骤流程波及到的细节思考点和延长点做深刻的开展。

针对下面 预减轻 形式而言，实质上是一个高通滤波器，是衰减低频的，自身并不会晋升高频，“弥补高频重量损失，晋升高频重量”并不太谨严但比拟形象，衰减低频相对来说就是变相晋升高频，是缩减高低频动静范畴的。

为什么要缩减高低频动静范畴，有没有更好的形式，答案就是 weight- A 计权。

下面有提到“人耳对低频比拟敏感，高频不太敏感”，这个敏感是针对频率分辨而言的，针对频率的强度而言，这句话是反过来的即人耳对高频比拟敏感，低频不太敏感，以吉他乐器为例，用同样力度拨最粗和最细的弦收回的音，即物理上两者强度（振幅）是一样的，但听觉上高频比低频要响的多，人们用 weight- A 计权来量化这种“响度”的心理指标，数学上示意不同频段的 log 函数加减，成果如下图。

如图所示，整个频段不仅有衰减、还有真正的晋升区域。

针对一些业务的深度学习模型训练，加 weight- A 计权能晋升 4%~5% 左右精度。

数据分帧波及到帧长和重叠两个问题，帧长决定频域的频率分辨率和时域的工夫分辨率，帧长越长，频域分辨率越准确，时域分辨率越含糊，但受限大多数信号自身非安稳特点不可能有限长，帧长越短，时域分辨率越准确，频域分辨率越含糊。

重叠问题，就是绝对以后帧滑动的问题，如下面分帧流程所述个别状况下滑动帧长的 1 / 4 或 1 /2，当然，滑动长度也能够等同帧长（前后重叠为 0），甚至超过帧长（没有重叠，前后跳跃）。

重叠多少还是不重叠还是跳跃，自身并不会晋升时域分辨率，能够了解为频谱 t 维度的不同工夫距离采样，滑动小相当于频谱图的插值升采样，滑动大相当于频谱图的抽取降采样，针对端点侦测业务频域的相干算法，滑动太小或跳动过大都不会有好的成果，如上面成果比照。

如图所见，紫色和绿色是滑动极小和跳动过大成果。

针对端点侦测相干业务，抉择适合帧长后，前后滑动个别没有重叠或少许跳动成果绝对好一些。

时域加窗目标是缩小频谱泄露，上述算法流程形容中，个别状况下加 Hann 窗，但窗函数有很多，如 Triang，Hann，Hamm，Guass，Kaiser，Flattop，Blackman 等等。

不同窗如何抉择，在深度学习一些业务中，不同窗的抉择对模型的训练和后果影响是怎么的，或者哪些窗在业务中是值得做尝试的。

Guass，Kaiser 十分值得尝试，公式如下
$$\begin{cases} guass(n)=e^{-n^2/2\sigma^2} =e^{-\frac12 \left( \alpha \frac{n}{(N-1)/2 } \right)^2} , -(N-1)/2 \le n \le (N-1)/2 \\ kaiser(n)=\cfrac {I_0 \left( \beta \sqrt{1- \left( { \cfrac {n-N/2}{N/2} } \right)^2 } \right) } {I_0(\beta)} , 0 \le n \le N \end{cases}$$

针对 Guass：

$\sigma=(N-1)/(2\alpha)$, 两者之间互为正比
默认 $\alpha=2.5$

针对 Kaiser：

$I_0(\beta)$为零阶第一类修改贝塞尔函数，可有上面公式级数计算，
$I_0(\beta)=1+\sum_{k=1}^{\infty} \left[\cfrac1{k!} \left (\cfrac \beta 2 \right)^k \right] ^2$，个别取 15 项左右
默认 $\beta=5$

Gauss，Kaiser 相比其它大多数窗而言，属于窗口可变窗，个别窗口宽度越大，分辨率越细，过渡带越小，但阻带衰减偏大；个别窗口宽度越窄，分辨率越大，过渡带越大，但阻带衰减偏小。

针对 Guass 和 Kaiser 这两种能够调整宽度的窗，在一些业务中能够抉择最大化旁瓣衰减，用相应的频谱特色训练深度学习业务模型时，可能会有不错的体现。

上述算法流程形容中，一般而言 5、6 步合到一起是规范的频谱出现后果，但从 功率频谱 非线性校对角度而言，
不止 log 函数一种，当然 log 是最重要最罕用的一种，能够用 cubic root（三次开方），类 Relu 等其它形式。

从深度学习角度来看，能够把类 mel 频谱当做一种网络层计算，log、cubic root 等非线性操作当做激活函数。

从这个角度来看，针对不同的业务，激活函数的不同抉择设计，对模型的训练和后果的影响有可能是翻天覆地的，在研发业务中是很值得关注测试的一个点。

mel 频谱如此出名，难道做音频畛域深度学习就只有 mel 频谱？当然不是，有些状况 mel 频谱不肯定是最优的。

如下面算法流程形容中 mel 刻度的解释，是一种基于人耳听觉设计的 log 压缩刻度，前面倒退出更精确人耳听觉模型刻度，Bark 和 ERB 刻度，公式如下
$$bark=\frac{26.81hz}{1960+hz}-0.53, \quad hz=1960(\frac{bark+0.53}{26.81-bark})$$
$$\quad erb=A\log_{10}{(1+0.00437hz)}, \quad hz=\frac{10^{\frac{erb}A}-1}{0.00437}$$

$A=\frac{1000\ln(10)}{(24.7)(4.37)}$

$$g(t)=at^{n-1}e^{-2\pi bt}\cos(2\pi f_ct+\phi)$$

公式中 $at^{n-1}e^{-2\pi bt}$ 局部为 $\Gamma$ 模式函数，$\cos$ 了解为 tone，称之为 gammatone。
个别状况下，人耳听觉模型中的 ERB 刻度和 gammatone filter 的 bandwidth 相关联，即 b 为 ERB 刻度的 bandwidth。

基于这个滤波器求频响非常复杂，只能给出近似公式，论文公式推导足足有 20 多页，已超过大部分人的钻研下限，即便拿论文的后果公式间接编程实现也不轻松。侥幸的是 audioFlux 开源我的项目有比拟规范的实现，感兴趣的敌人能够钻研一下。

除了上述刻度以外，还有基于噪音八度的 octave 刻度，更通用的 log 刻度等等，基于下面 算法流程，mel 刻度产生 mel 频谱和 mfcc 特色，同样的流程，bark/erb 等刻度产生对应的 bark/erb 频谱和相应倒谱系数，一些不同刻度频谱的比照图如下

更多的不同刻度频谱类型可尝试应用 audioFlux 库测试。

在一些业务中，比方乐器相干业务中，下面所有的刻度中，可能都会有一些小问题，针对低频的频带，可能有些曾经小于 STFT 的最小分辨率，这时候显然没意义，额定的造成干预发散成果；针对中频的频带，有些可能过大，分辨不够细；针对高频的频带，可能还不够大，分辨还是绝对过小。

上述情况下，在一些业务中，特定的一些网络结构中，中低频的分辨率差可能会导致训练模型的欠拟合，很难达到肯定准确度，或者高频的分辨率过小可能会导致训练模型的欠拟合，泛化能力差，呈现这种状况后能够尝试以下形式：

1，适当的减少数据集、调整网络结构和参数等通用形式。
2，减少不同维度的特色输出，让网络找到最优解或跳出部分最优解。
3，自定义刻度，既然明确起因，从特色自身优化上动手。

综上，不同 scale 下产生的频谱数据高低频细节、能量汇集、对比度都会有不同的差别，这种差别放大到一些业务实际中，模型的准确度和鲁棒性怎么样，就十分有尝试钻研价值。

在深度学习一些业务中，如果 mel 刻度下的相干特色能够出后果，应用 bark 相干特色替换，往往有肯定的成果晋升。

数字信号中，滤波器有根底的高通滤波器和低通滤波器，带通滤波器能够有低通和高通串联而成，Filter bank 能够了解为多个带通滤波器。

滤波器组是一个映射矩阵，示意 STFT 线性频带和不同刻度下的频带映射关系，至于怎么映射，就是算法流程形容第 5 步中的三角窗函数法，三角窗的 Filter bank 如下图所示

如上图所示，个别刻度产生的频带，低频带宽小，高频越来越大，意味着高频区域很长的一段频带都会参加以后频率重量的映射计算，绝对低频而言显然不太正当，这时候须要对 Filter bank 进行归一化解决。

归一化形式有以带宽和面积区域两种形式，以带宽形式归一化成果如下图

针对 Filter bank 的计算，难道就只有三角窗函数法，当然不是，能够应用 Rect，Hann，Hamm 等等这些窗函数，Gammatone 也是一种非凡的窗函数，某种角度上讲甚至能够不计算，上面是几种不同窗下 Filter bank 的比照图

上面是不同窗下的频谱比照图

图中 Slaney 和 ETSI 是两种不同类型的三角窗，其它更多窗类型测试可尝试应用 audioFlux 库。

窗函数重叠处解决有很多细化形式，频带前后窗都是有重叠的，个别的解决形式是重叠点前面不再参加之前计算，重叠点之前不再参加之后计算，如上面图所示

如果各个频带窗函数能够等比例缩放，这样的话对不同刻度下的频带都变成可调整的，窗函数不同的宽度抉择，对应时频分辨率不同的变动，联合 PWT（伪小波变换），就是另外一种 CWT 成果的等同变体，不同于 CWT 对波函数的限定要求，能够用更宽泛的窗函数钻研 CWT。

综上，针对 Filter bank 的计算，加什么窗？怎么加窗？何种归一化形式？应用这些组合产生出更多细粒度的不同特色，训练出模型准确性和鲁棒性如何，是十分值得尝试钻研的。

什么是倒谱系数，为什么 DCT 计算后是倒谱系数？

倒谱的规范公式定义如下
$$C(r)=F\{\log(F\{f(t)\})\}$$

数据通过 FFT 变换后取 log 后，再次 FFT 变换个别称为倒谱，更狭义的讲即时域数据通过 FFT 变为频域数据，频域数据再次
FFT 变换即倒谱变换。

DCT 是 DFT 的特例，所以 DCT 针对之前 FFT 后果再次变换合乎上述公式概念定义，也称倒谱系数；相比 DFT，DCT 能量较汇集，相当于频谱数据的再压缩，用小局部系数就能反映出数据的高度去相干的特色。

倒谱能够干什么？

能够估算音高，能够作为解卷积（deconv）的一种形式，拆散信号，计算包络（envelope）/ 共振峰（Formant）等等，
解卷积推导公式如下
$$\begin{cases} x(t)=g(t)*h(t) \\ F\{x(t)\}=X(\omega)=G(\omega)H(\omega) \\ \log X(\omega)=\hat X(\omega)=\hat G(\omega)+\hat H(\omega) \\ F^{-1}\{\hat X(\omega)\}=\hat x(k)=\hat g(k)+\hat h(k) \end{cases}$$

分数傅里叶变换（FRFT）

依据倒谱的定义，延展一下，是否屡次 FFT，屡次 FFT 的意义是什么，屡次变换引申如下
$$F^2=F(F(x))$$
$$F^n(x)=F^{(n-1)}(F(x))$$
设 $n=\frac{2\phi}\pi$，换元后定义
$$F_\phi(x)=F^{2\phi/\pi}(x)$$

援用 $\phi$后，FFT 变换的次数能够非整数即分数傅里叶变换，物理意义的体现就是旋转频谱肯定角度，能够多一个维度剖析频谱，同时也带来其它概念的延长，如分数卷积等等。

已经看到国外有一个做音频分类的一个小业务，网络输出包含时域的能量、均方根、过零率、均值、方差、协方差、偏度、峰度、矩、中值、中位数、相关系数等等数十种时域相干的统计特色，不管三七二十一，正当归一化后，扔给一个卷积网络跑模型训练，最初能达到 90% 以上准确率。

这种形式不能说是好还是坏，从业务后果上来说，把网络齐全当做一个黑箱，输出尽可能多的本身把握的各种特色，打好标签，扔给网络跑，只有能出后果就是好的。

如果把这种操作延展，在音频畛域特征选择上，一个体系的、全面的、多维度的任意不同粒度组合成一个灵便的大的特色数据，绝对繁多或大量组合的特色，作为网络输出训练模型是否更具备劣势，这个问题是值得思考钻研的。

针对大特色数据的训练，有以下几种形式能够尝试：
1，大特色数据正当归一化整体作为输出，繁多输出，经典网络和不同网络结构组合训练。
2，大特色数据正当归一化整体作为输出，同样数据多路输出，各种不同网络结构组合训练。
3，大特色数据不同的特色维度，不同数据多路输出，别离走雷同的网络结构和不同的网络结构组合训练。
4，基于第 3 种形式，一些特色间接作为两头暗藏数据插入外部不同网络结构中组合训练。

深度学习中，全连贯、卷积、RNN 等这些根底网络，在空间和工夫维度上不同的细化神经元线性运算加各种非线性激活操作来欠缺本身通识的算法体系，解耦数据特色工程、特色建模和指标后果的层层依赖，成为一种通识的算法思维。传统基于统计学的机器学习和模式识别在此背后显得不堪一击，像一个暴发户一样，前人们千辛万苦积攒数十年的畛域教训，一个门外汉几天就给颠覆了，要害是后果还比你好。

当然，从学习钻研角度来看，如 HMM、GMM、CRF 等这些前人积攒的经典算法模型，在后续业务中有可能用不到，但这些算法思维是很值得借鉴学习的，备足思维“原料”，任何时候都不过时。

这些网络的根在哪里，从算法角度来看就是数值计算和数值优化，数值计算层面网络里有大量的线代运算，天然有 CUDA 和各种 BLAS 作为撑持，最优化实践上，大部分状况下是训练收敛快慢、震荡的问题，相干实践钻研积攒目前来看绝对成熟。

从工程角度来看，基于最速降落体系的反向流传算法已成事实上的规范，其它诸如二阶求导、牛顿法等始终为小众市场，但问题是主动微分工程上的实际，有 pytorch 在手，实现各种网络结构、自定义各种网络结构等算法难度上呈指数级降落，当初的玩法更多是网络的深度，网络的各种组合上，这可能才是目前网络的根结所在。

当初，回归到 内嵌式网络训练 ，这些根底的网络实质上能够看做是 积分变换，而音频畛域有数十种经典的积分变换，这些变换不同于前人积攒的特定畛域的经典模型算法，它自身就是典型的高度形象的数学公式，自带通识根底。

第一种形式
拿最常见的 mel 频谱来说，权且认为它是 STFT 变换的一种，咱们能够间接拿 mel 频谱当做网络输出训练，同样的，咱们能够把 mel 频谱写入网络结构的前向计算中，这时能够间接拿时域数据当做网络输出训练，这两者之间的差异在哪，答案是没有差异，之前是 mel 频谱作为特色输出，当初只不过不是 mel 频谱的计算放在网络结尾计算而已，速度可能会快一些，叫一个更有逼格的名字，Mel-CNN、CWT-Transformer、NSGT-RNN、CRF-LSTM、PCA-Inception 等等网络。

第二种形式
能够把 mel 频谱计算放到网络的两头，这时候 mel 频谱计算能够作为一个算子参加到前向、后向这些计算，影响前后神经元权重参数的更新，这时候能够称之为 Mel-CNN 等等总算是更进一步，更精确说是 mel 频谱激活函数。

第三种形式
mel 频谱有本人的神经元，开始成为真正的 mel 频谱网络层，同样的延展，类如 mel 频谱等积分变换，什么都不操作，它就是一个略微简单点的算子、激活函数，如果在空间和工夫维度上加上神经元设计，谁能保障不会呈现下一个类卷积网络的通识构造呢，当然，这种设计要求有较强的实践推导能力和大量的根底测试，足以撑持构建新设计网络的实践根底和业务逻辑解释。

最初，音频畛域数十种经典的积分变换加上传统机器学习的经典模型算法，如何 内嵌式网络训练，最最起码视线宽阔很多，对于业务而言，真正的网络层实现可能算是规范的科研，而作为一个算子激活函数的应用是应该尝试的，最不济，把这些当做不同维度的特色输出也总比什么都没有好，多一个维度，多一种特色，多一种抉择。

本文大体上分四个局部，算法流程 详细描述解释了每一步计算流程，相干细节 算是简略步骤流程的细节点思考和延展，各种刻度 、 滤波器组 、 倒谱系数 算是重要概念和重要步骤的细节点思考和延展，以上三个局部算是整个“深刻”局部，方法论 是“浅出”局部。

关于深度学习:Mel频谱和MFCC深入浅出

前言

算法流程

1. 预减轻（Pre-emphasis）

2. 分帧（Frame）

3. 加窗（Window）

4. 短时傅里叶变换（STFT）

5. 滤波器组过程（Filter bank）

6. 非线性校对（Rectification）

7. 离散余弦变换（DCT）

8. 能量和 delta

相干细节

1. weight- A 计权

2. overlap 重叠

3. window 窗函数

4. rectification 非线性校对

各种刻度

1. 其它刻度

2. Gammatone filter

3. 刻度频谱

4. 可能的问题

滤波器组

1. 概念

2. 归一化

3. 不同的窗

4. 加窗形式

倒谱系数

1. 概念

2. 倒谱利用

3. 延展

方法论

1. 大特色（big feature）式训练

2. 内嵌式网络训练

总结

Just My Socks（注册教程内含优惠码）

关于深度学习:Mel频谱和MFCC深入浅出

前言

算法流程

1. 预减轻（Pre-emphasis）

2. 分帧（Frame）

3. 加窗（Window）

4. 短时傅里叶变换（STFT）

5. 滤波器组过程（Filter bank）

6. 非线性校对（Rectification）

7. 离散余弦变换（DCT）

8. 能量和 delta

相干细节

1. weight- A 计权

2. overlap 重叠

3. window 窗函数

4. rectification 非线性校对

各种刻度

1. 其它刻度

2. Gammatone filter

3. 刻度频谱

4. 可能的问题

滤波器组

1. 概念

2. 归一化

3. 不同的窗

4. 加窗形式

倒谱系数

1. 概念

2. 倒谱利用

3. 延展

方法论

1. 大特色（big feature）式训练

2. 内嵌式网络训练

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）