共计 3890 个字符,预计需要花费 10 分钟才能阅读完成。
介绍
音频信号处理在各种利用中都施展着重要的作用,如语音辨认、音乐信息检索、语音合成等。其中,Mel 频谱是一种罕用的频域特色示意办法,用于形容人类听觉系统对频率的敏感水平。
在深度学习音频畛域,mel 频谱是最罕用的音频特色。在本文中,咱们将对四个罕用的音频解决库——audioflux、torchaudio、librosa 和 essentia——进行性能测试,以评估它们在计算 Mel 频谱时的效率。
Library | Language | Version | About |
---|---|---|---|
audioFlux | C/Python | 0.1.5 | A library for audio and music analysis, feature extraction |
torchaudio | Python | 0.11.0 | Data manipulation and transformation for audio signal processing, powered by PyTorch |
librosa | Python | 0.10.0 | C++ library for audio and music analysis, description and synthesis, including Python bindings |
essentia | C++/Python | 2.0.1 | Python library for audio and music analysis |
audioFlux:基于 C 开发和 python 包装,底层针对不同平台有不同的桥接解决,反对 OpenBLAS,MKL 等
TorchAudio: 基于 pytorch 开发,pytorch 基于 C ++ 开发和 python 包装,底层应用 MKL,pytorch 针对 CPU 是高度优化的(本篇评测不波及到 GPU 版 pytorch);
librosa: 纯 python 开发,次要基于 numpy 和 scipy,numpy 底层应用 OpenBLAS;
Essentia: 基于 C ++ 开发和 python 包装,底层应用 Eigen,FFTW;
针对音频畛域最常见的 mel 特色,波及到性能次要卡点有 FFT 计算,矩阵计算,多线程并行处理这三局部,其它主要卡点有算法业务实现,python 包装等。
针对 FFT 计算,librosa 应用 scipy 的 fftpack 实现 FFT 计算减速,比 FFTW3,MKL,Accelerate 要慢一些;
针对矩阵计算,MKL 比 OpenBLAS 要快些,OpenBLAS 比其 Eigen 快一些;
针对多线程并行处理,具体各个我的项目外部是否有反对。
测试脚本
-
测试多个库,应用以下形式:
$ python run_benchmark.py -p audioflux,torchaudio,librosa -r 1000 -er 10 -t 1,5,10,100,500,1000,2000,3000
- -p: The library name, list
- -r: The number of sample data, number
- -er: The number of
run_xxx.py
calls, number - -t: The time of each sample data, list
-
测试单个库,应用以下形式:
$ python run_audioflux.py -r 1000 -t 1,5,10,100,500,1000,2000,3000
- 须要更多的命令性能,能够
python run_xxx.py --help
留神
在音频畛域,与音频特征提取相干的库具备本人的性能特点,并提供不同类型的特色。本次评估并不旨在具体测试所有特征提取的性能比拟,然而因为梅尔频谱是最重要和根底的特色之一,因而所有这些库都反对它。
许多因素会影响性能评估后果,如 CPU 架构、操作系统、编译系统、根本线性代数库的抉择以及我的项目 API 的应用,这些因素都会对评估后果产生肯定的影响。为了尽可能偏心地反映理论业务需要,本次评估基于以下条件:
- macOS/Linux 操作系统,三种 CPU:Intel/AMD/M1。
- 库应用最新的官网公布版本或应用具备高性能反对的最新官网源代码编译,并抉择最快的版本。
- 在 API 应用方面,遵循官网规范,并对每个库的相应办法进行“预热”(不计算第一次执行工夫),并不计算初始化的执行工夫。
- 在数据长度方面,抉择测试数据时思考各种理论业务需要。
当数据较短时,大多数库的第一次执行工夫可能绝对较慢。为了反映理论业务需要并放弃偏心,不计算第一次执行工夫。如果库的 API 设计提供了初始化函数,则在理论业务场景中会创立并反复调用它们,初始化的执行工夫也不计入评估后果。
正告
⚠️ 当应用 Conda、PyTorch、TensorFlow、XGBoost、LightGBM 等 Python 科学计算相干的库时,简直所有这些库都应用 Intel Math Kernel Library (MKL)。MKL 应用 OpenMP 进行并行减速,然而在同一过程中只能存在一个 OpenMP 实例。当这些库一起应用时,最好将所有库链接到 libomp 的雷同地位,否则会呈现谬误。依据提醒批改环境变量可能会导致程序执行变慢并产生不牢靠的后果。相干工具能够用于重写相干库的 libomp 链接门路。
性能
应用 audioFlux/torchaudio/librosa 库, 针对 AMD/Intel/M1 CPUs and Linux/macOS 零碎。
计算 1000 个样本数据的 mel 频谱,针对 1/5/10/100/500/1000/2000/3000 每个样本尺寸大小。参数为 fft_len=2048, slide_len=512, sampling_rate=32000。
Linux – AMD
- OS: Ubuntu 20.04.4 LTS
- CPU: AMD Ryzen Threadripper 3970X 32-Core Processor
TimeStep | audioflux | torchaudio | librosa |
---|---|---|---|
1 | 0.04294s | 0.07707s | 2.41958s |
5 | 0.14878s | 1.05589s | 3.52610s |
10 | 0.18374s | 0.83975s | 3.46499s |
100 | 0.67030s | 0.61876s | 6.63217s |
500 | 0.94893s | 1.29189s | 16.45968s |
1000 | 1.43854s | 2.23126s | 27.78358s |
2000 | 3.08714s | 4.10869s | 45.12714s |
3000 | 4.90343s | 5.86299s | 51.62876s |
Linux – Intel
- OS: Ubuntu 20.04.4 LTS
- CPU: Intel(R) Core(TM) i7-6850K CPU @ 3.60GHz
TimeStep | audioflux | torchaudio | librosa |
---|---|---|---|
1 | 0.08106s | 0.11043s | 5.51295s |
5 | 0.11654s | 0.16005s | 5.77631s |
10 | 0.29173s | 0.15352s | 6.13656s |
100 | 1.18150s | 0.39958s | 10.61641s |
500 | 2.23883s | 1.58323s | 28.99823s |
1000 | 4.42723s | 3.98896s | 51.97518s |
2000 | 8.73121s | 8.28444s | 61.13923s |
3000 | 13.07378s | 12.14323s | 70.06395s |
macOS – Intel
- OS: 12.6.1 (21G217)
- CPU: 3.8GHz 8‑core 10th-generation Intel Core i7, Turbo Boost up to 5.0GHz
TimeStep | audioflux | torchaudio | librosa |
---|---|---|---|
1 | 0.07605s | 0.06451s | 1.70139s |
5 | 0.14946s | 0.08464s | 1.86964s |
10 | 0.16641s | 0.10762s | 2.00865s |
100 | 0.46902s | 0.83551s | 3.28890s |
500 | 1.08860s | 5.05824s | 8.98265s |
1000 | 2.64029s | 9.78269s | 18.24391s |
2000 | 5.40025s | 15.08991s | 33.68184s |
3000 | 7.92596s | 24.84823s | 47.35941s |
macOS – M1
- OS: 12.4 (21F79)
- CPU: Apple M1
TimeStep | audioflux | torchaudio | librosa |
---|---|---|---|
1 | 0.06110s | 0.06874s | 2.22518s |
5 | 0.23444s | 0.07922s | 2.55907s |
10 | 0.20691s | 0.11090s | 2.71813s |
100 | 0.68694s | 0.63625s | 4.74433s |
500 | 1.47420s | 3.37597s | 13.83887s |
1000 | 3.00926s | 6.76275s | 25.24646s |
2000 | 5.99781s | 12.69573s | 47.84029s |
3000 | 8.76306s | 19.03391s | 69.40428s |
具体 Benchmark 和脚本: https://github.com/libAudioFlux/audioFlux/tree/master/benchmark
总结
总的来说,从三个库的性能比拟后果来看,librosa 执行工夫最长,这也合乎常识。
在 linux/amd 处理器上,audioflux 比 torchaudio 稍快,但在 linux/intel 上稍慢。
在 macOS 零碎上,对于大尺寸样本数据,audioflux 比 torchaudio 快,intel 比 m1 显著;对于小尺寸样本数据,torchaudio 比 audioflux 更快。
⚠️只管本次基准测试的开发旨在尽可能主观和公正,但每个基准测试都有其毛病,并且限于特定的测试程序、数据集和平台。此外,本次基准测试未比拟库可能反对的其余性能或其余 API、跨平台等。咱们激励用户应用本人的数据集和平台进行基准测试。