关于python:音频处理性能测评audiofluxtorchaudiolibrosa和essentia谁最快

介绍

音频信号处理在各种利用中都施展着重要的作用，如语音辨认、音乐信息检索、语音合成等。其中，Mel频谱是一种罕用的频域特色示意办法，用于形容人类听觉系统对频率的敏感水平。

在深度学习音频畛域，mel频谱是最罕用的音频特色。在本文中，咱们将对四个罕用的音频解决库——audioflux、torchaudio、librosa和essentia——进行性能测试，以评估它们在计算Mel频谱时的效率。

Library	Language	Version	About
audioFlux	C/Python	0.1.5	A library for audio and music analysis, feature extraction
torchaudio	Python	0.11.0	Data manipulation and transformation for audio signal processing, powered by PyTorch
librosa	Python	0.10.0	C++ library for audio and music analysis, description and synthesis, including Python bindings
essentia	C++/Python	2.0.1	Python library for audio and music analysis

audioFlux：基于C开发和python包装，底层针对不同平台有不同的桥接解决，反对OpenBLAS，MKL等
TorchAudio: 基于pytorch开发，pytorch基于C++开发和python包装，底层应用MKL，pytorch针对CPU是高度优化的（本篇评测不波及到GPU版pytorch）；
librosa: 纯python开发，次要基于numpy和scipy，numpy底层应用OpenBLAS；
Essentia: 基于C++开发和python包装，底层应用Eigen，FFTW；

针对音频畛域最常见的mel特色，波及到性能次要卡点有FFT计算，矩阵计算，多线程并行处理这三局部，其它主要卡点有算法业务实现，python包装等。

针对FFT计算，librosa应用scipy的fftpack实现FFT计算减速，比FFTW3，MKL，Accelerate要慢一些；
针对矩阵计算，MKL比OpenBLAS要快些，OpenBLAS比其Eigen快一些；
针对多线程并行处理，具体各个我的项目外部是否有反对。

测试脚本

测试多个库，应用以下形式：

$ python run_benchmark.py -p audioflux,torchaudio,librosa -r 1000 -er 10  -t 1,5,10,100,500,1000,2000,3000

-p: The library name, list
-r: The number of sample data, number
-er: The number of run_xxx.py calls, number
-t: The time of each sample data, list

测试单个库，应用以下形式：

$ python run_audioflux.py -r 1000 -t 1,5,10,100,500,1000,2000,3000

须要更多的命令性能，能够python run_xxx.py --help

留神

在音频畛域，与音频特征提取相干的库具备本人的性能特点，并提供不同类型的特色。本次评估并不旨在具体测试所有特征提取的性能比拟，然而因为梅尔频谱是最重要和根底的特色之一，因而所有这些库都反对它。

许多因素会影响性能评估后果，如 CPU 架构、操作系统、编译系统、根本线性代数库的抉择以及我的项目 API 的应用，这些因素都会对评估后果产生肯定的影响。为了尽可能偏心地反映理论业务需要，本次评估基于以下条件：

macOS/Linux 操作系统，三种 CPU：Intel/AMD/M1。
库应用最新的官网公布版本或应用具备高性能反对的最新官网源代码编译，并抉择最快的版本。
在 API 应用方面，遵循官网规范，并对每个库的相应办法进行“预热”（不计算第一次执行工夫），并不计算初始化的执行工夫。
在数据长度方面，抉择测试数据时思考各种理论业务需要。

当数据较短时，大多数库的第一次执行工夫可能绝对较慢。为了反映理论业务需要并放弃偏心，不计算第一次执行工夫。如果库的 API 设计提供了初始化函数，则在理论业务场景中会创立并反复调用它们，初始化的执行工夫也不计入评估后果。

正告

⚠️ 当应用 Conda、PyTorch、TensorFlow、XGBoost、LightGBM 等 Python 科学计算相干的库时，简直所有这些库都应用 Intel Math Kernel Library (MKL)。MKL 应用 OpenMP 进行并行减速，然而在同一过程中只能存在一个 OpenMP 实例。当这些库一起应用时，最好将所有库链接到 libomp 的雷同地位，否则会呈现谬误。依据提醒批改环境变量可能会导致程序执行变慢并产生不牢靠的后果。相干工具能够用于重写相干库的 libomp 链接门路。

性能

应用 audioFlux/torchaudio/librosa 库, 针对 AMD/Intel/M1 CPUs and Linux/macOS 零碎。

计算1000个样本数据的mel频谱，针对 1/5/10/100/500/1000/2000/3000每个样本尺寸大小。参数为 fft_len=2048, slide_len=512, sampling_rate=32000。

Linux - AMD

- OS: Ubuntu 20.04.4 LTS- CPU: AMD Ryzen Threadripper 3970X 32-Core Processor

TimeStep	audioflux	torchaudio	librosa
1	0.04294s	0.07707s	2.41958s
5	0.14878s	1.05589s	3.52610s
10	0.18374s	0.83975s	3.46499s
100	0.67030s	0.61876s	6.63217s
500	0.94893s	1.29189s	16.45968s
1000	1.43854s	2.23126s	27.78358s
2000	3.08714s	4.10869s	45.12714s
3000	4.90343s	5.86299s	51.62876s

Linux - Intel

- OS: Ubuntu 20.04.4 LTS- CPU: Intel(R) Core(TM) i7-6850K CPU @ 3.60GHz

TimeStep	audioflux	torchaudio	librosa
1	0.08106s	0.11043s	5.51295s
5	0.11654s	0.16005s	5.77631s
10	0.29173s	0.15352s	6.13656s
100	1.18150s	0.39958s	10.61641s
500	2.23883s	1.58323s	28.99823s
1000	4.42723s	3.98896s	51.97518s
2000	8.73121s	8.28444s	61.13923s
3000	13.07378s	12.14323s	70.06395s

macOS - Intel

- OS: 12.6.1 (21G217)- CPU: 3.8GHz 8‑core 10th-generation Intel Core i7, Turbo Boost up to 5.0GHz

TimeStep	audioflux	torchaudio	librosa
1	0.07605s	0.06451s	1.70139s
5	0.14946s	0.08464s	1.86964s
10	0.16641s	0.10762s	2.00865s
100	0.46902s	0.83551s	3.28890s
500	1.08860s	5.05824s	8.98265s
1000	2.64029s	9.78269s	18.24391s
2000	5.40025s	15.08991s	33.68184s
3000	7.92596s	24.84823s	47.35941s

macOS - M1

- OS: 12.4 (21F79)- CPU: Apple M1

TimeStep	audioflux	torchaudio	librosa
1	0.06110s	0.06874s	2.22518s
5	0.23444s	0.07922s	2.55907s
10	0.20691s	0.11090s	2.71813s
100	0.68694s	0.63625s	4.74433s
500	1.47420s	3.37597s	13.83887s
1000	3.00926s	6.76275s	25.24646s
2000	5.99781s	12.69573s	47.84029s
3000	8.76306s	19.03391s	69.40428s

具体Benchmark和脚本: https://github.com/libAudioFlux/audioFlux/tree/master/benchmark

总结

总的来说，从三个库的性能比拟后果来看，librosa 执行工夫最长，这也合乎常识。
在 linux/amd 处理器上，audioflux 比 torchaudio 稍快，但在 linux/intel 上稍慢。
在 macOS 零碎上，对于大尺寸样本数据，audioflux 比 torchaudio 快，intel 比 m1 显著；对于小尺寸样本数据，torchaudio 比 audioflux 更快。

⚠️只管本次基准测试的开发旨在尽可能主观和公正，但每个基准测试都有其毛病，并且限于特定的测试程序、数据集和平台。此外，本次基准测试未比拟库可能反对的其余性能或其余 API、跨平台等。咱们激励用户应用本人的数据集和平台进行基准测试。