关于ide:纯-PyTorch-语音工具包-SpeechBrain-开源Kaldi-我压力有点大

2次阅读

共计 2040 个字符，预计需要花费 6 分钟才能阅读完成。

转自：机器之心

【导语】：间隔 Mirco Ravanelli 发表打造新的语音工具包过来了一年多，SpeechBrain 真的如期而至。

语音解决技术的提高，是人工智能扭转公众的生存的重要一环。深度学习技术的衰亡，也让这一畛域近年来失去了长足的倒退。在过往，该畛域的次要办法是为不同的工作开发不同的工具包，对于使用者来说，学习各个工具包须要大量工夫，还可能波及到学习不同的编程语言，相熟不同的代码格调和规范等。当初，这些工作大多能够用深度学习技术来实现。

此前，开发者罕用的语音工具有 Kaldi、ESPNet、CMU Sphinx、HTK 等，它们各有各的不足之处。以 Kaldi 为例，它依赖大量的脚本语言，而且外围算法应用 C++ 编写，再加上可能须要扭转各种神经网络的构造。即使是领有丰盛教训的工程师，在调试的时候也会经验微小的苦楚。

秉承着让语音开发者更轻松的准则，Yoshua Bengio 团队成员 Mirco Ravanelli 等人已经开发了一个试图继承 Kaldi 的效率和 PyTorch 的灵活性的开源框架——PyTorch-Kaldi，但据开发成员自己认为「还不够欠缺」。

所以，在一年多前，Mirco Ravanelli 发表要打造一款新的一体化语音工具包 SpeechBrain。该我的项目于近日正式开源，鉴于上述背景，SpeechBrain 诞生的次要主旨是：够简略、够灵便、对用户敌对。

我的项目地址：

https://github.com/speechbrai…

作为一个基于 PyTorch 的开源一体化语音工具包，SpeechBrain 可用于开发最新的语音技术，包含语音辨认、谈话者辨认、语音加强、多麦克风信号处理和语音识别系统等，且领有相当杰出的性能。团队将其特色详情为「易于应用」、「易于定制」、「灵便」、「模块化」等。

对于机器学习研究者来说，SpeechBrain 可轻松嵌入其余模型，促成语音技术的相干钻研；对于初学者来说，SpeechBrain 也不难把握，依据测试，个别开发者仅须要几个小时就能相熟该工具包的应用。此外，开发团队也公布了很多教程以供参考（https://speechbrain.github.io…\_basics.html）。

总体来说，SpeechBrain 有以下几大亮点：

开发团队与 HuggingFace 集成一些预训练模型，这些模型具备可运行推理的接口。如果 HuggingFace 模型不可用，团队会提供一个 Google Drive 文件夹，蕴含所有对应的试验后果；
应用 PyTorch 数据并行或分布式数据并行来进行多 GPU 训练和推理；
混合精度，放慢训练速度；
通明且齐全可自定义的数据输出和输入 pipeline。SpeechBrain 遵循 PyTorch 数据加载器和数据集款式，使用户可能自定义 I / O pipeline。

疾速装置

目前开发者能够通过 PyPI 装置 SpeechBrain，此外还能够应用本地装置来运行试验和批改 / 自定义工具包。

SpeechBrain 反对基于 Linux 的发行版和 macOS（且针对 Windows 用户也提供了相应解决方案：https://github.com/speechbrai…）。

SpeechBrain 反对 CPU 和 GPU，但对于大多数 recipe 而言，训练期间必须应用 GPU。须要留神的是，必须正确装置 CUDA 能力应用 GPU。

装置教程地址：

https://speechbrain.readthedo…

通过 PyPI 装置

创立 Python 环境后，只需输出以下内容即可：

pip install speechbrain

而后能够应用以下命令拜访 SpeechBrain：

import  speech  brain  as  sb

本地装置

创立 Python 环境后，只需输出以下内容即可：

git clone https://github.com/speechbrain/speechbrain.gitcd speechbrainpip install -r requirements.txtpip install --editable .

而后能够通过以下形式拜访 SpeechBrain：

import  speechbrain  as  sb

对 speechbrain 软件包所做的任何批改，将在装置带有 –editable 标记的软件包时主动解释。

SpeechBrain 未从属于任何机构，团队成员来自 Mila 研究所、Nuance、杜比实验室、英伟达、三星、Viadialog 等实验室和企业单位。最后的两位负责人是 Mila 研究所博士后 Mirco Ravanelli 和 Avignon 博士生 Titouan Parcollet。目前，Speechbrain 我的项目还在欠缺中，也欢送更多开发人员退出。

看到这里，Kaldi 会不会感到压力有点大了呢？