关于ide:纯-PyTorch-语音工具包-SpeechBrain-开源Kaldi-我压力有点大

2次阅读

共计 2040 个字符,预计需要花费 6 分钟才能阅读完成。

转自:机器之心

【导语】:间隔 Mirco Ravanelli 发表打造新的语音工具包过来了一年多,SpeechBrain 真的如期而至。

语音解决技术的提高,是人工智能扭转公众的生存的重要一环。深度学习技术的衰亡,也让这一畛域近年来失去了长足的倒退。在过往,该畛域的次要办法是为不同的工作开发不同的工具包,对于使用者来说,学习各个工具包须要大量工夫,还可能波及到学习不同的编程语言,相熟不同的代码格调和规范等。当初,这些工作大多能够用深度学习技术来实现。

此前,开发者罕用的语音工具有 Kaldi、ESPNet、CMU Sphinx、HTK 等,它们各有各的不足之处。以 Kaldi 为例,它依赖大量的脚本语言,而且外围算法应用 C++ 编写,再加上可能须要扭转各种神经网络的构造。即使是领有丰盛教训的工程师,在调试的时候也会经验微小的苦楚。

秉承着让语音开发者更轻松的准则,Yoshua Bengio 团队成员 Mirco Ravanelli 等人已经开发了一个试图继承 Kaldi 的效率和 PyTorch 的灵活性的开源框架——PyTorch-Kaldi,但据开发成员自己认为「还不够欠缺」。

所以,在一年多前,Mirco Ravanelli 发表要打造一款新的一体化语音工具包 SpeechBrain。该我的项目于近日正式开源,鉴于上述背景,SpeechBrain 诞生的次要主旨是:够简略、够灵便、对用户敌对。

我的项目地址:

https://github.com/speechbrai…

作为一个基于 PyTorch 的开源一体化语音工具包,SpeechBrain 可用于开发最新的语音技术,包含语音辨认、谈话者辨认、语音加强、多麦克风信号处理和语音识别系统等,且领有相当杰出的性能。团队将其特色详情为「易于应用」、「易于定制」、「灵便」、「模块化」等。

对于机器学习研究者来说,SpeechBrain 可轻松嵌入其余模型,促成语音技术的相干钻研;对于初学者来说,SpeechBrain 也不难把握,依据测试,个别开发者仅须要几个小时就能相熟该工具包的应用。此外,开发团队也公布了很多教程以供参考(https://speechbrain.github.io…\_basics.html)。

总体来说,SpeechBrain 有以下几大亮点:

  • 开发团队与 HuggingFace 集成一些预训练模型,这些模型具备可运行推理的接口。如果 HuggingFace 模型不可用,团队会提供一个 Google Drive 文件夹,蕴含所有对应的试验后果;
  • 应用 PyTorch 数据并行或分布式数据并行来进行多 GPU 训练和推理;
  • 混合精度,放慢训练速度;
  • 通明且齐全可自定义的数据输出和输入 pipeline。SpeechBrain 遵循 PyTorch 数据加载器和数据集款式,使用户可能自定义 I / O pipeline。

疾速装置

目前开发者能够通过 PyPI 装置 SpeechBrain,此外还能够应用本地装置来运行试验和批改 / 自定义工具包。

SpeechBrain 反对基于 Linux 的发行版和 macOS(且针对 Windows 用户也提供了相应解决方案:https://github.com/speechbrai…)。

SpeechBrain 反对 CPU 和 GPU,但对于大多数 recipe 而言,训练期间必须应用 GPU。须要留神的是,必须正确装置 CUDA 能力应用 GPU。

装置教程地址:

https://speechbrain.readthedo…

通过 PyPI 装置

创立 Python 环境后,只需输出以下内容即可:

pip install speechbrain

而后能够应用以下命令拜访 SpeechBrain:

import  speech  brain  as  sb

本地装置

创立 Python 环境后,只需输出以下内容即可:

git clone https://github.com/speechbrain/speechbrain.gitcd speechbrainpip install -r requirements.txtpip install --editable .

而后能够通过以下形式拜访 SpeechBrain:

import  speechbrain  as  sb

对 speechbrain 软件包所做的任何批改,将在装置带有 –editable 标记的软件包时主动解释。

SpeechBrain 未从属于任何机构,团队成员来自 Mila 研究所、Nuance、杜比实验室、英伟达、三星、Viadialog 等实验室和企业单位。最后的两位负责人是 Mila 研究所博士后 Mirco Ravanelli 和 Avignon 博士生 Titouan Parcollet。目前,Speechbrain 我的项目还在欠缺中,也欢送更多开发人员退出。

看到这里,Kaldi 会不会感到压力有点大了呢?

开源前哨 日常分享热门、乏味和实用的开源我的项目。参加保护 10 万 + Star 的开源技术资源库,包含:Python、Java、C/C++、Go、JS、CSS、Node.js、PHP、.NET 等。

正文完
 0