引言

2023年,IT畛域的焦点无疑是ChatGPT,然而,同属OpenAI的开源产品Whisper仿佛鲜少引起足够的留神。Whisper是一款主动语音识别系统,能够辨认来自99种不同语言的语音并将其转录为文字。如果说ChatGPT为计算机赋予了大脑,那么Whisper则为其赋予了耳朵。设想一下,在企业应用领域,咱们可能利用Whisper将语音转化为文字,而后再借助ChatGPT来进行翻译或总结。接下来,咱们将以实际操作为出发点,逐渐向您介绍如何利用AI实现音频、视频的内容总结。

后期筹备

GPU首先,咱们须要解决硬件方面的问题。尽管OpenAI提供了HTTP API来调用Whisper,但对于企业而言,将外部内容交给OpenAI始终存在肯定的平安危险。本地运行AI模型则须要大量的计算资源。如果仅应用CPU进行计算,一个大概10分钟的语音转录工作可能须要破费4倍以上的工夫。因而,咱们必须引入GPU进行计算减速。思考到Colab在国内无法访问,咱们倡议在Kaggle上运行演示。请大家注册Kaggle账户,并实现手机号验证(Kaggle的GPU须要实现手机号验证后能力应用)。

Azure ChatGPT

ChatGPT是咱们语音内容总结的外围工具。

咱们倡议应用Azure OpenAI服务。

您能够参考以下文章来申请:Azure OpenAI Service申请教程

kintone

kintone是咱们用来存储记录的平台。咱们须要创立一个名为“Reports”的应用程序(APP),并定义以下表单字段:

运行您能够在这里找到演示代码:https://github.com/kintone-samples/SAMPLE-kintone-narrator-cn点击“open in kaggle”。

请依照以下步骤操作:1.点击Edit,进入编辑状态

2.在右侧的Notebook options中,咱们须要将Acceleator选为GPU T4*2


注:没验证手机的账户不会显示Acceleator选项。GPU P100不反对以后默认float16运算,抉择该显卡的用户请将“语音转录&对齐”中的compute_type设为float32。TPU尚未测试反对。3.找到名为“Azure OpanAI ChatGPT 总结”和“将总结内容上传”的代码单元(cell),而后依据您本人的环境设置进行配置。


4.点击页面上方的“Run All”按钮以开始运行演示。

期待程序运行完结即可。上面我将对会每个代码单元的性能进行简要阐明,感兴趣的能够持续往下钻研:

点击:Whisper + NemoASR + ChatGPT 实现语言转文字、谈话人辨认、内容总结等性能