引言
2023 年,IT 畛域的焦点无疑是 ChatGPT,然而,同属 OpenAI 的开源产品 Whisper 仿佛鲜少引起足够的留神。Whisper 是一款主动语音识别系统,能够辨认来自 99 种不同语言的语音并将其转录为文字。如果说 ChatGPT 为计算机赋予了大脑,那么 Whisper 则为其赋予了耳朵。设想一下,在企业应用领域,咱们可能利用 Whisper 将语音转化为文字,而后再借助 ChatGPT 来进行翻译或总结。接下来,咱们将以实际操作为出发点,逐渐向您介绍如何利用 AI 实现音频、视频的内容总结。
后期筹备
GPU 首先,咱们须要解决硬件方面的问题。尽管 OpenAI 提供了 HTTP API 来调用 Whisper,但对于企业而言,将外部内容交给 OpenAI 始终存在肯定的平安危险。本地运行 AI 模型则须要大量的计算资源。如果仅应用 CPU 进行计算,一个大概 10 分钟的语音转录工作可能须要破费 4 倍以上的工夫。因而,咱们必须引入 GPU 进行计算减速。思考到 Colab 在国内无法访问,咱们倡议在 Kaggle 上运行演示。请大家注册 Kaggle 账户,并实现手机号验证(Kaggle 的 GPU 须要实现手机号验证后能力应用)。
Azure ChatGPT
ChatGPT 是咱们语音内容总结的外围工具。
咱们倡议应用 Azure OpenAI 服务。
您能够参考以下文章来申请:Azure OpenAI Service 申请教程
kintone
kintone 是咱们用来存储记录的平台。咱们须要创立一个名为“Reports”的应用程序(APP),并定义以下表单字段:
运行您能够在这里找到演示代码:https://github.com/kintone-samples/SAMPLE-kintone-narrator-cn 点击“open in kaggle”。
请依照以下步骤操作:1. 点击 Edit,进入编辑状态
2. 在右侧的 Notebook options 中,咱们须要将 Acceleator 选为 GPU T4*2
注:没验证手机的账户不会显示 Acceleator 选项。GPU P100 不反对以后默认 float16 运算,抉择该显卡的用户请将“语音转录 & 对齐”中的 compute_type 设为 float32。TPU 尚未测试反对。3. 找到名为“Azure OpanAI ChatGPT 总结”和“将总结内容上传”的代码单元(cell),而后依据您本人的环境设置进行配置。
4. 点击页面上方的“Run All”按钮以开始运行演示。
期待程序运行完结即可。上面我将对会每个代码单元的性能进行简要阐明,感兴趣的能够持续往下钻研:
点击👉:Whisper + NemoASR + ChatGPT 实现语言转文字、谈话人辨认、内容总结等性能