尽管从普通用户眼中,应用语音向天猫精灵发动指令,而后收到后者的语音回复,这个流程仿佛很简略,但背地实际上有着人工智能中 ASR(语音辨认)、NLP(自然语言解决)、TTS(语音合成)等自然语言解决技术的参加和整合。
咱们先来看一个典型的用户通过语音同天猫精灵交互的流程图。
- 用户用语音唤醒天猫精灵,后者接管到用户语音,上传到智能利用平台。
- 平台应用 ASR(音频转文字)和 NLP(自然语言解决)技术,智能解析出用户收回语音蕴含的用意 (艰深的说,即用户以后冀望天猫精灵实现什么样的操作)。平台会主动将以后用户指令,匹配到开发人员创立的对应的技能和用意去。具体的匹配过程,就是将平台所有解析到的参数信息,通过 HTTPS 申请拜访开发者提供的服务接口。
- 开发者负责实现的服务 (托管在本人的应用服务器或者阿里云 Serverless 环境),接管到平台发送的申请参数,执行业务逻辑 (比方天气预报查问,智力题,语音游戏等),并组装回复后果。
- 智能利用平台收到开发者服务执行完业务逻辑返回的响应数据后,应用 TTS(文字转音频)合成音频,并将音频推送回天猫精灵。
- 天猫精灵将收到的音频通过麦克风播报进去,本轮同用户的交互就实现了。
剖析这个交互场景,不难发现,须要开发人员入手操作的流程蕴含以下两个方面:
- 在 AliGenie 技能利用平台上创立新的技能和用意,用于接管用户通过语音发送过去的申请。
- 利用开发人员本人抉择在应用服务器还是 Serveless 运行环境里实现新的技能须要实现的业务逻辑编写。