共计 3868 个字符,预计需要花费 10 分钟才能阅读完成。
2022 年 8 月,一幅名为《太空歌剧院》的数字画作取得冠军同时引发了微小争议,AIGC(AI 产生内容:AI-Generated Content)出圈的事件便频频呈现在公众视线。同年 11 月 30 日 OpenAI 公布的聊天机器人模型 ChatGPT 收费凋谢,更掀起了人们对 AIGC 的宽泛趣味,各种花式问题,例如改代码,谈学识、问人生……ChatGPT 的“机智”与“博学”令人另眼相看并耳目一新。
ChatGPT 之所以引起了宽泛关注,在于 OpenAI 先后公布了三代 GPT 模型,每一代模型参数量都比前一代增长了 10 倍甚至 100 倍,进入 GPT-3.5 代的模型则是采纳了 RLHF(从人类反馈强化学习)形式,可能更好地了解人类语言的含意,即与人类在聊天、文章撰写、解答询问、代码查错等互动时更像一个通过“认真思考”谨慎给出答案的“人”。
面对圈内如此热点,在火山语音音频合成算法研究员 Stephen 看来:“之所以 AIGC 近期体现大热,与 AI 生产的内容品质阶梯式晋升密不可分。AI 作为生产工具触发了更高的效率,AIGC 则蕴含了文本生成、音频生成、图像生成和视频生成等诸多方向,也会反过来刺激其背地的人工智能技术疾速倒退,逐步体现出极大的商业价值。”
声情并茂与能说调演 或成为 AI 语音的难点之一
咱们常常会感叹,AI 作画让你领略的是 AI 的“想象力”,以 ChatGPT 为代表的 AI 问答则让你因为其博学与答案的“可读性”而震惊,而 AI 语音则考验的是 TA 是否像真人一样对内容正确理解后,通过匹配人设的音色以及合乎过后情景的语气表达出来,这一点在火山语音(字节跳动 AI Lab 智能语音与音频团队)与番茄小说的单干中不足为奇,AI 算法生成的语音能够让你间接去听任何文字版的小说,而且听起来“更聪慧一点”:差异化的音色配合失当的语气,在朗诵时化身“戏精”演绎出“喜怒哀乐”。
据理解,要让 AI 声情并茂与能说调演,首先须要确保输入内容不读错,这就须要文本分析模型来进行解析。“在番茄小说中,文本剖析前端咱们采纳了 NLP 畛域利用宽泛的 Transformer 架构模型 BERT。次要通过神经网络加规定混合的正则化模型(TN)和多任务前端模型,联合长期的人工规定修改,一直晋升前端的句级别精度,并通过蒸馏、量化等技术升高了算力需要。”
此外为了让语音听感更佳,团队还基于惯例 TTS 流程退出了更多功能模块,实现了角色归属与情感管制。例如在角色归属中同样采纳了 bert 构造,进行对话断定和指代消歧两个工作的建模,另外也采纳了相似的构造进行情感预测。“通常小说文字中会呈现多人对话,每个谈话人又有属于本人的多种情感,如果能够将音色和情感进行解耦,就能够更好地管制合成语音的表现力,实现不同音色与不同情感的灵便组合,这个很要害。”
重要的一点,为了让 AI 可能了解各种类型小说的文本,火山语音还率先提出了“AI 文本了解”模型,即一套多任务的长文本了解 AI 零碎。可能自动化地从小说文本中辨别出对话的角色、判断出对话中所想要表白出的情感、预测出正当的句间进展,极大地晋升了精品 AI 有声书的制作效率,无效冲破了人工标注的生产瓶颈。
「AI 文本了解」模型
更进一步,火山语音团队在满足发音清晰、韵律连贯、语调起伏的根底上,自研半监督学习的端到端格调管制声学模型,使声音遵循普鲁契克情感色轮(Plutchik’s Wheel of Emotions)的情感类型,体现出开心、悲伤、诧异、恐怖等多种情感色调,以情感迁徙的形式,让本来没有情感的发音取得多情感合成的成果。更好表白“以声传情”,将人类语言中常会呈现的「副语言」景象进行了精细化的建模还原,实现了在有声书中常见的重音进展、疑难反诘、笑声哭腔、以及各类叹气、叫喊声等,达成了文本内容的精彩演绎。
“靠近真人播讲的成果,使最终的 AI 语音可能体现出不同角色在不同上下文环境里的成果,是咱们始终以来谋求的指标。将来,咱们更心愿能够做到,通过文本 - 语音联结训练大模型,对不同上下文环境的文本提取表征,晋升角色判断成功率;凭借多话者语音合成大模型,对情感、格调、音色和口音等属性进行解耦并可能自在迁徙;同时依据文本形容生成匹配的背景音来晋升有声书凝听时的代入感。”
进步内容品质和产生效率才是 AIGC 的外围价值
在更多实际中咱们发现,除了文字和图像,人们对语音交互的利用范畴更广,例如,人们在家中常常通过语音交互收回指令管制各种电器;出行时通过车载语音助手实现导航、预约餐厅等事项;以及在办公场景中高频率应用的会议助手等,都离不开智能语音计划来进步内容品质和生产效率。
对此火山语音团队也随之进行了更多相干的创新性尝试,例如在短视频成为全民时尚的明天,面对 ugc 群体视频创作的随性记录以及音频品质不可控等事实因素,通过火山语音智能字幕解决方案为视频创作主动增加字幕,不仅能够兼容辨认中、英、粤等罕用的语言和方言,还能对歌曲进行辨认。
对此火山语音音频了解方向产品经理 W 补充道:“视频内容生产中,传统加字幕的形式须要创作者对视频进行数次听写并校对,还须要依据起始工夫逐帧对齐,常常 10 分钟的视频须要几小时的后期制作工夫能力实现。此外字幕组还要精通多语言并相熟字幕文件的制作,整体下来视频制作老本很高,这对于当今短视频时代的集体创作者或是单纯以记录生存的用户来说早已高不可及。”
为了升高创作门槛,让所有创作者都能轻松制作高质量的视频内容,记录美好生活,火山语音自研推出了智能字幕解决方案。不仅可能高效辨认方言与歌曲,还能够对语种混合以及谈话唱歌混合的场景有很好的辨认成果;此外还可通过对用户创作内容的音频个性以及畛域剖析,凭借算法优化,大大晋升语音辨认对于噪声场景、多人谈话等简单场景的体现。尤其面对挪动端用户针对性能响应工夫的较高要求,即心愿字幕能够既快且准,对此火山语音做了大量的工程优化和策略,1 分钟的视频只需 2 - 3 秒即可实现。
家喻户晓,面对雷同的内容,人类对于音频信息的获取效率远低于文本信息的获取效率,而将语音转化成文本被记录与应用的关键在于语音辨认,例如火山语音推出的“千言转文字,一字胜千言”的实时字幕解决方案就是通过“语音辨认 + 语音翻译”的 AI 链路,让跨国家、跨语言交换变得更加晦涩;通过主动生成会议记录与纪要,做到大大晋升与会者的工作效率,大幅缩小会后整顿和会中记录的工作量。能够预感随同科技的迅速倒退,AI 语音会为人机交互减少信息输入的渠道,为信息获取晋升效率。
同样面对 AIGC 带来品质以及效率的晋升问题,在火山语音语音交互产品经理 Y 看来,AIGC 的确无望在智能语音交互的辅助场景中落地,能够实现包含会话摘要、话术举荐、情绪安抚、工单摘要等方向的客服性能,辅助解决方案来进步生产效率。举个例子,在人机对话触发转人工时,可主动生成人机对话的对话摘要,辅助人工更快理解用户诉求,避免出现忽然冷场去翻查聊天记录的状况;在与人对话过程中,通过对用户话术的了解,使用 AIGC 能力来生成答案供客服参考,进步了客服对话的效率。
“此外在异常情况解决方面也可发挥作用,比方说用户呈现焦躁、愤恨等情绪时,AICG 或可主动生成安抚话术供客服参考,晋升服务满意度等。将来,随同多模态技术和 AIGC 技术的一直成熟,或者通过虚构数字人可取代局部人工,以人机共生的状态间接服务客户,更显著升高人力老本,晋升服务效率。”但他也明确示意,现在的 AIGC 还无奈做到真正独立生产内容,尚处于辅助人类晋升内容生产效率的阶段。
老本、版权、实用性仍是 AIGC 倒退的瓶颈
不论是 ChatGPT 给出了惊人答复,还是番茄小说中 AI 演绎出了感人声音,就连马斯克也惊叹:咱们离弱小到危险的人工智能不远了。这仿佛预示着 AIGC 的时代即将来临。
然而在 AI 算法一线工作多年的火山语音音频合成算法研究员 Stephen 却有着更为苏醒的判断,他指出:“AIGC 背地的技术,将来可能会进行多模态交融,不仅仅是繁多模态的生成式工作,这就像人类在发明内容的过程中也不仅仅是依据繁多状态的常识而构思出新内容。举个例子,就像生成交互式数字人的工作中,目前次要是人脸、表情、姿势和动作的独自预测,将来或将用一个生成式模型预测这些特色,晋升各特色之间的协同成果,升高别离录制带来的工作量;此外也会依据多模态了解工作失去的表征,基于正在对话的用户的表情、语气和肢体动作,在生成的形象和声音上给予对应的反馈。”
除了技术倒退的预测,不容忽视的一点,目前 AIGC 在老本、版权和实用性上仍存在微小挑战。他认为目前 AIGC 老本居高不下,很显著的体现是高质量文本、图片和视频生成技术等,都对应着大量训练和推理阶段硬件资源的耗费,这导致高校和钻研机构均很难参加其中,不利于行业倒退的推动。
“此外在版权保护上,目前生成的内容有些可能会被用来进行非法活动,因而在内容中退出版权保护,例如图像和音频水印变得越来越重要,然而在退出过程中,还得思考不要因为剪切、混合等后处理形式导致水印生效。”
过来的 2022 年,只管在图片和视频生成方向的技术利用效果显著晋升,但仍然须要大量人工筛选后,内容能力理论落地;而基于长篇章文本生成上下文相干的漫画和视频,既要保障场景的连续性,又要能体现人物的变动,还有大量的技术难题须要解决,防止人工智能变成“人工智障”是个挑战,所以实用性还有更多的晋升空间。
咱们或者能够这样认为,AIGC 作为一种新型的内容生产方式,之所以受到关注,充分说明了各行各业对于内容的渴望,尤其是互联网平台,如何高效了解、创作、互动和散发内容,的确给现今的 AI 技术带来了时机和挑战。