关于音视频:语聊房高质量音乐伴奏的实现

看恐怖片关掉声音，再吓人的画面成果也会大打折扣；一片谐和舒适的画面中忽然呈现短促的转场音乐，观众会立刻体会这是要“小事不妙”了。

如果说每个人都有一首属于本人的 BGM，那不同场景、情景也都有能调动情绪、引起人们共鸣的音乐。

在近期大势的语聊房业务中，热门场景也都少了音乐的“陪伴”。在语音电台中，它能够衬托主题气氛，让用户更沉迷；在多人社交中，它能够毁灭尬聊，让交换更自在；在 K 歌房中，伴奏更是不可或缺的刚需。

而且，音乐是人类共通的语言，即使是出海业务中面对不同文化背景的用户，音乐也能够唤起多种要害情绪，是语音社交利用必备“技能”。

融云语聊房 SDK，以高扩展性笼罩全副热门语聊房场景，天然也在音乐治理方面下足了功夫，提供在线音乐、歌单治理能力；反对加载播放本地音乐，反对大部分文件类型；提供入场欢送、鼓掌、笑声等气氛音效；混音管制，反对人声音量、本端音乐音量、远端音乐音量、耳返开关。

如此丰盛的音乐治理能力，如何在技术侧保障优质音乐体验呢？本文将分享融云语聊房 SDK 的高质量音乐播放实现计划。

语聊房业务场景中，音乐播放的模式次要有以下几种：

通过第三方设施播放音乐，通过外接声卡和主播声音混音，而后从主播端发送。

通过语聊房利用播放伴奏，在利用外部和主播的声音进行混音。

通过手机设施播放音乐伴奏，在设施采集时将主播的声音和设施的声音块采集到麦中。

通过 PC 端 Android 模拟器实现直播，PC 端播放伴奏，而后通过 PC 的内录形式采集音乐并和主播声音实现混音。

不同的实现形式，对音乐的解决流程存在着肯定差别。解决失当可能造成观众端音乐声音小、音乐高低音局部缺失、吞音等重大影响用户体验的景象。

一般而言，音频信号被挪动终端采集模块采集后，会通过回声打消、降噪、自动增益管制等预处理过程，再由音频编码器进行编码。

预处理过程蕴含 Acoustic Echo Cancelling（AEC，回声打消）、Automatic Gain Control（AGC，自动增益）、Active Noise Control（ANC，降噪），俗称 3A。

3A 预处理算法对设施采集的声音也会有不同水平的伤害。而且，相比语音通话场景，音频预处理会对音乐产生比拟显著的影响。比方，降噪、回声打消算法可能在主播唱歌时将伴奏音乐当成背景噪声解决掉，从而导致伴奏音乐缺失，音质重大升高等后果。

（回声打消原理）

所以，在有背景音乐这种绝对简单，对声音要求比拟高的场景，更须要精细化的预处理策略。

通过大量的技术和市场调研，咱们将语聊房音乐采集形式演绎为以下几种：

设施 Mic 采集的音源曾经是歌声和伴奏的混合声音，这种场景的混音次要有：

设施播放伴奏和主播歌声在空气流传中进行混音

设施播放伴奏通过外接声卡和主播歌声进行混音

通过 PC 内录环境将伴奏和主播歌声进行混音

设施通过 Mic 采集主播歌声，而后在利用内与利用播放的声音进行混音。依据主播的习惯又可将该利用场景分为主播有耳机和无耳机的音乐应用环境。

通过大量测试和实践验证，咱们采取的计划为：利用外音乐混音尽可能还原音源，利用内音乐混音则放在 3A 预处理之后混音的策略，在保障音质的根底上进步用户体验。

这是因为，利用内音乐和声音混音若在声音 3A 前进行的话，3A 预处理就会对音乐产生伤害，导致解决后的音乐呈现音量不稳固、局部音质失落等问题，而且也会对回声打消中的参考信号量产生影响，而导致聊天过程中呈现回声问题。这种状况下，将声音混音放在 3A 解决之后，不仅解决了聊天过程中的降噪问题而且能够保障音乐的音质，进一步确保用户取得高质量音质体验。

（利用内音乐和声音混音流程）

在利用内部音乐和声音混音的情景中，分为主播应用耳麦和不应用耳麦两种情景。

主播应用耳麦时，通过耳麦采集音源能够屏蔽掉背景噪声，而且不会存在回声问题。针对这种状况，对 Mic 采集到的伴奏和声音的混音不做降噪和回声解决，从而保障了混音音源的完整性。

针对主播不应用耳麦的状况，通过大量多型号设施测试，咱们调优了 3A 解决参数，最大限度保障音乐伴奏混音和通话流程的品质，做到音乐高音质播放，进步用户体验。

（利用外音乐和声音混音流程）

在语聊房音乐的高质量播放之外，融云语聊房 SDK 还反对声音预处理的美声扩大，用以丑化主播声音的磁性和丰盛度，满足 K 歌、演唱会等多样场景的利用切换。

关于音视频:语聊房高质量音乐伴奏的实现

语聊房音乐播放的次要模式及解决难点

融云语聊房高质量音乐实现形式