关于音视频:vivo-短视频体验与成本优化实践

作者:来自 vivo 互联网短视频研发团队本文依据蔡守业、马运杰老师在“2023 vivo开发者大会"现场演讲内容整顿而成。 在线点播场景,播放体验晋升与老本优化是等同重要的两件事,并在局部场景体验优化与老本优化存在肯定的互斥关系。vivo短视频深入分析播放链路的每个环节、并联合大数据统计,摸索出了多种的体验优化策略;同时针对老本优化,上线了转码、PCDN、共享闲时带宽等多种策略用于升高带宽老本。基于技术优化和业务倒退的要求,vivo短视频还上线了系统性的监控体系,对播放体验、带宽老本进行了多维度的监控。 一、业务介绍vivo短视频我的项目的业务架构,从链路上来说,次要包含: 内容生产,次要包含拍摄、导入、剪辑以及作品上传视频解决,包含画质加强、转码、压缩等散发生产,包含预加载、视频播放除此之外,咱们还设计了若干个子系统,其中比拟重要的有: 日志收集,次要用于收集用户被动反馈问题。监控统计,次要用于监控线上外围指标,为后续优化提供方向。AB测试,次要用于新性能验证。技术架构的最终目标是为了给用户出现一个有着良好体验的产品,同时又兼顾到开发、经营老本。通过咱们产品内置的意见反馈、大数据统计以及用户调研,咱们发现/用户对vivo短视频的反馈次要集中在播放卡顿、不晦涩、画质不清晰下面,从老本方面,咱们的次要压力来自于CDN。 这些也就是本文的主题,即:如何做到既要播放体验好,又要业务成本低。接下来,将别离介绍一些在播放晦涩度以及老本优化相干的摸索和实际。 二、体验优化2.1 播放链路拆解对于在线点播场景来说,影响用户体验的环节次要在视频开播以及播放过程。首先,在起播阶段,应尽力做到首帧零耗时,当用户观看视频时应间接展现视频画面而不是呈现期待过程。 咱们对开播过程做了拆解和监控,在无任何优化策略的场景下,网络连接环节耗时占比30%,下载环节占比15%, 解封装、解复用环节占比15%。 其次,在视频播放过程中,应做到晦涩播放不卡顿,这就须要正当的预加载策略、码率管制以及下载策略。 通过以上的剖析,确定了咱们4个重点优化方向: 建连优化,通过连贯复用、保活等形式缩小在连贯环节的耗时分片下载,通过优化下载架构晋升下载速度以及成功率预渲染,把耗时的解封装、解复用、解码等环节前置数据预加载,通过预加载缩小在下载环节的耗时在此基础上,咱们上线了数据监控体系,对开播性能、优化策略、视频根底信息、画质、带宽利用率等方面进行了具体的监控。 2.2 建连优化通过以下4个策略来升高建连环节的耗时: 在利用冷启动以及视频播放时,通过连贯复用,缩小了DNS解析、SSL以及TCP连贯环节的耗时。在视频播放过程中,用户可能因为某些起因暂停视频,比方把利用切到后盾,几分钟后再关上 利用,这种状况下可能呈现连贯被断开,当复原播放时须要从新建连,从而导致播放卡顿的问题。通过连贯保活,可确保再次播放时视频疾速下载、疾速 开播。传统的local dns可能会呈现解析DNS劫持、解析迟缓等问题,通过http dns,可有效应对DNS劫持以及解析迟缓的问题,为了应答复杂多变的网络环境,咱们还通过在线配置的形式,反对多种dns解析以及降级策略。当DNS解析失败时,通过服务端下发的IP实现直连,从而晋升连贯成功率。以上就是咱们在网络连接环节的一些优化策略,上面介绍咱们在视频下载环节的优化。 2.3 分片下载为了实现预加载,即在视频播放之前把在线视频提前下载到本地,咱们在播放器和CDN间接减少了一个本地代理的服务,播放的网络申请都由本地代理服务响应,本地代理服务再向CDN发动申请。在弱网下测试,咱们发现卡顿状况比较严重,次要是存在不必要的网速竞争,并且惯例单线程下载效率低于多线程并发下载。为此,咱们通过剖析协定以及屡次试验,最终确定了全新的下载方式,即首个视频起播时应用单线程,后续的视频下载以及预加载都通过多线程分片申请实现。 同时,把播放器 与本地代理之间的socket通信形式批改为直连,防止了socket中不必要的读写缓冲区节约。通过这样的调整,首帧耗时升高3.8%,播放失败率降落9%;并且还具备了播放过程中实时切换cdn的能力,即在首次开播时使用性能较好的规范cdn,在缓存较短缺时切换为低成本的cdn。 2.4 预渲染通过以下优化策略晋升预渲染成果: 利用冷起后,首个视频的开播体验对用户的后续生产有着十分重要的影响,为了晋升该的播放体验,在利用启动时预创立H265以及H264对应的codec实例,在开播环节间接应用预创立的解码器,开播耗时可升高50ms左右。播放器的创立环节波及到较多的流程,比拟耗时;另外,惯例的每次播放视频都创立一个播放器对象的形式,容易呈现因播放器对象透露导致的OOM、ANR甚至播放失败。基于这两个问题,咱们创立了全局复用的播放资源池,每次视频播放时都从资源池中间接获取曾经创立好的播放器对象,通过该策略,可无效的升高播放器创立耗时,并且彻底解决了播放器实例透露问题,对系统稳定性以及播放成功率都有显著的改善。后面咱们介绍了预加载策略,即在视频播放之前提前下载局部数据到本地,视频播放时间接播放本地筹备好的缓存,开播速度较优化前有显著的晋升;但本地视频开播仍须要嗅探、解封装、解码这些环节,开播耗时仍存在优化空间。因而,咱们基于播放器资源池,应用另一个闲暇的播放器对象来提前完成下一个行将播放的视频的嗅探、解封装、解码过程,通过这个策略,首帧耗时可升高到50ms以内。 2.5 预加载策略首先介绍的是固定大小的预加载策略:视频播放时,把后续5个视频增加到缓存待下载队列,每个视频应用固定的预加载大小,以后视频的缓存处于高水位时,开始下载缓存队列中视频,以后视频缓存处于低水位即有可能行将产生卡登时,进行下载缓存队列中的视频。 这个计划整体实现比较简单,但存在两个问题: 预加载大小是固定的,未能与视频码率、时长关联,当视频码率、时长发生变化时,可能会呈现缓存有余或者缓存节约。对于一条用户会重度生产的视频,应晋升预加载大小,从而晋升用户在播放过程中的晦涩度。为了解决以上两个问题,咱们上线了动静预加载策略。 动静预加载就是在固定预加载的根底上,做了如下调整: 缓存分级,把固定预加载策略中的繁多缓存调整为3个不同优先级的缓存,优先级高的缓存较小,优先下载,优先级较低的缓存较大,下载优先级较低;一级缓存下载完结后开始下载二级缓存,二级缓存下载实现后再下载三级缓存。缓存大小不再固定,批改为依据视频时长和预加载时长动静计算当用户疾速滑动时,个别状况下会命中一级缓存,确保视频能够顺利开播;当用户在列表中重度生产时,后续的视频将有短缺的工夫实现三级缓存的下载。动静预加载策略上线后,首帧耗时升高了2.3%,卡顿率升高了19.5%,当然,这个策略也存在的显著的问题,即体验晋升了,但带宽老本也晋升了。咱们须要思考,如何在不减少老本的前提下晋升体验。 咱们来看一个示例:在一个视频列表中,有些视频用户喜爱观看,完播率较高,有些视频用户不感兴趣,会疾速滑过。 也就是说,只有深度生产的视频,才真正的须要二级和三级缓存,快滑的视频能疾速开播即可。基于这样的一个普遍性的案例,咱们联合视频的观看时长调整了预加载策略。 当初介绍的是智能预加载策略,整体流程如下: 首先,在云端基于视频根底特色比方码率、时长、清晰度,网络以及时段、历史行为等特色,应用深度神经网络创立、训练模型,用于预测一个视频用户会深度生产还是疾速滑过。其次,模型导出、转换之后,部署在客户端,在视频开播之前预测生产深度。最初,播放器仍保留之前的一级缓存,并作为最高优先级进行下载;所有的一级缓存都下载实现后,依据预测的生产深度调整二级缓存的大小,如果该条视频会重度生产,则开启二级缓存,否则放弃二级缓存。这个计划目前还在试验中,后续咱们也将继续摸索机器学习在播放上的其余利用。 体验优化的成果须要被精确、主观的掂量,并且能精确反映用户的实在体验。 在起播环节,咱们设计了两个P0指标,即首帧耗时和失败率,同时,咱们也设计了若干个p1指标,包含缓存大小、缓存命中率、预渲染命中率,下载速度等,这些指标的稳定间接会影响到P0指标。 在视频播放环节,咱们设计了卡顿率、卡登时长以及seek卡顿等P0指标,同时,设计了百秒卡登时长、百秒卡顿次数、缓存利用率等p1指标作为对P0指标的补充。 基于以上指标以及视频根底信息、预加载预渲染策略信息,咱们设计并上线了分层监控零碎,自上往下共分为4个层级: P0指标:包含开播耗时、卡顿率等,这些是咱们最为关注的外围指标P1指标:作为对P0指标拆解和补充策略指标:包含预加载开启率、命中率、预渲染开启率、命中率,这两个策略对播放体验的影响比拟显著最初一层是视频根底信息,包含码率、时长、画质分等,这些指标也会影响到外围性能指标 三、老本优化后面介绍了咱们短视频在播放体验方面所做的一些致力,通过前述的这些优化,目前咱们短视频的播放晦涩度曾经达到行业内的一流程度。而随着业务的一直倒退,播放的老本也随之水涨船高,成为业务必须要应答解决的首要问题,接下来将和大家分享下咱们在播放老本优化方面的一些思考及实际计划。 3.1 老本拆解首先,咱们先理解下播放老本蕴含了哪些老本。它次要是由CDN老本、存储老本以及进行转码压缩等所须要的计算成本组成,而这外面CDN老本占了总成本的80%左右,是最大的一个老本起源,所以,接下来咱们的分享次要是围绕如何升高CDN老本开展。 要晓得怎么进行CDN老本的升高,就须要理解哪些是影响CDN老本的重要因素。如下图所示: 第一层拆解,CDN老本 = 单价x用量,这个置信大家都能很好了解。第二层的拆解,失常状况下,用量=用户理论播放的视频时长乘以视频的码率,而后面咱们也介绍过,为了晋升视频播放的起播速度,升高播放过程中的卡顿率,咱们会对视频进行预加载及预缓冲,那这部分量可能最初用户并没有产生播放行为,也就造成了流量的节约。因而咱们引出了流量利用率的概念,在后续还会具体介绍。这里咱们须要晓得的是CDN理论计费的用量=用户播放的时长x码率除以流量利用率。那当初有4个最根底的因素会影响老本,别离是单价、时长、码率、流量利用率,其中时长是业务谋求的增长指标,无奈用以降本,因而其余三个因素就成了咱们重点优化的方向,它们别离是。 寻找计划升高单价对视频码率进行极致压缩对利用率进行治理晋升流量利用率在正式介绍咱们的降本计划之前,咱们还须要先思考一个问题:老本的升高往往带来的是服务质量的升高,咱们须要如何能力在保障播放体验的同时,升高播放老本,也就是大家常常探讨的,如何做到体验与老本的非零和博弈。 3.2 单价升高本大节将为大家介绍咱们的第一个降本方向,CDN单价的升高。 3.2.1 引入PCDN咱们的第一个计划是引入单价更低的PCDN技术,PCDN是目前一种新兴的内容散发网络,其次要是利用路由器、小盒子等便宜的边缘设施代替规范CDN的边缘节点,因为接入设施及接入网络更加便宜,故而老本绝对于规范CDN,要低很多。 其网络架构如下图所示,APP通过SDK拜访PCDN的边缘节点,如果内容热度值低,PCDN节点中没有该视频的缓存,则返回302状态码给到客户端,客户端再去拜访规范CDN获取资源,当视频热度达到肯定阈值时,PCDN会去规范CDN上回源获取对应的视频资源向客户端提供服务。 从这里咱们能够看到,PCDN的节点性能相比规范CDN更差,而拜访时会有肯定几率进行302跳转,减少了链路的耗时,所以必然会对视频播放时的起播速度和卡顿率造成较大的影响。 对此,咱们制订了多个优化措施,来升高播放体验的受损状况,在老本和体验之间进行均衡。 ...

February 22, 2024 · 1 min · jiezi

关于音视频:针对直播痛点的关键技术解析首帧秒开清晰度流畅度

简单的网络环境、机型设施等问题,导致直播产品面临诸多体验问题,如首帧加载工夫过长、画面含糊、卡顿等,极度影响了用户的直播观看体验,导致头部主播离家出走、营收降落、用户散失重大、APP 活跃度降落等问题,而以上问题呈现的起因通常能够从网络、设施、老本三方面来进行演绎。 网络网路环境简单地区之间网络差别微小存在跨网等状况CDN 品质不稳固设施终端设备机型品种繁多局部地区低端机型占比高、问题简单老本应用 RTC 做直播成果好,但老本较高画质高清带来成本增加,还容易引发卡顿,该如何确定适合的画质是让人头疼的问题全链路数据监控零碎简单如何将无限的资源更好的用在高收益的中央针对晦涩、秒开的技术优化面对直播体验困扰 ZEGO 即构科技畅直播全链路降级一站式直播服务,助力以后直播行业进行直播体验降级,打造直播体验优化的现实态 —— 以用户为外围,在秒开、高清、晦涩等评估角度之间取最优解;点击即构畅直播解决方案;在精细化晋升用户体验的同时,帮企业节省成本。 「畅直播」服务计划重点针对首帧耗时长、画质含糊、直播卡顿等常见直播景象进行了全链路优化。同时以 All-in-one SDK 的服务形式,集直播、实时音视频、AI 等全音视频能力于一体,一次晦涩接入 SDK,不仅能笼罩全场景直播需要,还能实现实时音视频和直播等多场景的切换。 本篇文章将针对秒开、清晰度、晦涩度这三个技术方向进行技术解析,带你理解 ZEGO 即构科技在直播服务计划上的核心技术优化思路。 一、首帧优化直播行业通常更加关注关上直播时的首屏加载工夫,音画的晦涩度和清晰度等是间接关系到用户体验的指标。这好比咱们在观看电视台时,无奈承受从央视 1 频道切换到央视 2 频道的时候,须要期待几秒能力看到画面,同时也无奈将本人沉迷在画面含糊甚至是卡顿的影音世界。 为升高频道切换的响应提早,加强用户体验,秒开技术成为了刚需。 咱们先剖析一下用户从点击进入直播间,到用户看到画面听到声音大抵通过的步骤:首先要为用户调配一个接入点,用户从该点拉流,调配接入点的过程咱们称之为接入调度;而后客户端须要与接入点间接进行拉流;接入点如果不存在该流还须要从其余服务器将该流引入接入点,咱们称之为回源;这些都实现后,客户端才能够收到音视频内容,进行播放。 这些步骤中的每一步都会影响秒开体验。 1、可定制化的调度策略首先说一说接入调度。接入点的好坏间接影响拉流品质,也间接影响建连速度。如果客户端与接入点的网络较差,比方存在 200ms 的 RTT,那么即便能在一个 RTT 内实现建连和拉流,这里至多也须要 200ms 后能力看首帧画面。如果存在丢包,可能会引入更大的提早。传统的 CDN 是应用域名解析的形式来指定接入点。肯定水平上解决了就近接入和负载平衡的问题,然而依然无奈实现更精准的可定制化的调度策略。 ZEGO 为了解决这些问题,自建了调度零碎 。 该零碎能够依据客户的业务模型定制最合适的调度计划。即构自建的对立接入层,负责解决寰球用户第一公里的接入品质,能保障用户接入到时延品质最优的接入节点。 例如咱们实现了能够准确到人级别的调度能力,这样能够在资源无限的状况下,优先保障热门主播直播间的体验。简略的说就是,热门主播会失去标记,标记后的热门主播会失去全网最好的接入资源,观众因为拉取热门主播的流,同样能够失去最好的接入资源而带来更好的观看体验。 再例如 ZEGO 的调度零碎能够联合源的地位给出最合适的接入点:比方主播在深圳推流,如果单纯的依据就近接入的准则,那么这个观众大概率会抉择广州的接入点。这样广州的接入点须要回源到深圳,这样散发的链路变长,岂但减少老本,而且回源也引入了更多提早和减少了首屏加载工夫。ZEGO 的调度零碎因为参考了源的地位,广州的观众能够间接从深圳拉流,而无需回源。当然,这里的前提是咱们认为广州的观众接入广州或者接入深圳并无链路品质上的差异。域名解析的形式,因为无奈带入源信息的起因,无奈实现如此精准的调度。 另外,链路的品质可能是时变的,在不同的时间段可能存在不同最优接入点,因为 DNS 缓存的起因,域名解析的形式也很难及时的给出时变的调度后果。总之,ZEGO 的调度零碎思考到了空间,工夫,运营商,热度,地位等信息,给出最优的调度后果。 2、建连和回源 而后咱们说一说建连和回源。因为 TCP 协定三次握手的存在,建设一个 TCP 链接至多须要 1.5个 RTT,加上应用层的数据交换,用户至多要在 2 个 RTT 之后能力看到首屏画面。而 ZEGO 通过优化公有协定,能够实现 0 RTT 建连,起码能够在 1 RTT 后即可展示首屏。 另外,一种直观的回源形式是逐级回源,能够看成是串行的形式:A 回源到 B,B 发现自己并不存在该流资源后再回源到 C。这种多级跳转在跨国线路中普遍存在,有时须要 4-5 跳能力实现很好的传输成果。但多跳的链路会使得串行的回源形式显得低效,回源的总时长为各跳之和。ZEGO 则采纳并行回源的形式,即 A 回源 B,B 回源 C 同时进行,这样能够将回源的总时长压缩至各跳中的最大值。 ...

September 27, 2023 · 1 min · jiezi

关于音视频:音视频通话前的网络及设备检测该如何操作

前言:为了保障实时通信体验,通话前能够进行网络与设施的检测,提前辨认并排查问题。 网络检测:检测网络环境,可用于判断或预测网络环境是否适宜推/拉指定码率的流。 设施检测:检测本地麦克风、摄像头以及扬声器是否能失常工作。本文将介绍如何应用 ZEGO SDK 接口,实现上述两个角度的检测。 网络检测请参考 网络与性能 进行操作。 设施检测2.1 麦克风检测2.1.1 检测逻辑麦克风设施检测流程如下图所示: 2.1.2 对应接口1. 启动麦克风 调用 startPreview 接口在不推流的状况下启动音频采集。 engine.startPreview();2. 检测麦克风权限 ZEGO SDK 主动查看麦克风权限。 因为 Android 6.0 在一些比拟重要的权限上要求必须申请动静权限,不能只通过 “AndroidMainfest.xml” 文件申请动态权限。因而还须要参考执行如下代码,其中 “requestPermissions” 是 “Activity” 的办法。 String[] permissionNeeded = { "android.permission.RECORD_AUDIO"};if (Build.VERSION.SDK_INT >= Build.VERSION_CODES.M) { if (ContextCompat.checkSelfPermission(this, "android.permission.RECORD_AUDIO") != PackageManager.PERMISSION_GRANTED) { requestPermissions(permissionNeeded, 101); }}3. 检测麦克风是否可用 通过如下回调检测设施是否异样,若未检测到任何异样反馈(可同步启动 “4. 检测麦克风收音数据”),且麦克风收音数据检测失常,则麦克风设施可用。 2.15.0 之前版本:监听 onDeviceError 回调检测设施是否异样。/*** 音视频设施谬误告诉* @param deviceName 设施类型名称。返回值参考 {@link com.zego.zegoliveroom.constants.ZegoConstants.DeviceNameType}* @param errorCode 错误码。返回值参考 {@link com.zego.zegoliveroom.constants.ZegoConstants.DeviceError}*/void onDeviceError(String deviceName, int errorCode);2.15.0 及以上版本:监听 onLocalDeviceExceptionOccurred 回调检测设施是否异样。/** * 本地设施异样告诉 * * 反对版本:2.15.0 及以上。 * 详情形容:本地设施异样。 * 告诉机会:当本地音频或视频设施性能出现异常时会触发此回调。 * * @param exceptionType 设施异样类型。 * @param deviceType 产生异样的设施类型。 * @param deviceID 设施 ID。目前仅反对桌面端设施,用于标识具体的设施;对于挪动端设施,此参数将返回空字符串。 */public void onLocalDeviceExceptionOccurred(ZegoDeviceExceptionType exceptionType, ZegoDeviceType deviceType, String deviceID){}4. 检测麦克风收音数据 ...

September 27, 2023 · 2 min · jiezi

关于音视频:音视频开发进阶|第四讲音频自动增益控制-AGC

在之前的文章中,咱们曾经接触了两个重要的音频前解决模块 – 回声打消 AEC 和噪声克制 ANS,它们别离解决了 RTC 场景下的回声、噪声问题,极大晋升了用户的体验。至此,音频前解决三剑客中,就只剩下一位 – 音频自动增益管制 AGC(Automatic Gain Control)还没有介绍,明天咱们就来认识一下它。 理论场景的音量问题和AGC的必要性相较于回声和噪声,音量相干的问题仿佛不怎么“重大”,如果排除播放端误操作的因素,理论场景中还会有哪些音量问题?什么状况下咱们会有“须要调整音量”的想法呢? 状况一:音量太小,咱们无奈辨识具体的语音信息,甚至须要贴着扬声器、皱着眉头“凝听”。起因可能是讲话者间隔麦克风过远,也可能是麦克风的采集音量就比拟小; 状况二:音量太大,咱们的耳朵蒙受“痛击” ,不得不对扬声器“敬而远之”。起因可能是讲话者间隔麦克风过近、可能其谈话自身就比拟“使劲”。 状况三:音量忽大忽小,一段语音里可能同时存在前述两个问题,音量起起伏伏、不即不离,对听众来说无疑也是一种”折磨”。 对于这些音量问题,除了让讲话者调整与麦克风的间隔、本身谈话的声音大小外,咱们熟知且习惯的解决办法是:在采集端,调节麦克风的采集增益;在播放端,调节播放软件的音量条、或者设施扬声器的播放增益。   采集音量控制  播放音量控制 这些手动的操作,其实都还算得上空谷传声。这么一看,既然动动手就能够自行解决,音量问题貌似确实不是什么大问题,为什么还须要自动增益管制呢? 咱们须要意识到,“动动手”这种被动的音量调节形式,尽管有肯定成果,但“不够便捷”,也“众口难调”。理论场景中,环境复杂多变:谈话者不同则声音的原始音量有差别,谈话者间隔麦克风远近不同则声音流传的衰减有差别,麦克风设施不同则采集的增益有差别。  这些差别,使得一次“手动调节”很难适应采集环境的动态变化,如果场景中存在多个用户应用同一个麦克风的状况,更难一一兼顾。对于不相熟设施零碎的用户来说,如何调节设施采集增益、调节到多少适合或者都是“不可能实现的工作”(你晓得如何调节PC端的麦克风增益吗?)。如果只依赖于手动调节,尤其是频繁的手动调节,势必会给用户带来累赘,影响体验,对于产品设计来说也不够“优雅”。 此时,一个智能的音量调节机制的必要性就体现进去了。 AGC 针对上述情况,会主动调节采集端的音量“增益弥补” 。简略来说,如果讲话者的声音过大, AGC 会主动升高增益;反之,会主动进步增益,以确保音量维持在一个比较稳定的程度。这个过程,用户无需频繁操作设施,就能防止声音起伏导致的不良体验,能够专一于 RTC 的音视频交互。 理解了常见的音量问题,以及 AGC 在解决这些问题上的劣势,大家应该能领会到 AGC 存在的合理性和必要性,是时候再进一步理解下其中的技术点了。所谓“音量自动增益管制”,想要做具体理解,咱们无妨把它拆解一下,一一击破: 什么是“音量”?音量“增益”的实质是什么?AGC进行音量增益“自动控制”的策略是什么?咱们接下来就一一解答这些问题。 一、什么是音量在探讨 ANS、AEC 的文章中,咱们都会先理清相应模块的解决对象,比方噪声是什么、回声是什么。所谓知己知彼,AGC 也不例外,咱们须要先晓得:到底什么是音量? 其实,在系列文章的第一讲 – 音频因素中,咱们就接触了音量的概念,只不过应用的是另外一个名称:响度。 咱们回顾一下响度的定义:“嘹亮、强劲,是对声音强弱的感觉形容,这种特色被称为响度。响度由发声体振动的幅度决定,当流传的间隔雷同时,振动幅度越大、则响度越大;相同,当振幅肯定时,流传间隔越远,响度越小,就是咱们常说的“间隔太远了,听不见”的起因。“音量、响度”形容的是声音的同一属性,从定义上来看,它们是人耳对声音强弱的“感触”,次要由声音振动的“幅度”决定。感触是一种“心理量”,无奈被具体量化;而振幅是“物理量”,在音频采样位深为 16bit 时,其幅度取值为[-32768,32767],范畴十分大,不便于检测和计算(对于采样位深和幅度的概念,可参考系列文章的第一讲--音频因素--声音的采集与量化)。 为了简化示意,咱们又引入其余计量规范来示意音量,常见的有“声压级”规范和“全分贝刻度”规范,二者应用的单位均为分贝(dB)。 分贝是一个对数单位, 用于示意两个雷同单位物理量的比,所以它须要参考一个基准量来进行计算,基准量不同,失去的数值体系也不同: 声压级(SPL,Sound Pressure Levels) :单位为 dBSPL。应用声压作为基准量,其基准值为 20 Pa (声音在空气中振动会引起大气压强的变动,也即“声压“,单位为 Pa 。20 Pa 是人耳在频率1KHz下能感知的最小声音,相当于三米外一只蚊子的声音)。咱们把声压为 20 Pa 的音量记为 0 dBSPL,音量越大,声压级分贝越大。咱们失常谈话聊天的声压级音量约为 40 ~ 60 dBSPL,如果音量达到 90dBSPL 以上会伤害听力,190 dBSPL 以上甚至会危及生命。常见的噪声等级划分,就应用了声压级参考系。全分贝刻度(DFS,Decibels Full Scale) :单位为dBFS。应用音频采样点的幅度值作为基准量。和声压级不同,全分贝刻度的基准值不是最小值,而是最大值。比方,对于采样位深为16bit的音频,音频采样点的最大振幅为32768,此时音量最大。咱们取振幅 32768 作为基准量,对应全分贝刻度 0 dBFS,0 dBFS 也即全分贝刻度规范下的最大音量,除了最大音量外都是负值,16bit下的最小值为 -96 dBFS。数字设施、数字音频解决均应用全分贝刻度作为音量单位,AGC 解决也是如此。通过下面的形容,大家对于“什么是音量?”,应该有了初步的认知,有趣味的同学,还能够具体去理解不同音量规范的对数计算公式,有助于大家进一步了解“分贝”的概念。 ...

September 27, 2023 · 2 min · jiezi

关于音视频:网易云信音画同步测试方法的研究与实践

概述随着挪动互联网的遍及和网络带宽的进步,音视频通话越来越成为人们生存和工作中不可或缺的一部分。音画同步是音视频体验的一个重要指标,在音视频传输过程中,因为不同的传输策略因为网络的烦扰,音频和视频往往难以同时达到,即便在网络层面对齐后在设施侧音频播放和视频渲染也存在肯定的时间差,从而导致音画同步问题的产生。为了解决这个问题,须要对音画同步进行主观的测试,以便更好地评估音视频通话的品质。 业界办法调研评估规范对于音画同步,业界有 3 个规范,其中影响力最大的是 ITU-R BT.1359。 ITU-R BT.1359(1998):国际电信联盟规范ATSC IS/191(2003):美国的数字电视国家标准EBU R37(2007):欧洲播送联盟规范音视频同步评估规范 无奈感知:-100ms ~ 25ms能辨认:–125ms & 45ms不可承受:小于-185ms & 大于 90ms其中负值示意画前音后;正值示意画后音前。 主观评估主观评估的次要思维是人工察看和评估音画同步情况,并依据集体主观感触和教训来做出评估。在音视频通话中典型的测试形式是一个人数数,另一个人察看对方的口型和听到的声音是否统一,故音画同步在音视频通话场景又名唇音同步。当然也有改进版本,通过播放一些规范的音画同步测试视频来代替数数,从视频内容的中辅助察看着去尽可能减少和量化集体主观评估影响,参考测试视频可点击观看:https://www.bilibili.com/video/BV1Bk4y1z78S/?spm_id_from=888.... 主观评估办法的劣势是绝对容易实现和管制,同时能够精确反映用户体验和情感反馈。然而其劣势也比拟显著,次要包含: 受测试者主观因素的影响,不同的测试者可能会有不同的主观感触和评估规范,导致后果的不一致性和不准确性。测试可重复性差,主观评估办法往往难以量化和标准化。测试工夫和人力老本高。主观评估主观评估办法的外围思维是通过音视频内容辨认的技术来定义用户理论看到的和听到的内容,再针对内容进行对齐通过获取到的工夫戳的差别来评估主观的音视频同步时延。 对于测试视频的筹备音频个别采纳信号音,视频图像内容上减少数字标签,两者有做好对应关系保护,以保障发送端是齐全同步的,在接收端通过信号音&OCR 辨认技术进行音视频的内容判断&对齐。 主观测试组网 利用实际基于后面的调研,在实验室外部进行了落地,并在落地过程中针对遇到的一些问题进行优化。 测试环境设施列表 测试组网优化计划测试素材制作艰难&优化计划: 传统的信号音计划容易被音频 AI 降噪算法打消,导致在音频特征分析时无奈被精确辨认。 优化计划:应用失常的语音替换信号源,优化音频内容辨认计划。 视频标签 OCR 辨认高分辨率下开销大且会测试烦扰内容。 优化计划一:固化测试环境及视频标签所在位置,对输出视频进行 crop 解决,局限性较大。 优化计划二:应用二维码代替数字视频标签,理论测试 resize 到 360P 均能失常辨认,且不受地位和内容烦扰。 音视频工夫戳对齐艰难&优化计划: 音视频时延实现逻辑差别,无奈失常实现工夫戳对齐。 优化计划:基于发送端工夫戳人造对齐的根底,将时延计算基于发送端实现,缩小承受端对齐操作。 音视频采集卡采集延时不对等引起测试后果的误差。 优化计划一:事后评估设施采集误差,解决数据的时候打消该误差。 优化计划二:将发送端和承受端基于归一到同一个采集卡,多路同时采集,时延计算时误差人造打消。 后果准确度晋升艰难&优化计划: 受网络及测试规格的影响,接收端无奈保障内容的完整性,常常会呈现无奈找到音视频的标签对应的点。 优化计划:减少音频&视频采集工夫戳对齐逻辑,同时在工夫戳差别较大时减少音视频被动向后查找逻辑。 音频必须继续一段时间能力评估时延,而视频仅需一帧图像即可输入时延。 优化计划:视频时延减少窗口逻辑,保障和音频统计距离统一,基于窗口内的数据均衡解决后打算音视频时延。   成绩在实验室弱网评测引入音视频同步指标,量化了音视频同步状况,开掘了多个弱网场景下音画同步显著劣于竞品的问题,在推动外部优化后,目前该指标从显著落后于竞品已初步超过竞品。 竞品比照数据 将来布局优化现有音视频同步的阈值,音视频通话场景下用户实在体验的容忍度理论比[-90,185](音频-视频)的范畴是更高的。用户综合体验指标钻研:评测过程中发现局部场景下竞品会抉择适当就义音画同步成果,保障音视频的实时性。这种时候繁多的评估论断不具备非凡意义,须要通过综合体现来评估最终的用户体验

September 6, 2023 · 1 min · jiezi

关于音视频:ZEGO-即构音乐场景降噪技术解析

随着线上泛娱乐的衰亡,语聊房、在线 KTV 以及直播等场景在人们的日常生活中占据越来越重要的位置,用户对于音质的要求也越来越高,因而超过传统语音降噪算法的 AI 降噪算法应运而生,所以目前各大 RTC 厂商广泛应用 AI 技术进行降噪解决,应用 AI 降噪技术打消除人声外的所有声音。 但对于一些非凡场景,如在线 KTV、线上直播等声卡场景,或者弹唱、伴奏、乐器等应用场景中,咱们能够显著的感触到,个别降噪解决或 AI 降噪解决的过程中会将音乐/伴奏误辨认为乐音,并进行降噪解决,给用户带来很不好的线上体验。因而,在此类应用场景中用户越来越不满足于背景降噪,而是提出更高要求,那就是深度降噪的同时保留音乐的音质。为了满足用户消噪与音乐音质高保真的需要,ZEGO 即构科技自研了一套自适应降噪计划,能在音乐与非音乐场景中智能切换,既保证了无音乐场景下的语音的品质,又保留了音乐的高保真音质。 音乐场景降噪计划简介首先简略理解一下即构音乐场景降噪的计划流程: 从图中能够看到,通过前解决后的音频数据会被送入 AI 音乐检测模块,接着依据检测后果将场景分为音乐和非音乐场景。若检测出音乐场景则会应用传统降噪对音频数据进行解决,以缩小对音乐的伤害,非音乐场景则持续应用 AI 降噪进行更深度的噪声打消。最初数据会通过自动增益模块实现最终的语音加强。 对于 AI 音乐检测算法由上文形容中能够看到,实现音乐场景降噪性能最重要的一环就是 AI 音乐检测算法。为了满足音乐场景的实时切换与极高检测率的需要,咱们自研了基于AI的音乐检测算法 ZegoAIMusicDetecion。 算法流程如下: 咱们对数据进行帧长为 20ms,帧移为 10ms 的 STFT 解决后,应用 Bark 频带尺度将数据分为8 个子带,再别离求取一阶差分,二阶差分和谱平坦度最终失去 25 维特色。将计算失去的特色送入到咱们设计的轻量型网络模型 CRNN,模型构造如下: 这里应用多层 Conv1d 卷积层能进一步的对特色进行提取。训练时,咱们收集了大量的开源音乐、语音与噪声数据进行训练,同时应用不同信噪比进行数据混合加强,确保模型有足够的泛化性。在训练优化器上,咱们抉择了 AdamW 以更好地对模型进行正则化解决,学习率为 0.001,批大小是 64,损失函数咱们应用了穿插熵函数,公式如下: 算法成果与性能开销有了 AI 音乐检测算法的帮忙,咱们最终能够实现针对音乐场景的降噪计划,计划最终的成果如下: 从下面的频谱图以及理论的听感来看,都能够直观的感触到即构音乐场景降噪计划对音乐音质的爱护。在提供良好效果的同时,ZegoAIMusicDetecion 秉承着极轻量级模型的设计理念,整体计算量大概为 1.2M FLOPS,RTF 指标在各个平台和终端上均管制在 0.2% 以内。在此基础上,咱们采纳多帧平滑的后处理技术使音乐检测误检率低于 1%,音乐检测率达到 95% 以上。 技术瞻望音乐场景在泛娱乐社交和互动中非常常见,须要重视用户和听众的应用感觉,做好音乐场景降噪解决。综上所述,ZEGO 即构科技为了同时兼顾降噪与音乐音质体验,自研了基于 AI 的音乐检测算法(点这里),设计出一套音乐场景降噪计划,充分体现即构对于用户良好体验的高度重视。 ...

June 21, 2023 · 1 min · jiezi

关于音视频:实时音视频|社交直播语聊商业化解决方案

摘要 在过来几年的直播行业守业风口期中,直播的用户关注度疯狂增长,但用户品质却参差不齐。随着用户新鲜感一过,流失率变得相当严重,各大平台都在全力以赴进攻。然而,留住“凑热闹”的非直播受众用户并不是最要害的问题,而是要找到适宜实在直播受众用户的商业化路线,能力保障行业的稳固凋敝。因而,咱们须要摸索无效的商业化模式,以确保产品的长期倒退。 一、社交直播产品概述 泛娱乐社交直播产品是指以社交直播为根底,联合娱乐元素和游戏化设计的社交娱乐产品。它的产品状态以互动性、社交性为次要特点。其外围性能包含:实时直播、互动交换、打赏送礼、游戏竞技、娱乐节目等。通过直播平台,让用户能够观看和参加娱乐直播节目、游戏竞技等,与主播和其余观众进行互动、交换和比赛,并能够通过打赏、送礼等模式反对青睐的主播或者获取处分。 泛娱乐社交行业行业图谱蕴含应用层、技术层和硬件层三个层面。以直播语聊产品为次要代表,其技术层面的体现间接决定了用户体验和产品的商业化能力,技术层的重要性体现在:直播晦涩度、社交互动、安全性等方面。头部的音视频厂商有:腾讯云(https://cloud.tencent.com/),即构科技(https://www.zego.im/ ),阿里云(https://www.alibabacloud.com/zh )等。 社交直播市场竞争强烈,次要头部平台为快手、抖音、YY和斗鱼。新兴社交直播产品如B站、映客也在逐渐崛起。传统视频平台也开始退出到社交直播畛域。以后市场格局呈现出头部垄断的趋势,将来竞争将更加强烈,整个行业将会更加多元化和细分化。 二、社交直播产品商业化模式 社交直播产品想要在强烈的市场竞争中怀才不遇并取得成功,确保产品的稳固倒退、用户需要的满足以及公司的盈利和生存。商业化是必经之路且至关重要。 直播语聊产品的商业化模式次要包含广告支出、付费会员、虚构礼物支出、主播带货四种次要形式。 1. 广告支出模式:直播平台通过向广告主发售广告位来获取支出。这种模式实用于用户量宏大、品牌知名度高的直播平台,例如斗鱼TV、虎牙直播等。 长处 • 广告费用是稳固的支出起源; • 用户能够通过宣传品牌获取肯定的收益,减少用户的参与度和粘性; • 平台能够从广告费用中取得肯定的分成比例,减少收益; 毛病 • 广告过多,可能会影响用户体验 2. 打赏模式: 在社交直播产品中,观众能够通过虚构礼物或者实在货币的模式向主播进行打赏,直播平台从中抽取肯定的手续费作为平台的支出起源。这种模式实用于用户黏性高、社交气氛浓重的直播平台,例如Bilibili、快手等。 长处 • 用户购买虚构礼物能够表白对主播的喜爱和反对,减少用户的参与度和粘性; • 主播能够通过销售虚构礼物取得肯定的收益,进步其创作积极性; • 平台能够从礼物销售中取得肯定的分成比例,减少收益。 毛病 • 礼物销售的收益受到主播号召力、用户活跃度等因素的影响,不稳固。 • 用户付费志愿无限 3. 付费订阅模式: 直播平台为用户提供付费订阅服务,用户能够通过付费订阅来获取更多的特权与福利。这种模式实用于内容品质较高、用户需要较为明确的直播平台,例如斗鱼TV、YY语音等。 长处 • 用户能够通过订阅获取更多的专属内容,进步用户的参与度和粘性; • 主播能够通过订阅免费取得肯定的稳固收益,进步其创作积极性; • 平台能够从订阅费用中取得肯定的分成比例,减少收益,订阅模式支出较为稳固。 毛病 • 须要平台不断更新内容放弃用户粘性 • 用户付费志愿无限 4、主播带货商业模式: 主播带货是近年来比拟热门的商业化模式。主播能够在直播中介绍和展现商品,用户能够间接在线购买。直播平台从中获取肯定的收益。这种模式须要直播平台提供优质的商品资源和主播资源,以吸引用户购买商品。 长处: • 主播能够间接向用户举荐商品,减少用户购买的决策性和信任感; • 主播能够通过销售商品取得肯定的收益,进步其创作积极性; • 平台能够从商品销售中取得肯定的分成比例,减少收益。 毛病: 主播带货须要有肯定的专业知识和技巧,须要投入肯定的工夫和精力;\商品销售的收益受到主播的号召力、用户活跃度等因素的影响,不稳固。 三、打赏模式是实时社交最重要的变现模式 打赏和虚构礼物模式是目前社交直播产品的次要盈利形式之一。 在实时社交的场景下,打赏和虚构礼物模式具备得天独厚的劣势。打赏的价值模型实质上是通过提供陪伴、社交和荷尔蒙等方面的价值来换取收益。通过打赏和虚构礼物,观众能够与主播建设更加严密的分割,从而为直播平台带来更多的支出。同时,打赏也能激发主播的积极性和创造力,推动用户与主播之间的互动和社交。 依据TME的年报数据显示,虚构礼物和打赏的支出占比最大。网易云音乐的直播业务收入同比增长了近3倍,其中,虚构礼物和打赏的支出占比也十分高,这再次证实了打赏和虚构礼物是直播产品的次要盈利模式之一。Soul,一款新兴的音乐社交直播利用,其打赏和虚构礼物商业模式也是次要的盈利形式,其月支出曾经超过了1亿元人民币,其中,虚构礼物和打赏的支出占比超过了60%。 TME财报,打赏占其营收大头 四、直播语聊产品变现模式的痛点和解决方案 在整个直播语聊产品的用户门路中,商业化模式是贯通始终的,波及到产品开发、用户增长、盈利模式等方方面面。直播语聊产品的用户门路包含用户注册、关注其余用户、参加语聊房间、送礼和打赏、分享和邀请等多个方面。用户能够疾速找到本人感兴趣的房间和主播并参加其中,实现与其余用户的互动和交换。 直播产品的用户门路: 用户注册登陆-浏览或搜寻主播或房间-退出语聊房聊天互动-购买虚构礼物进行打赏-分享房间-参加其余流动和工作-完结 直播语聊产品商业化的业务模型包含流量获取、用户承接、社交积淀和付费转化。随着竞争日益强烈,每个环节都存在痛点难点。 • 流量获取:社交行业的买量老本继续上涨,但用户老本超过30元 • 用户承接:不足优质内容的实时场景让用户玩不起来,导致新用户散失。 • 社交积淀:不足丰盛玩法的社交场景让用户无奈产生无效的互动,导致退出率高和留存率低。 • 付费转化:公会为代表的头部PGC占据了超过80%,PGC分成高导致平台老本大。 在直播语聊产品的商业化过程中,须要综合思考并制订科学合理的商业化策略,以攻克痛点并实现商业化胜利。上面针对四个环节的痛点给到优化策略倡议,产品有相干业务流程问题的可参考优化。 业务模式形容痛点优化策略流量获取通过投放等渠道拉新社交行业的买量老本继续上涨,但用户老本超过30元抉择适合的推广渠道,如社交媒体、行业媒体、搜索引擎优化等,来进步产品的曝光度和用户访问量。此外,对于新用户能够提供一些优惠、礼品等刺激措施,吸引用户下载、注册、应用产品。用户承接新用户进入app实时承接的内容或玩法 不足优质内容的实时场景让用户玩不起来,导致新用户散失提供更好的内容和服务来进步用户的满意度和粘性。例如,提供更多元化的内容、更丰盛的互动性能、更个性化的服务等。同时,能够通过用户调研、数据分析等伎俩,理解用户的需要和反馈,及时优化产品。社交积淀通过产品的社交性能的设计和推广疏导用户建设社交行为。不足丰盛玩法的社交场景让用户无奈产生无效的互动,导致退出率高和留存率低。提供更多的社交场景和性能,如社交小组、社交游戏、社交活动等,来加强用户的社交互动和粘性。此外,能够通过用户数据分析,理解用户的社交行为和习惯,针对性地推出更合乎用户需要的社交场景和性能。付费转化通过关系链、PK、概率游戏疏导用户抽奖打赏取得利润公会为代表的头部PGC占据了超过80%,PGC分成高导致平台老本大提供更有价值的付费服务和虚构商品,如精品课程、独家权利、虚构礼品等,来进步用户的付费志愿和满意度。此外,能够采纳灵便的免费策略,如会员制度、按需付费等,以满足不同用户的需要和生产习惯五、直播语聊产品的利用场景和技术需要 ...

June 13, 2023 · 1 min · jiezi

关于音视频:融云亮相中国信息技术应用创新大会入选数字化转型优秀方案集

4 月 27 日,以“全栈翻新 从可用到好用”为主题的“2023 第六届中国信息技术利用翻新大会”在京顺利召开。移步【融云寰球互联网通信云】回复“地图”限量收费领《社交泛娱乐出海作战地图》 大会以“论坛+展现展览”的形式,全面、深刻地反映信创产业的最新成绩、发展趋势、利用翻新。 论坛上,来自地方窃密办(国家保密局)、水利部、民政部、最高人民检察院、北京市大数据中心、北京市经济和信息化局等信创畛域相干部委和中央政府领导就“如何推动信创产业减速落地”开展了深入探讨和精彩发言。 地方窃密办(国家保密局)科技司副巡视员陈荣辉 融云携政企数智办公解决方案参展,并且其政企项目组实现的“市级政府数智协同办公平台建设标杆案例”作为中国数字化转型优良计划被收录进大会会刊。 融云标杆案例分享在数字政府建设大背景之下,融云基于 PaaS 模块化组装与二次开发相结合的形式,助力某市级政府组织实现办公零碎的数智化降级,打造出信创环境下具备对立身份认证、对立音讯待办、对立利用入口的综合型智慧政务办公平台,全面满足了政府外部沟通、组织治理、办文办会等利用场景。 该我的项目既晋升了组织工作效率,也优化了政务人员的数字办公体验,以“一站式掌上办公”代替了碎片化零碎建设之下“多个零碎频繁切换”的简单操作,成为数字政府大协同、大平台标杆我的项目。 01 施行背景国务院印发《对于增强数字政府建设的领导意见》中提到,增强数字政府建设的根本准则之一是“保持整体协同”,全面晋升数字政府集约化建设程度,晋升跨层级、跨地区、跨零碎、跨部门、跨业务的协同治理和服务水平,促成数字政府建设与数字经济、数字社会协调倒退。 为响应政策号召,同时晋升组织管理效率、撑持政务办公数字化,某市级政府迅速出台了数字政务的顶层布局,将“协同办公平台”列为其中最重要的基础设施建设,对协同平台的通信稳定性、信息安全性、工具易用性、底层兼容性等均提出了极高的要求。 承接此我的项目需要的是具备通信 PaaS 服务背景的政企数智化技术服务商“融云”。 针对政企组织跨域工作协同难、通信安全保障难、组织管理效率低等问题,融云可能为政府、党建、应急、金融等不同畛域组织,提供数智化协同办公综合解决方案,通过打造平安可信、稳固经营的数智办公平台,晋升数智赋能实效,助力全行业的数字化转型降级。 作为信创工委会会员单位之一,融云是最早反对国产化的通信云厂商,已全面适配国产支流芯片、操作系统、数据库和中间件等软硬件设施,可充沛满足政企组织在国产化环境下的通信需要。 融云政企数智办公解决方案全景图 02 施行指标依靠融云“数智办公解决方案”进行协同办公平台建设,政府提出的外围需要和施行指标包含: 第一,须融入平安稳固的通信能力,交融公文治理、督查督办、党政治理等功能模块,买通外部通信与日常办公的接口,一站式解决政务职能中对于办文、办会等相干业务的需要; 第二,须买通多线条、多穿插业务协同通道,解决信息流通不畅、跨零碎操作不同步的问题,晋升全组织人员合作效率; 第三,须满足外部涉密文件及信息沟通的平安需要,适配国产芯片、操作系统、数据库等国产化软硬件产品; 第四,须预留凋谢的底层接口,并造成平台级的对立标准规范,以承接后续对各类三方利用的疾速集成需要。 03 建设内容基于 PaaS 模块化组装与二次开发相结合的形式,融云助力该市级政府组织胜利实现了办公零碎的数智化革新建设,以即时通信切入、以工作台为入口,围绕政府办公波及到的人、工作、常识、业务、场景,将各类办公服务串联在了一起,全面满足政务办公的泛滥利用场景: 政府协同办公平台整体性能框架 1. 音讯沟通员工能够通过协同办公平台,与共事间一对一发送多种类型的音讯,包含文本、图片、文件、语音片段、小视频、地理位置等。 面对多人沟通需要,平台能够主动创立全员群、部门群等,且群成员无下限,群音讯浏览状态能够直观展示,通过列表可实时理解未读人员状况,确保重要的群音讯都能被所有成员浏览,让外部沟通更加及时与便捷。 2. 组织治理平台提供对立通讯录,树形组织架构清晰易查找。依据不同施政方针,平台高度灵便的组织架构搭建模式既能实现“一套人马两块牌子”的公务治理,也能反对向上司二级机构发送公文,还可随时搭建长期机构。横向协同单位、纵向垂管部门间的业务往来畅通无阻,人事拆散也防止了“不意识对接人”影响工作进度的状况。 此外,平台设有高管信息保护模式,通过后盾设置能够暗藏重要领导的手机号码,防止单位领导信息泄露。 同时,平台设有可视化治理后盾,为组织的管理人员提供多维度平台治理能力。其中,数据大盘可实时更新,便于清晰全面把握用户统计、音讯统计、单群聊统计等数据,让用户总数、日活跃度等变动状况直观可查;更重要的是,反对对管理员限定治理范畴,分级管理,全面保障平台的平安经营。 3. 办文办会融云稳固的 IM 能力保障了公文线上起草、上传、签批、跨单位收发等工作的牢靠通信,确保音讯流转 100% 达到。同时,反对同一账号在电脑端、挪动端等多端登录,各端历史音讯可实时同步。 比方,通过公文挪动签批性能,领导即便外出,也能在挪动端实现公文签批操作,防止公文流转卡在签批环节;公文同步传阅性能,解决了纸质公文在逐级、逐科室、逐人传阅过程中费时费力的问题;公文主动归档性能,不便随时查看和追溯,等等。 另外,基于融云高品质的音视频通信能力,平台反对为各种模式的线上视频会议提供清晰晦涩的通信传输,包含小型会议室、大型会议厅等广播式会议模式,和“主持人会控”、“自在探讨”等交互式会议模式。 在视频会议中,融云提供的白板、屏幕共享等周边能力,使政府会议内容和模式得以更加活泼丰盛地出现。在会议告诉和信息简报方面,融云反对重要告诉布告的下发及确认,反对预设发送工夫,多端渠道并行以确保音讯必达,为政府部门安顿参会领导排序、上报参会人员、上传会议资料等重要程序提供了可靠保证。 04 施行成果由政府主导、融云参加研发的办公信息化、治理智慧化、决策数据化协同办公平台已上线运行 3 年左右。因其“懂政府、可信赖、接地气”的强实用性特点,迅速在市属各级政府部门推广遍及,成为“高效办公第一载体、改良风格第一利刃、科学决策第一顾问、公务人员第一帮手”。 值得一提的是,该协同办公平台在疫情期间也施展了极大作用。基于平台的高可扩展性和兼容性,针对疫情各种信息收集及上报的需要,政府高效搭建了健康状况提报微利用,通过告诉推送将待收集信息推送给全员,后盾基于收集的信息可进行疾速统计分析及上报,为防疫工作提供了极大的便当。 这一典型案例如果可能复制到有雷同需要的其余办公环境中,能够解决更多政务办公中跨域工作协同难、信息安全保障难等诸多问题,带动政府数字化转型迈上新台阶,发明出更多惠民佳绩。

May 11, 2023 · 1 min · jiezi

关于音视频:音视频摄像头

web camera vs ip cameraIP Camera次要指那些能够间接接入Internet的摄像头,个别不须要专门的PC反对,能够归类于嵌入式设施。多用于监控,如公路上各个路口的监控设施。价格绝对较高Web Camera次要指那些须要通过电脑、手机、平板等机器能力接入Internet的摄像头,多是USB接口。多用于视频聊天,拍照等。价格绝对也较低。查看设施反对if ('mediaDevices' in navigator && 'getUserMedia' in navigator.mediaDevices) { console.log("Let's get this party started")}音视频采集上面介绍浏览器采集音视频的相干API: 1. getUserMediaMediaDevices.getUserMedia() 会提醒用户给予应用媒体输出的许可,媒体输出会产生一个MediaStream,外面蕴含了申请的媒体类型的轨道。此流能够蕴含一个视频轨道(来自硬件或者虚构视频源,比方相机、视频采集设施和屏幕共享服务等等)、一个音频轨道(同样来自硬件或虚构音频源,比方麦克风、A/D 转换器等等),也可能是其余轨道类型。 它返回一个 Promise 对象,胜利后会resolve回调一个 MediaStream 对象。若用户回绝了应用权限,或者须要的媒体源不可用,promise会reject回调一个 PermissionDeniedError 或者 NotFoundError 。 var promise = navigator.mediaDevices.getUserMedia(constraints);2. MediaStreamConstraintsMediaStreamConstraints参数对象,指定了申请的媒体类型和绝对应的参数。 constraints 参数是一个蕴含了video 和 audio两个成员的MediaStreamConstraints 对象,用于阐明申请的媒体类型。必须至多一个类型或者两个同时能够被指定。如果浏览器无奈找到指定的媒体类型或者无奈满足绝对应的参数要求,那么返回的 Promise 对象就会处于 rejected[失败]状态,NotFoundError作为 rejected[失败]回调的参数。 以下同时申请不带任何参数的音频和视频: { audio: true, video: true }如果为某种媒体类型设置了 true ,失去的后果的流中就须要有此种类型的轨道。如果其中一个因为某种原因无奈取得,getUserMedia() 将会产生一个谬误。 还能够对每一条媒体轨进行限度 { video:{ frameRate: {min: 20}, width: {min: 640, ideal: 1280}, height: {min: 360, ideal: 720}, aspectRatio: 16/9 }, audio:{ echoCancellation: true, noiseSuppression: true, autoGainControl: true, }}视频的帧率最小20帧每秒;宽度最小640,现实宽度是1280;同样的,高度最小是360,现实高度是720;此外宽高比是16:9;对于音频则是开启回音打消、降噪以及自动增益性能。 ...

April 30, 2023 · 1 min · jiezi

关于音视频:Josh-×-微帧科技为印度TOP短视频平台提供视频编码服务

近日,微帧科技正式发表了与VerSe Innovation的单干,基于微帧视频智能编码引擎,为VerSe Innovation旗下的短视频平台Josh提供卓越的视频编码服务,独特晋升平台用户的体验品质(QoE)。 2020年6月,印度下发布告,封禁了来自中国的包含社交、自拍、跨境电商、近程办公、互联网工具、短视频等59款利用。同年7月,VerSe Innovation便信心发力短视频,推出了应用程序 [ Josh ],以抢占TikTok下架后空缺的短视频市场。正是这样的下沉利用,在印度这个新兴市场迅速集中了海量用户和创作者。据报道,Josh每月至多有1.15亿沉闷用户,成为了印度最大的短视频利用平台之一。 据悉,目前印度在线视频用户总数已超过3.5亿,预计到2025年,大概6.5亿印度人每天将破费大概一小时观看短视频。如此增速,势必会给短视频平台带来微小挑战:①如何在保质保量的前提下升高带宽老本?②如何在用户网速不稳固、设施性能无限的状况下保障其观看体验? 作为印度最受关注的利用及企业,VerSe在对多家供应商进行了十分详尽的技术审查及比照后,最终抉择了微帧视频智能编码引擎,以解决其传输老本过高、画质与码率之间无奈达到最佳均衡、用户体验难以晋升的困扰。 微帧视频智能编码引擎可能对视频数据进行高效压缩,在不影响画面质量的状况降落低码率,从而减小视频体积,大大降低了传输过程中所产生的带宽老本。与此同时,应用微帧视频编码引擎不仅放慢了视频处理速度,还缩小了VerSe服务器所必须解决的数据量以及CPU资源的耗费,这意味着Josh的用户能够在无限的网络条件下更快地加载并享受视频。值得一提的是,VerSe还部署了微帧基于机器学习研发的画质加强算法,进一步为Josh用户提供了更丰满更高质量的视觉体验。 微帧科技通过多年在寰球市场的深耕,已失去寰球多地企业客户的高度认可,此次印度独角兽VerSe Innovation抉择与微帧单干,再次印证了微帧科技全球化的服务能力与当先寰球的技术实力。微帧也将面向寰球持续深挖更高效编码的可能性,联合当地的环境与习惯,提供更适宜更高质量的视频服务。

April 25, 2023 · 1 min · jiezi

关于音视频:网易云信-RTC-音频-QoS-综述

RTC、QoS、WebRTC 的定义RTC 实时通信,泛指各种数据的实时传输技术,包含音频,视频,文本,图片等媒体和非媒体数据的实时传输。 QoS 服务质量,指一个网络可能利用各种根底技术,为指定的网络通信提供更好的服务能力,是网络的一种平安机制, 是用来解决网络提早和阻塞等问题的一种技术。 RTC 技术的呈现满足了用户通过互联网进行实时音视频通话的需要,在 QoS 技术的加持下,RTC 技术在简单的网络条件下能达到更高的弱网抗性、更低的提早,极大地晋升用户的实时通话体验。 WebRTC 是一个由 Google 发动的实时通信解决方案,其中蕴含视频音频采集、编解码、传输、QoS、音视频渲染等性能。其名为 WebRTC,然而实际上它不光反对 Web 之间的音视频通信,还反对 Android 以及 IOS 端。因为该我的项目是开源的,各即时通讯厂商都基于 WebRTC 进行钻研、开发,研制本身的全平台的 RTC 解决方案。 WebRTC 中有很多优良的算法、设计值得钻研,音频 QoS 技术就是其中之一。 音频 QoS 技术音频 QoS 技术次要包含了:带宽预计及编码码控、DTX、FEC、RED、RTX/NACK、减速/加速/PLC 等。 音频数据尽管没有视频数据那么大的量,但在 QoS 方面同样要面对:带宽、提早、品质之间的三维均衡。把音频 QoS 技术的各项能力归纳到这三维均衡问题中时,咱们能够晓得: 带宽预计及编码码控:在既定的网络带宽状况下,预计的带宽越高、编码码率越高,音频品质越好; DTX(输出编码器的音量低时编码器编出静音批示数据,后续不出编码数据或出静音批示数据,直到输出音量不再低):无效节俭静音状况下的编码码率; FEC(通过前向纠错编解码算法,实现丢包复原):冗余度越高,复原率越高,但带宽耗费越大;分组越大,复原率越高,复原提早越大;在低丢包率、非间断丢包状况下,具备码率劣势; RED(原始音频包同时携带冗余的音频包):冗余层数越多,带宽耗费越大;在低丢包率、非间断丢包、高提早状况下,具备复原提早劣势;对于冗余包拓展头的反对水平因实现而异; RTX/NACK(丢包重传/丢包申请):丢包重传属于按需重传,丢包越高,重传需要越高,带宽耗费越大,须要防止重传风暴;在高丢包、间断丢包状况下,具备复原率劣势,但有较大的复原提早劣势; 减速:接收端缓冲过多时,通过减速升高缓冲量,升高提早,会带来肯定的减速感; 加速:接收端缓冲有余时,通过加速晋升缓冲量,减少提早,会带来肯定的加速感; PLC(丢包弥补):接收端缓存缺失时,通过收到的前序包模仿失落包,会带来肯定的音质伤害。 QoS 分段策略从整体角度看,RTC 实时音视频零碎至多会波及 3 个端:发送端、服务端、接收端。云信 RTC 以 SFU 架构实现客户端媒体流的接入和转发。以此为根底造成了发送端到服务、服务到接收端(服务级联由网易云信 WE-CAN 大网提供)的分段 QoS 策略。 分段 QoS 的劣势在于,上下行独立进行 QoS 策略有利于隔离上行段、上行段不同网络状况,对每条链路实用更佳的应答办法。但其劣势在于,策略的设计、开发、调优会更加简单,问题排查难度减少,服务端性能可能成为瓶颈。 带宽预计带宽预计次要用来对发送端(或服务器的上行转发端)进行码率管制。 ...

April 21, 2023 · 1 min · jiezi

关于音视频:易开源-基于-ijkplayer-的-LLSPlayer-移动端应用实践

云信低延时直播(Low-Latency Streaming,LLS)是在网易云信规范直播的根底上,依靠自研的寰球实时传输网 WE-CAN 推出的低延时直播产品计划。在保障低延时的同时,具备极致秒开,低卡顿的个性。同时兼容规范直播的推流和云端媒体解决能力,不便客户从规范直播迁徙到低延时直播上来。 云信低延时播放器 LLS-Player 是一个传输层的 SDK,基于 WebRTC 进行开发,蕴含信令和媒体建联,音视频数据接管,弱网反抗等能力,具备较好的 QoS性能。继开源了 Windows 端后,咱们陆续反对了挪动端的能力,本文次要基于开源播放器 ijkplayer,介绍 LLS-Player 挪动端的接入和优化实际。 LLS-Player 下载LLS-Player 基于 WebRTC M94 版本进行开发,代码蕴含 WebRTC 的 patch 代码以及其余的源码文件。须要先下载 WebRTC 原生代码,而后下载网易云信的低延时直播代码 LLS-Player,最初将 LLS-Player 代码笼罩到 WebRTC 原生代码中。 下载 WebRTC M94 源码WebRTC 对应的代码分支和 commitId 如下,依据上面的步骤操作即可下载对应的源码。 // 以iOS为例mkdir webrtccd webrtcfetch --nohooks webrtc_ios // 拉取WebRTC代码cd srcgit checkout -b m94 branch-heads/4606 // 此处基于4606创立m94分支。git reset --hard b83487f08ff836437715b488f73416215e5570dd // 重置到咱们应用的版本。gclient sync下载 LLS-Player 源码git clone https://github.com/GrowthEase/LLS-Player.git代码下载后,将 LLS-Player/src 目录下所有文件笼罩到下面下载的 WebRTC M94 版本中。 ...

March 30, 2023 · 2 min · jiezi

关于音视频:世界杯直播-|-抖音视频编码器优化

世界杯的编码技术挑战对于世界杯这样的大型体育赛事而言,视频编码算法既要在高速静止、简单纹理的场景下确保直播内容的清晰度和晦涩度,保障用户的观赛体验,又要兼顾码率、提早等对网络传输层面尤为敏感的指标。另外,抖音实现了业界首次的世界杯较量反对 4K HDR 10-bit 直播,其内容信息量相较于以往有极大晋升,对编码器的实时性提出了更高要求。 火山引擎如何实现这个挑战BVC 编码器长期迭代优化火山引擎自研的 BVC 编码器通过多年的技术攻关和优化技术积攒,以及在不同视频服务业务方向上的长期迭代优化,目前其编码性能和编码器架构的计算效率都处于业界领先水平,在国内权威编码器大赛 MSU 较量中屡次夺冠。 世界杯我的项目针对性优化概述在 BVC 编码器的根底上,火山引擎多媒体实验室针对世界杯较量场景进行了一系列针对性优化。首先通过迷信构建世界杯较量视频的测试集,剖析足球比赛视频个性,进一步开掘了以后场景下的先验信息,无效晋升了编码效率,在保障画质的状况下进一步升高了码率,同时优化了码率平稳性以及码控精度。同时,团队优化了多核下的并行机制,极大幅度晋升了 CPU 利用率;同时剖析并优化了4K HDR 10-bit 视频编码中的复杂度瓶颈,进一步放慢了 HDR 视频的编码速度。最终使得 BVC 编码器在保障画质和降低码率的同时,能进一步晋升编码速度,达到并超出了4K HDR 10-bit 50fps 视频实时编码的要求。另外在线上部署时,团队通过主观品质评测专门对足球赛事视频优化了各种不同品质配置下的最优码率,比方超高清 4K,超高清 HDR,蓝光 HD 等品质配置,保障不同用户的观看品质。 优化成绩本次 BVC 编码器共优化了 3 个不同档位,别离用于4K HDR/SDR 编码,1080p编码,以及 720p/480p 编码。(1)针对世界杯场景, BVC 编码器优化前后各项指标对比方下图可见优化后,BVC 编码器既有雷同视频品质下带宽收益(BD-Rate),尤其是在雷同 VMAF 质量指标时码率节俭收益显著,同时编码速度和 CPU 利用率也晋升较大(尤其是 4K 档位),码控精准度也有显著晋升。(2)针对世界杯场景的4K 10 - bit 视频 , BVC 编码器与开源 x265 编码器性能对比方下图:可见在雷同 PSNR 下,BVC 编码器的带宽节俭高于 x265 的 veryslow 最慢档,且在雷同测试条件下,编码速度也高于 x265 的 ultrafast 最快档。 备注:上述图示中,speed(绝对于 x265 ultrafast 编码速度)越大越好,bandwidth(绝对于 x265 ultrafast 带宽)越小越好。 优化伎俩团队通过精准构建世界杯足球比赛测试集,无效束缚了团队的优化场景,既能为团队提供更多的足球比赛视频的先验信息,同时也不会导致过拟合的状况。在此基础上,团队做了大量编码器内核优化,包含编码工具调优,新增数十项主/主观编码算法,多线程调度以及 SIMD 等工程优化减速,码率管制优化等;在优化过程中,团队应用了多个品质评估指标对优化技术性能进行评估,最终实现了在保障画质不变的条件下既有码率节俭又有速度晋升的优化成果。(1)构建精准的足球比赛测试序列团队剖析了足球比赛视频中每个片段的时域复杂度和空域复杂度,同时依据每个片段的场景内容,筛选出了数十个作为足球比赛测试集。在此基础上,团队退出了局部通用测试视频避免过拟合,构建了最终的测试集,如下图。(2)优化编码器内核团队首先测试了已有的数十个编码工具在以后场景的性价比,找出性价比最高的(复杂度最低,码率节俭最高)工具在以后场景下开启,并敞开性价比低的工具。在此基础上,团队针对编码器外部的多个不同模块,其中包含预剖析和编码过程中静止搜寻,模式决策,环路滤波等,开发了数十项新算法,进一步提高了编码效率和升高模块的计算复杂度,放慢编码速度。针对世界杯场景中视频时域复杂度高特点,团队通过优化了码率控制算法,保障了场景切换时的码率平稳性,同时进步了整体码率的精准性。团队也优化了反对 ROI 区域的码控算法,在雷同码率下使得主观感触更优,无效进步了足球比赛中人眼敏感的球员区域以及草坪区域的主观品质。团队也进行了大量并行优化,通过多线程任务调度以及 SIMD 优化,晋升了多核下的 CPU 利用率,极大放慢了编码速度。 ...

February 27, 2023 · 1 min · jiezi

关于音视频:海量并发低延时-RTCCDN-系统架构设计下

上半局部内容:海量并发低延时 RTC-CDN 零碎架构设计(上) 低延时 RTC-CDN 零碎的架构传统 CDN 直播倒退多年,为了优化延时,业界基本上朝两大优化方向:优化传输层协定和在传输层协定的根底上优化应用层协定。 RTMP 和 HTTP with FLV 以及 HLS 底层均应用 TCP 作为传输层协定。针对 TCP 协定的优化在肯定水平上能够达到升高延时的成果,比方应用全链路 TCP 减速计划以及替换应用 BBR 在内的更好的拥塞控制算法。 苹果在 2019 年推出了 LL-HLS(Low-Latency HLS),采纳 chunk 编码传输模式,将提早升高到 3 秒左右。目前基于 TCP 计划的 LL-HLS 和 LL-DASH 计划的极限提早在 2-3 秒左右。 为了优化 TCP 协定,业界在牢靠 UDP 协定上做了很多摸索。随着大家对 Google QUIC 协定钻研的深刻,有不少我的项目和开发者,开始用 RTMP over QUIC 代替传统的 RTMP over TCP。QUIC 是一个十分优良的协定,当初它曾经成为 HTTP3 的标准协议。但 QUIC 作为一种通用协定,它对音视频媒体不敌对,也就是它没方法了解音视频媒体数据的具体含意,它以厚此薄彼的角度来看待这些媒体数据,这也是它不能彻底解决流媒体传输难题的根本原因。 这几年 SRT 也失去了宽泛的利用, SRT 底层应用 UDT 协定,UDT 协定也是一个老牌的基于 UDP 的牢靠传输协定,当然原生的 UDT 传输提早是比拟高的,SRT 在此基础上做了不少的拥塞控制策略的相干优化以升高传输延时。 ...

February 22, 2023 · 2 min · jiezi

关于音视频:海量并发低延时-RTCCDN-系统架构设计上

随着近几年音视频流媒体行业的继续倒退,海量并发、低延时和低成本作为三大外围诉求仍旧须要一直深挖,同时随着 RTC 和 CDN 这两种技术的界限越来越含糊,因而有必要从底层架构层面从新思考 RTC 与 CDN 的交融之道。本文将重点分享:网易云信如何构建 RTC-CDN 服务架构,深刻分析这套架构是如何解决海量并发、超低延时与低成本三大行业外围诉求,并联合低延时直播和元宇宙两大场景,为大家解说 RTC-CDN 的核心技术和最佳实际。 背景介绍咱们能显著感触到近几年视频云行业的迅猛发展,不论是在传统泛娱乐社交、教育、在线会议畛域,还是在元宇宙、云游戏等翻新畛域都有较好的增长。随之而来的是这个赛道在国内越来越卷,越来越多的公司投入这个畛域,也一直推动着视频云技术的迭代降级。 简略列举几个这两年比拟热门的技术方向:• 出海和全球化。随着视频云国内市场进入红海阶段,大家都开始向海内市场冲破,音视频全球化的技术能力越来越成为各个厂商关注的重点,本文的第二局部会分享网易云信构建全球化的流媒体服务的相干内容;• 超低延时流媒体技术。或者换一个说法,就是在一套零碎外面去满足不同场景从 200ms 到 1.2 秒的差异化延时需要,同时还要做到低成本,本文的第三局部中分享这些内容;• 元宇宙与虚拟人。随着 Metaverse、Avatar、NFT、Web3.0 等新兴技术大热,视频云畛域也不断涌现出新的技术方向与之匹配,本文的第四局部会和大家探讨相干计划;• 标准化。随着行业的倒退,标准化协定和标准化计划越来越被企业须要,标准化是低成本的一部分,本文将会分享近两年网易云信在标准化方面的摸索、思考和实际。 随着音视频流媒体相干需要的日益增长,将来流媒体行业还有有限机会,同时也面临着泛滥挑战。 以下是低延时海量并发流媒体零碎会面临的三大挑战:• 在低延时流媒体零碎里,须要满足包含 RTC 实时音视频、直播、低延时直播、IoT 机器人、嵌入式设施等各类场景对延时的要求,为了实现不同的延时要求,低延时流媒体零碎不仅要具备很强的协定兼容能力还须要具备很强的架构自适应能力;• 随着流媒体零碎承载的场景越来越丰盛,整个零碎须要承载的并发也越来越大,包含单频道的百万并发,以及晚顶峰的的流量簇拥,这就要求咱们的零碎具备很好的弹性扩缩容能力;• 随着全球化的用户接入,还须要面对寰球范畴内复杂多变的网络状况,包含小运营商、偏远地区和非洲等国家的 2.5G 或 3G 网络,以及更为简单的跨国通信的网络场景。 带着这些问题和挑战,咱们本文的第二局部。在这一部分,咱们紧扣主题里关键字“海量并发”,会和大家深度探讨一下如何构建反对全球化海量并发的流媒体服务器架构。 构建海量并发流媒体服务架构首先,咱们从全局的维度来看看网易云信是怎么做多协定交融通信流媒体服务零碎的。 如图所示,整个架构的两头,是云信的流媒体传输与解决服务器,其中包含了边缘媒体接入零碎、实时传输网零碎、流媒体解决服务零碎以及直播点播服务零碎。在交融通信流媒体零碎中,除了云信 SDK 以外还反对了多种协定客户端的接入,在边缘媒体接入服务模块中,咱们的边缘媒体服务器既反对云信 SDK 的接入,也间接反对了规范 Web 端应用 WebRTC 接入;另外云信自研了 SIP 网关服务器,实现了 SIP、PSTN 的接入;云信应用通用媒体网关实现了规范 RTMP 推流工具、小程序、RTSP 监控摄像头的接入。 在边缘媒体服务零碎收到各协定客户端的媒体数据包当前,会通过云信实时传输网的边缘节点和路由节点进行寰球实时媒体数据散发,保障端到端的最优体验。同时利用流媒体解决服务的通用媒体解决服务器 MPS,能够将媒体流混合当前旁路转推到互动直播服务器,再通过云信的直播和低延时直播的交融 CDN 零碎进行散发;还能够在云端进行录制后,存储到云信的点播服务零碎中。 在流媒体传输与解决服务零碎的右边是全局流媒体管制服务,它包含了:频道与流治理服务,对立媒体调度服务和实时传输网调度服务,它是整个音视频交融通信零碎的大脑,由它来动态控制整个零碎的运行。 最右侧,是大数据与配置服务零碎,它包含了全局大数据分析和开掘零碎,负责全链路各个采集的数据处理、告警和品质通明,并利用大数据挖掘的后果领导全链路各模块算法和策略的制订,另一个是咱们智能全局配置管理和下发服务,它负责对咱们各类云端参数的下发,包含 QoS 参数,音视频编解码参数以及 A/B test 的相干开关。 在网易云信交融通信流媒体架构中,大量应用理解耦与分层的思路。接下来,咱们深刻到其中流媒体传输与寰球传输大网两大外围零碎,看看解耦的思路具体是如何落地的。 ...

February 15, 2023 · 1 min · jiezi

关于音视频:手机投屏电脑在不同场景的投屏体验

手机投屏电脑有各种不同的对象和内容当初越来越多,因而这对这些有信用软件的许针对这些游戏软件的应用,或者是一些其余的视频局部软件,人们可能会有须要的状况之下,投屏在电脑上尤其是当初很多办公人员,他们会将本人的办公内容还有一些有须要的信息,通过手机投屏到电脑上,十分的常见,在进行投屏抉择的时候就要理解到一些嗯软件的信息和内容,乐播投屏成为人们的抉择对一些热门视频的播放,人们就能够通过手机投屏到电脑上,而且软件在进行投屏抉择应用的时候,人们要理解到肯定的准则和状况,可能关注到它的流畅性也,可能关注到画面的清晰度十分的重要。投屏软件的抉择十分的丰盛,手机投屏电脑通过手机投屏可能将手机外面的内容投屏到电脑上,而且再进行投屏抉择的时候视频操作的技巧性十分的重要,人们要综合的理解到应用的条件和状况,你们都在进行软件审计理解的时候关注到这些软件操作的性能,通过软件的模式来理解到状况,并且可能在抉择这些投屏软件的时候关注到它的一些热门操作形式和办法,无论是对于手机型号的设置还是一些相干品牌的状况,都要可能有针对性的进行连贯,乐播投屏可能在连贯的时候更加的晦涩乐播投屏软件的操作性能越来越丰盛。当初人们要可能在记清清进行软件应用的时候关注到这些相干的状况,总体而言,当初的一些应用模式和信息正在一直的扭转,人们对于这些软件的抉择也是非常重视的,通过投屏的形式理解到更多的操作技能,并且可能比照这些信息来进行抉择,同时也可能把握更多的技巧,与此同时在进行软件抉择的时候可能进步综合信息十分重要,整体的效率如何晋升的话,人们在进行手机投屏电脑的时候会更加的晦涩,也可能全面的把握好这些零碎的信息和内容,乐播投屏软件的操作特点也是十分丰盛的,在进行抉择的时候,乐播投屏软件的操作十分的方便快捷,人们在进行抉择的时候,可能让本人有更加好的感触和体验也,可能让本人理解到这些细节方面的状况。对于投屏软件的抉择人们要可能把握不同的信息,并且在进行设置的时候应该可能对这些投屏的内容还有一些相干的模式,抉择器重起来,与此同时在进行理解的时候,手机投屏电脑有不同的内容要求也可能对这些电脑下面的信息器重起来。与此同时,在进行理解的过程中,本人应该可能对这些信息进行更好的优化。这些软件会进行一直的优化,那么再进行应用的过程中,人们就应该可能对这些热门的高频软件有所关注和器重,可能有更好的成果。预售对于手机投屏的一些内容和成果,人们要可能器重,并且可能通过这些相干的软件达到更好的成果,越来越多的人对于乐播投屏比拟关注。

February 9, 2023 · 1 min · jiezi

关于音视频:音视频开发进阶|第七讲分辨率与帧率上篇

在视频系列的前几篇推文中,咱们曾经接触了视频相干的不少概念,它们都是围绕着几个外围角色 :色调、像素、图像和视频来开展的。这几个外围角色之间的关系,大家应该都有了根本的理解,咱们再来简略回顾一下。 从色彩空间到色调: 通过特定的色彩空间 “ YUV “ 或 ” RGB ”,对色调进行定义; 从色调到像素: 将定义、量化后的色调信息记录到像素中; 从像素到图像: 肯定数量、记录了不同色调信息的像素组合,失去一帧残缺的图像; 从图像到视频: 一帧帧图像按 肯定频率 间断播放,失去了视频。 以上,就是由像素点及图像、由图像及视频的关系概述。你可能有关注到,在该概述中有两个比拟含糊的形容:肯定数量 的像素,以及按 肯定频率 播放的图像。那么问题来了,所谓 “数量” 和 “频率”,到底是如何定义的、具体取值是多少呢 ?它们对于视频图像会有哪些具体的影响? 何谓“肯定数量”的像素?“肯定数量的、记录了不同色调信息的像素组合在一起,失去一帧残缺的图像”。 对于 “肯定数量” 是如何定义的,在系列的上一篇推文中,咱们就给出了标准答案:分辨率。分辨率的定义大家已初步理解,上面先回顾一下。 分辨率: 视频图像在程度方向、垂直方向上,每行、每列的像素数量。比方:分辨率 1280 x 720(宽 x 高),即示意程度方向上每行有 1280 个像素,垂直方向上每列有 720 个像素;分辨率宽、高相乘失去的数值,即为每帧图像所含像素的总数。 比方:分辨率 1280 x 720(宽 x 高),即阐明每帧图像共蕴含 1280 x 720  = 921600 个像素上述定义中,应用了一种常见的分辨率示意形式:“ 宽 x 高 ” ,理论利用中还有其余示意办法,有的只关注 “高” 的属性、有的只关注 “宽” 的属性,常见的有: 1080P: 示意分辨率 1920 x 1080。P(Progressive)示意逐行扫描,1080P 示意垂直方向有 1080 行像素(“高” 的属性)。相似的还有:360P(640x360)、540P(960x540)、720P(1280x720)等;4K:示意分辨率 4096 x 2160 或 3840 x 2160。K 示意 "1000" 或 “千”,4K 示意程度方向有约 4000 列像素(“宽” 的属性)。相似的还有 2K(2560 x 1440)、8K(7680 x 4320) 等等。分辨率的定义,答复了对于 “肯定数量” 的问题,但也仅仅是解释了 “数量” 的定义,并没有形容 “数量” 的影响。至于不同分辨率、不同数量的像素,到底会给图片带来哪些影响,咱们须要进一步做探讨。 ...

January 3, 2023 · 3 min · jiezi

关于音视频:从零开始开启属于你的-RTE-漫游之旅丨漫游指南-x-即将启航

什么是「开发者漫游指南」?「开发者漫游指南」邀请酷爱前端开发、关怀音视频畛域倒退、心愿进入音视频行业、乐于和大家一起交换成长的小伙伴,通过「开发者漫游指南」与社区独特成长,帮忙更多的开发者在实时音视频畛域获得提高。 大家好,我是你们的敌人陈经营,我又带着一大批礼物来了。 正如咱们的题目所说,新一期的「开发者漫游指南」行将启程啦! 在过来的 2 期漫游指南里,有 300+ 位同学参加了咱们的漫游之旅,大家在每一期里用 5 周的工夫,通过「开发者漫游指南」理解了音视频畛域、RTE 技术以及开发实际常识,与咱们独特摸索对于 RTE 的更多可能。 非常感谢每一位同学的参加和付出,大家不同的特质为「开发者漫游指南」提供了有限可能,同时塑造了一种强有力的社区共识 —— 摸索实际,漫游发现。 在这个过程中,咱们也受到了很多小伙伴的反馈与优化倡议,在这些倡议的根底之上,咱们对应实现了新一期「开发者漫游指南」的革新迭代:补充了局部内容系列,调整了技术深度的档次脉络,并减少了更乏味的编程体验环节。 如果你对音视频、RTE 技术感兴趣,那就报名上车吧! 如何报名退出「开发者漫游指南」不收取任何费用,也没有任何业务/技能方面的硬性要求。胜利提交申请并入群即视为胜利退出「开发者漫游指南」。 点击此处立刻填写报名表单⛰️ 漫游地图本期漫游报名工夫:12 月 5 日 - 12 月 11 日报名入营 本期漫游开营工夫:12 月 12 日 - 1 月 8 日 漫游指南 final test:1 月 9 日 - 1 月 15 日 在这一个多月的工夫里,咱们将会联合音视频行业基础知识及声网 SDK,每周率领大家学习不同的技术内容,入手尝试跑通声网 Demo,最终借助声网 SDK 实现你的第一个 RTE 我的项目! 在旅程最初,还会有一场“小试炼”等着你,实现它,你就能失去限定的处分! 第一周:音视频行业基础知识简介及科普第二周:音视频进阶指南 & 入手实验室,带你一起开始上手第三周:进阶细分畛域教程及 Workshop第周围:将来 RTE 摸索及进阶 WorkshopP.S. 实现周围学习并通过 Final test 的小伙伴,将取得咱们颁发的毕业证书,并能够兑换一份声网大礼包哦~ ...

December 22, 2022 · 1 min · jiezi

关于音视频:我与梅西粉丝们的世界杯观球日常

世界杯 ⚽️ 期间,我与其余的梅西粉丝在某 APP 里建了个梅粉聊天群,群内人数上万人,大家一起探讨赛事热点,堪称热气腾腾,此起彼伏,这是四年一度的狂欢,虽值夏季,但激情不减。 “阿根廷 1 比 2 遭沙特逆转!!!!” “反对阿根廷队!!!!” “球王梅西加油啊” “想梅西有一个好的闭幕” ...... 梅西进球的一刻,冲动的心颤动的手,霎时中转高兴巅峰,万人齐呼梅西英武;遭沙特逆转之时,情绪失落无以言表,群内刷满了对梅西率领下的阿根廷队惜败沙特的震惊、恍惚、悲哀、可惜。 是的,我被梅粉群的万条音讯刷屏了。 大型群聊汇集了同一我的项目爱好者,将单纯的群聊性能转变为线上俱乐部性质的大型发烧友群聊,上述场景中大规模球迷们的即时消息推送,是区别于一般 IM 房间的,相似这种超大规模 IM 通信场景,如万人观看直播并进行互动评论、万人搭建趣味群聊等都会面临人数无下限、音讯高并发的状况,所以设计一套稳固牢靠的架构来保障用户通信的稳定性与可靠性就十分必要。  百万人超大房间即时通讯面临的问题所谓百万人超大房间即时通讯,就是指反对百万人同时在房间中发送即时消息,进行线上互动。越是这种大规模即时通讯的背地,越是须要进行精心的架构设计,接下来咱们以一个百万人超大房间为例,来看看针对这种大规模互动的 IM 通信场景,到底要在架构设计环节中思考到哪些问题能力更好的保障用户通信的高质量。 高并发进出房间:比方定期做流动时,面对房间内霎时涌入的大量用户,就须要解决高并发房间的进出,以及推送房间进出变更告诉;音讯推送:每发送一条音讯,都要推送给近一百万人,推送压力极大;客户端性能:同一时段往房间内发送大量音讯,如果将所有音讯都推送给客户端,很可能导致客户端呈现卡顿、音讯提早等问题,进而重大影响用户体验;对外感知:百万级超大房间与一般房间反对性能是否有差异,对外感知是否一样,客户是否有额定的接入老本;音讯存储:海量音讯的状况下,如果每条音讯都长期存储,将导致服务缓存使用量激增,使得内存、存储成为性能瓶颈。上述列出的这些问题,是咱们在设计百万人超大房间架构时须要思考到的。ZEGO 即构科技在之前推出的 ZIM(ZEGO Instant Messaging) 中,针对大规模百万人房间即时通讯做了非凡的架构设计,以实现安全可靠、有序稳固的线上互动! 房间性能个性比照首先,咱们来比照下一般房间与 ZIM 中超大房间在性能个性上的差别,次要体现在以下两点:对超大规模房间的人数不做限度;收发音讯,设置房间 kv 属性等性能要保障可靠性。下图列出了 ZIM 中超大房间与一般房间的性能个性比照: 从上图中咱们能够清晰的看到一般房间与超大房间的差别,接下来咱们一起看下即构 ZIM 在超大房间架构模型设计上的思考与实际。 ZIM 超大房间架构模型ZEGO 实现超大房间的服务架构如下图所示,其中次要的设计理念是:将超大房间拆分成多个子房间,散布到不同的 worker 节点来解决,以解决单点问题。 作为 to B 公司,子房间的概念只在咱们的 SDK 与后盾服务之间交互时应用,能够平滑的从一般房间切换到超大房间,对客户是齐全无感知的,不须要为此减少接入老本。 超大房间架构图 对于上图中的各服务,咱们来具体的介绍下各模块的具体性能: 接入服务:负责客户端的接入;room-router:路由服务(简称 router),来自客户端的申请会随机抉择一台 router 节点,而后 router 依据特定规定路由到 room-worker 节点;room-worker:工作过程(简称 worker),负责具体的业务解决,比方进入房间、退出房间、发送房间音讯等;推送服务:负责各种信令与音讯的推送,比方进出房间告诉,音讯推送等。推送服务与工作过程之间通过音讯队列解耦;缓存数据库:存储房间各种信息,包含房间用户列表、房间 kv 属性、音讯列表等。技术实现的要害逻辑为实现超大房间,咱们对许多逻辑性能做了针对性的优化,次要体现在以下几点: 1 房间扩大   概念上,咱们称最后建设的房间为“主房间”,如果主房间人数满了(比方 500 人),则为其调配“子房间”。当有新用户进入房间时,如果主房间或者子房间还有空位,则进入相应房间;如果人数都满了,则会持续调配新的子房间。 为了正当抉择房间(包含主房间与子房间)进入,须要保护每个房间的人数信息,做好房间人数信息同步,以及正当设计房间抉择策略。 1.1 房间人数信息同步对于高并发的进房间申请,每次进房间解决是须要工夫的,等进房间胜利了再更新房间人数,很可能导致大量申请涌入到同一个房间。 为了解决高并发进房间的问题,即构提出 “预调配人数”概念,即调配给某个房间一个新的用户,就将预调配人数加一,预调配人数满了,则不再进入新的用户。 1.2 房间抉择策略router 依据缓存的房间人数信息,抉择没有满员的房间进入。如果所有房间都满了,随机抉择一个,由 worker 做下一步解决。 ...

November 28, 2022 · 1 min · jiezi

关于音视频:融云全球社交泛娱乐洞察音频社交如何出海破圈

所有利用都将社交化。关注【融云寰球互联网通信云】理解更多 融入社交能力,发明增长奇观。激活用户在不同场景的社交需要,让各类利用焕发出了全新的生命力,也让“社交+X”成为出海最大的浪。 《2022 社交泛娱乐出海白皮书》(下简称《白皮书》)从“社交+音频”“社交+视频”“社交+Dating”“社交+游戏”“社交+虚构形象”及“社交+社区”6 大类别对赛道和产品进行了梳理,解读社交给不同垂类赛道带来的“魔法”加持。 咱们将对这 6 个类别进行具体分享,心愿通过寰球市场的利用社交化玩法解读,为大家的业务增长门路设计带来启发。 咱们从中国开发者的劣势我的项目——社交+音频开始,通过用户剖析、产品模式、商业模式、新玩家等方面进行赛道拆解并洞察市场时机。 社交+音频是指开发者以音频作为连贯用户的次要路径。目前市场上次要沉闷着语聊房、1V1 语音以及 K 歌社交三种模式的音频社交产品。 相较于图文社交,社交+音频能够帮忙用户更加轻松和高效地表白本人,并感知对方的情绪变动。而相较于视频社交,社交+音频又有更高的容纳度和更低的门槛,因此近年来受到多个市场欢送。 尤其是在中东等区域性市场,出于政策、宗教和信奉等起因,不少用户不会间接抉择视频社交利用进行互动,而语音社交则适应当地的风俗习惯。不过,目前音频社交赛道也面临供应过剩、同质化重大以及高 ARPU 值用户见顶、单用户 ARPU 值增长放缓等问题。 《白皮书》梳理美国、巴西、沙特阿拉伯、印度尼西亚四国 App Store、Google Play 近半年的下载和滞销总榜,及社交、娱乐和生存形式三个分榜的 Top100 数据,最终选出了 17 款具备代表意义的音频社交产品进行详细分析。(4 个市场音频社交 App 近半年支出状况,起源:《白皮书》) (4 个市场音频社交 App 近半年下载状况,起源:《白皮书》) 市场洞察1. 17 款产品近半年累计产生了 1.55 亿次下载,获 1.11 亿美元营收,出海企业占据“绝对劣势”其中,15 款来自中国。余下两款利用中,K 歌利用 Smule 来自美国、语聊房利用 Wolf 来自英国。因此,从某种意义上讲,中国出海创业者在音频社交赛道占据劣势。 但这种劣势也是绝对的,依据统计数据,大多数下载和营收都来自 MENA(中东北非)地区,多数来自印巴地区、东南亚地区。而美国市场尽管奉献了不少支出,但从下载状况来看并不现实。这也就意味着,在将来,市场和人群的“破圈”可能会是音频社交从业者的次要致力方向。 2. 从市场散布来看,美国和中东以个位数占比的下载量奉献了一半的支出首先,只管此前印度曾多次执行封禁政策,可从理论数据状况来看,印度依然是音频社交下载量的最大奉献市场,Top7 音频社交产品中 5 款利用的 Top1 下载市场为印度,印度占 17 款音频社交产品上半年下载量的 30% 左右。不过营收奉献程度非常无限,甚至未占到总营收的 2%。 与之绝对应的是美国市场,尽管仅有约 2% 的下载来自美国,却奉献了 20% 的支出。市场成熟度高、用户付费志愿高、付费能力强的劣势在音频交友赛道浮现显著。另外,只管尚未呈现头部产品,但从美国社交榜产品变动来看,美国用户对于音频社交的接受度越来越高,尤其是以 Z 世代为代表的年老用户。 ...

November 8, 2022 · 1 min · jiezi

关于音视频:音视频开发进阶|第六讲色彩和色彩空间下篇

在前两篇推文中,咱们理解了色调空间、像素、图像和视频之间的组成关系,并且比拟具体的学习了色调空间 RGB、YUV 的采样&存储格局。明天,咱们基于这些内容,再补充一些重要的关联常识。 咱们曾经晓得,像素是图像的根本组成单元,所以对视频图像的存储,实际上是对像素的存储。计算机在解决图像时,须要按肯定规定将像素数据从内存中读取进去。这里的“规定”,首先基于色调的采样 & 存储格局,其规定了色调重量的“存储程序”以及“分立体存储逻辑”。但仅晓得这些信息,对“单纯”的计算机来说还是不够的,咱们必须明确地通知它:要读取多少字节长度的数据,这里就会引申出 “定量” 的规定。 ======= 图像位深 ================= 由点及面,先从像素开始,理解每个像素在计算机里是如何“定量”存储的,再扩大到视频图像上。要学习这部分内容,先给大家介绍一个新面孔:图像位深。 其实,在之前 音频因素 的推文中,咱们已接触到 “音频采样位深” 的概念。音频采样位深,指的是用多大的字节空间来存储声音的量化值。一般来说,音频采样位深越大,则声音采样量化的精度越高、失真越少。当初,咱们要把位深的概念延长到视频图像畛域。 在视频图像畛域,对于位深的概念比拟多,诸如:通道位深、像素位深、色调位深和图像位深等。为了防止混同,在本文中咱们要将相干定义对立一下,并以 RGB 图像举例说明如下。 对于 RGB 图像,如果咱们别离应用 8bit (1个字节)来存储色调空间的各个通道重量,则一个残缺的 RGB 像素将占用 3*8 = 24bit 空间(3个字节)。此时,咱们称: 通道位深:8bit,示意存储色调空间的一个重量(通道)须要 8bit 空间;像素位深:24bit,示意存储一个 RGB 像素须要 24bit 空间。注:本文中,除非特地阐明外,咱们提及的图像位深均指像素位深。 须要补充的是,图像位深 24bit 、通道位深 8bit 是比拟规范的位深配置,大家可能还会接触到诸如 32bit、16bit、8bit 等图像位深,它们并不是 3 的倍数,无奈平摊到 RGB 或者 YUV 的三个通道上。咱们应该如何了解这些 “不规则” 的图像位深呢? 其实,咱们只有确认到具体的通道位深,就能够比拟清晰的了解了,如下: 32bit 图像位深:在 24bit RGB 图像的根底上,减少了一个 8bit 的通明通道 A。比方咱们上篇推文提到的 RGBA、BGRA 等等,能够称为 RGBA32、BGRA32;16bit 图像位深:R、G、B 通道重量,别离应用 5bit、6bit、5bit 通道位深 ,能够称为 RGB565;8bit 图像位深:R、G、B 通道重量,别离应用 2bit、3bit、3bit 通道位深,能够称为 RGB233。除上述举例外,还会有诸如 RGBA4444、RGB555 等等状况。当脱离本文领域,大家在理论利用中接触到图像位深时,仍须要明确其具体含意,到底是像素位深、还是通道位深、每个通道又是怎么调配的,防止混同。 ...

November 8, 2022 · 4 min · jiezi

关于音视频:元宇宙场景技术实践|实现虚拟人自由

虚构形象是虚拟世界的外围资产,也是打造元宇宙社交的数字名片,从虚构形象为切入点,ZEGO Avatar 基于弱小的 AI 算法能力,能够为企业提供多元化格调虚构形象制作及智能互动服务,助力企业打造虚构形象数字资产,发明多样的玩法体验,反对客户以绝对较低的门槛疾速进入元宇宙赛道。 上期内容中咱们介绍了元宇宙场景下的虚构直播实际流程,本期内容咱们以 iOS 版本为例来讲一讲如何捏出千人千面的虚构形象,助力开发者疾速实现虚构形象! ======= 前提条件 ================= 在实现根本的 Avatar 性能之前,请确保: 已在我的项目中集成了 Avatar SDK,详情请参考 集成 SDK;已开启摄像头权限。======= 应用步骤 ================= 本节介绍如何应用 ZegoAvatar SDK 实现根本的图像处理性能,API 调用时序如下图: 1 申请鉴权 ZEGO Avatar 目前应用 在线鉴权 的形式获取 License 受权文件。 1.1 开明 ZegoAvatar 权限 请先在 ZEGO 控制台 创立我的项目,并申请无效的 AppID 和 AppSign,详情请参考 控制台 - 项目管理 中的“我的项目信息”。请分割 ZEGO 商务人员,提供本人我的项目的 Bundle Id,开明相干权限。1.2 获取参考代码 请将从 下载 获取到的示例源码中的 LicenseHelper 文件夹中的代码,拷贝到本人的我的项目下。 批改 ZegoAvatarConfig.h 文件,请应用已获取的 AppID 和 AppSign 正确填写,否则示例源码无奈失常运行。// 鉴权服务器的地址static NSString *AVATAR_BASE_URL = @"https://aieffects-api.zego.im?Action=DescribeAvatarLicense";// 向 ZEGO 申请的 AppID, APPID 跟 Bundle Id 有绑定关系,“Bundle Identifier” 设置为申请 AppID 时所提供的 Bundle Idstatic NSUInteger AVATAR_APPID = YOUR_APP_ID;// 向 ZEGO 申请的失去的 AppSignstatic NSString *AVATAR_APP_SIGN = YOUR_APP_SIGN;在我的项目中,抉择 “TARGETS > Signing & Capabilities” 菜单,将 “Bundle Identifier” 设置为申请权限时所提供的 Bundle Id。 ![](https://img-blog.csdnimg.cn/img_convert/4d7aba69e332476d2803a6fcabeee079.png)1.3 装置依赖库 ...

November 8, 2022 · 4 min · jiezi

关于音视频:网易云信智码超清转码技术实践

智码超清背景介绍随着 5G、AI 技术倒退,视频行业迎来一个高速的增长期,视频在网络带宽的占 2019 年为 43%,预计到 2025 年占比将高达 76%,依然放弃着高速的增长,其中有大部分是超高清的视频,据某权威机构预测,2022 年超高清的视频规模无望达到 4 万亿人民币,相比于 2019 年的 1.2 万亿人民币翻了 3 倍之多,可见超高清市场的规模有很大的空间。 咱们目前处于迫近实在,根本达到实在的阶段。从分辨率来讲咱们从标清、高清缓缓往超高清的方向倒退,从动静范畴、色域和视角范畴来看,从规范动静范畴到高动静范畴,还有窄色域、窄视角到宽色域、宽视角的方向倒退,将来必定会朝着超过实在的视觉通信互动媒体方向倒退,其中会涌现更多的视频技术,包含更高的分辨率,还有多视角、多自由度,还有超低时延、实时互动、实时渲染、数字孪生等技术。 咱们大家了解的高清视频是指 720P 和 1080P 的分辨率的视频,超清指的更大的分辨率,比如说 2K、4K、5K、8K,随着分辨率尺寸越来越大,网络带宽传输的老本也越来越高,因而须要有一套低成本高质量的压缩视频的算法。基于以上背景网易云信开发了智码超清的自研算法,不仅可能给视频带来极致的压缩,而且可能带来画质的加强。 横向比照来看,提供智码超清业务的厂商有很多。下图右边是国内厂商,包含大家相熟的阿里云、腾讯云、百度云等。下图左边是国外厂商,包含亚马逊、 YouTube、NETFLIX 等,可见智码超清业务是十分重要,且十分根底的工具。 智码超清转码的关键技术下图是视频转码在整个直播、点播数据流的地位和作用,这个图是直播、点播畛域常见的流媒体推流和拉流的数据流的过程,能够看出从刚开始的视频源到转码服务器转码,转码后又通过打包和加密发送到不同的服务器上。最初如果客户端有申请,咱们会从就近的服务器拉流到客户端来播放显示。咱们的转码处在比拟靠前的地位,转码后的码流如果越小,前面的网络传输的一系列老本将大大降低,而且码流的品质间接影响在客户端播放时的主观体验,所以这里的转码要做到智码超清。 智码超清转码的关键技术点分三块。第一块是视频前解决,第二块是视频编码,第三块是视频后处理。 视频前解决视频前解决包含内容分析与画质晋升两局部。 其中内容分析包含两个方面: 第一是场景辨认:通过场景辨认,辨别出不同的场景,包含游戏、动画片、动作片、视频会议等。针对不同的场景,咱们会更精密的抉择不同的前解决策略和编码工具,这样前解决和编码能够做到场景自适应。第二是ROI检测:这里指基于深度学习的ROI区域检测,咱们把检测进去的ROI区域传给前解决模块和编码模块。在前解决和编码模块外部对ROI区域的画质做重点的加强修复。画质晋升包含视频加强、色调加强、视频降噪三局部。 视频加强和色调加强,是基于深度学习的办法对原始视频做加强,从主观上对画质会有显著晋升。视频降噪,是在噪声评估之后对有噪声的视频做降噪解决,不仅可能带来画质的晋升,而且对视频编码的压缩率也有很大的帮忙,所以视频降噪是十分有用的前解决工具。视频编码智能编码方面:包含感知编码、ROI 编码,还有精准的帧级和行级码控。 编码内核方面:有自研的 NE264、NE265,还有反对公有协定的 NEVC。 视频后处理次要是做画质晋升,这里包含视频超分、视频加强。 智码超清转码的技术解析智码超清的技术解析之超分技术超分这里具体指的是超分辨率,是从低分辨率到高分辨率。超分算法个别是部署在端侧,所以要做到又快又好,因而咱们自研了一套基于轻量级网络的实时超分算法。 这里自研的轻量级网络咱们称为云信 RFDECB 网络结构,下图详细描述了网易云信的 RFDECB 网络结构,右边是这个网络结构的骨干图,能够看到是由不同级的 ECB 模块和卷积模块形成,通过提取不同级的残差特色和 ECB 输入重参数化的构造能够更好提取图像特色,最初通过交融失去高分辨率的图像。左边对 ECB 模块的具体构造,咱们采纳拉普拉斯算子和索贝尔算子来提取图像的边缘特色,这样能够更好的失去超分的成果。 另外,在训练完结之后咱们会把 ECB 模块中的多分支的网络结构通过开展、合并,最初变成一个非常简单的卷积,这样在推理过程和工程化实现中会有比拟大的效率晋升。 咱们自研的超分算法加入了往年的 CVPR2022 年的超分较量,在综合性能赛道咱们超过了包含来自字节、阿里、B站、华为、南京大学、清华大学等选手,取得了综合性能赛道的冠军,在业界做到最好的程度。 下图右边是咱们超分技术的成果展现,右边是没有做超分,左边是有咱们的超分算法。能够看到右边的地球仪和文字是比拟含糊的,通过超分算法之后地球仪和文字局部会分明很多,这是咱们超分算法带来的画质加强。 下图左边是咱们自研的挪动端超分和业界超分端上计划的解决比照,都是在雷同的 480P 分辨率下做两倍超分。能够看出,绝对于业界计划 1 的 10 毫秒,咱们还能够再升高 50%,达到 5 毫秒的速度。所以咱们能够部署在更多低性能的挪动端,能够给更多的客户带来画质晋升的体验。 ...

November 4, 2022 · 1 min · jiezi

关于音视频:音视频进阶教程|如何实现游戏中的实时语音

1 游戏实时语音性能简介1.1 游戏实时语音概念解释范畴:收听者接管音频的范畴。方位:指收听者在游戏世界坐标中的地位和朝向,详情可参考 5.5 初始化设置 中的“步骤 1”。收听者:房间内接管音频的用户发声者:房间内发送音频的用户。1.2 游戏实时语音性能形容ZEGO Express SDK 从 2.11.0 版本起,新增游戏语音模块,次要包含:范畴语音、3D 音效、小队语音。实用于吃鸡类游戏、元宇宙类场景。 在吃鸡类游戏中,小队语音提供编队性能,在游戏开始前和开始后都能够更换小队,开发者无需关注流分组以及推拉流的实现,间接实现小队语音性能。 在吃鸡游戏和元宇宙场景中,提供 3D 音效能力,在收听发声者音效时,有方向感距离感,让场景感触更实在。 实现游戏中的范畴语音房间内的收听者对音频的接管间隔有范畴限度,若发声者与本人的间隔超过该范畴,则无奈听到声音。为保障语音清晰,左近超过 20 人发声时,只能听到离本人最近的 20 个发声者的声音。 如果设置音频接管间隔的最大范畴为 R,若发声者离收听者的间隔为 r,则: a. 当 r < R 时,示意发声者在失常范畴内,收听者能够听到声音。 b. 当 r ≥ R 时,示意发声者超出了最大范畴,收听者无奈听到声音。 下图仅以范畴语音模式为“全世界”时为例,更多不同模式组合关系下的声音可达状况请参考 5.9 (可选)设置小队语音性能 中的“步骤 2”。 游戏实时音视频的3D音效声音有 3D 空间感且按间隔衰减。 游戏小队模式语音玩家能够抉择退出小队,并反对在房间内自在切换“全世界”模式、“仅小队”模式、“隐秘小队”模式。 全世界:玩家可与队友相互通话,同时能与范畴内同为全世界模式的玩家相互通话。仅小队:玩家只能与队友相互通话。隐秘小队:玩家可与队友相互通话,但只能单向接管范畴内全世界模式的玩家的语音。2 游戏范畴语音性能-示例源码下载请参考 下载示例源码 获取源码。 相干源码请查看 “/ZegoExpressExample/Examples/AdvancedAudioProcessing/RangeAudio” 目录下的文件。 3 游戏范畴语音性能实现的前提条件在实现范畴语音之前,请确保: 已在我的项目中集成 ZEGO Express SDK,实现根本的实时音视频性能,详情请参考 疾速开始 - 集成 和 疾速开始 - 实现视频通话。已在 ZEGO 控制台 创立我的项目,并申请无效的 AppID 和 AppSign,详情请参考 控制台 - 项目管理 中的“我的项目信息”。4 范畴语音实现的注意事项应用范畴语音性能时请务必关注如下注意事项,免得影响接入。 ...

October 21, 2022 · 3 min · jiezi

关于音视频:音视频进阶教程实现直播间的自定义视频渲染

1 自定义视频渲染的性能简介自定义视频渲染指的是 SDK 向内部提供本地预览及远端拉流的视频帧数据,供用户自行渲染。 当开发者业务中呈现以下状况时,举荐应用 即构实时音视频SDK 的自定义视频渲染性能: App 应用了跨平台界面框架(例如 Qt 须要有简单层级关系的界面以实现高体验的交互)或游戏引擎(例如 Unity3D、Cocos2d-x 等)。App 须要获取 SDK 采集或拉流的视频帧数据进行非凡解决。2 自定义视频渲染示例源码下载请参考 下载示例源码 获取源码。 相干源码请查看 “/ZegoExpressExample/AdvancedVideoProcessing/src/main/java/im/zego/customrender” 目录下的文件。 3 自定义视频渲染前提条件在实现自定义视频渲染性能之前,请确保: 已在我的项目中集成 ZEGO Express SDK,实现根本的实时音视频性能,详情请参考 疾速开始 - 集成 和 疾速开始 - 实现视频通话。已在 ZEGO 控制台 创立我的项目,并申请无效的 AppID 和 AppSign,详情请参考 控制台 - 项目管理 中的“我的项目信息”。4 自定义视频渲染应用步骤自定义视频渲染的应用流程如下: 设置自定义视频渲染配置。创立 ZegoExpressEngine 引擎。设置自定义视频渲染器对象并实现回调办法。登录房间后推/拉流,收到自定义视频渲染视频帧数据回调。API 接口调用的时序图如下 4.1 设置自定义视频渲染配置4.1.1 创立 ZegoCustomVideoRenderConfig 对象并配置参数“bufferType” 参数是枚举 ZegoVideoBufferType,可指定开发者须要的自定义视频渲染视频帧数据类型。 “frameFormatSeries” 参数是枚举 ZegoVideoFrameFormatSeries,可指定开发者须要的自定义视频渲染视频帧数据格式,此参数只能指定 RGB 或 YUV 色彩空间大类,具体的数据格式不同平台间不统一,以回调中的参数为准。 “enableEngineRender” 示意是否在要自定义视频渲染的同时,SDK 外部也渲染。设置为 “false” 时,引擎不会在预览接口 startPreview 和拉流接口 startPlayingStream 设置的 View 上渲染。 ...

October 20, 2022 · 3 min · jiezi

关于音视频:音视频进阶教程SEI直播补充增强信息实现

1 SEI性能简介在音视频流媒体利用中,除了能够流媒体通道推拉音视频内容外,还能够应用流 SEI(Supplemental Enhancement Information,媒体补充加强信息)通过流媒体通道将文本信息与音视频内容打包在一起,从主播端(推流端)推出,并从观众端(拉流端)接管,以此实现文本数据与音视频内容的精准同步的目标。 个别可用于视频画面的精准布局、远端歌词同步、直播答题等利用场景。 SEI 的相干概念及原理请参考 如何了解和应用 SEI(媒体补充加强信息)。 适宜对音讯发送有较高频率和实时性要求,且音讯失落不会影响业务逻辑时,举荐应用 SEI(Supplemental Enhancement Information,媒体补充加强信息)。 2 SEI示例源码下载请参考 下载示例源码 获取源码。 相干源码请查看 “/ZegoExpressExample/Examples/Others/SupplementalEnhancementInformation” 目录下的文件。 3 实现SEI之前的前提条件在实现 SEI 性能之前,请确保: 已在我的项目中集成 ZEGO Express SDK,实现根本的实时音视频性能,详情请参考 疾速开始 - 集成 和 疾速开始 - 实现视频通话。已在 ZEGO 控制台 创立我的项目,并申请无效的 AppID 和 AppSign,详情请参考 控制台 - 项目管理 中的“我的项目信息”。4 SEI接口应用步骤发送与接管 SEI 信息性能须要推流和拉流端配对应用能力展现成果,即须要在推流端发送 SEI 信息,拉流端接管 SEI 信息。以下内容将介绍各端如何应用发送与接管 SEI 信息性能。 主播推流发送 SEI 音讯调用流程如下: 调用 createEngine 接口创立 engine 对象。调用 loginRoom 接口登录房间。调用 startPublishingStream 接口推流。在推流胜利后,调用 sendSEI 接口发送 SEI 信息。观众拉流接管 SEI 音讯调用流程如下: ...

October 19, 2022 · 3 min · jiezi

关于音视频:音视频开发进阶YUV与RGB的采样与存储格式

在上一篇文章中,咱们带大家理解了视频、图像、像素和色调之间的关系,还初步意识了两种罕用的色调空间,别离是大家比拟相熟的 RGB,以及更受视频畛域青眼的 YUV。明天,咱们将持续深刻学习 RGB、YUV 的相干内容,进一步理解它们的常见采样格局和存储格局。 色调的采样格局和存储格局影响咱们解决图像的形式,只有应用正确的形式,能力出现正确的图像成果。 RGB 的采样和存储咱们曾经晓得,图像由像素组成,而像素通过记录色调空间各重量出现各种各样的色调。对于 RGB 色调空间,其三个重量 R(红)、G(绿)、B(蓝),它们之间具备相关性,对于色调的示意来说缺一不可。 所以,RGB 的每个像素都会残缺采样三个重量,采样比例为 1:1:1(指每个重量的采样数,而非每个重量的数值)。也正是因为这种采样要求,RGB 色彩空间在采集上不好进行数据压缩,不太实用于视频图像的编码、传输。 RGB 三个重量采样后,在内存中是顺次排列存储的。然而,它们的存储程序不肯定是字面形容的 R、G、B。不同的利用场景,因解决逻辑差别可能会应用不同的规定。比方,MATLAB 应用的存储程序为 R、G、B,而 OpenCV 则应用 B、G、R,如下图所示: R、G、B 程序 B、G、R 程序 咱们把 RGB 字面形容的重量程序,称为字面序,将其理论存储的重量程序,称为字节序。确定好色调空间存储的字节序,是正确处理图像的前提,如果随便对各重量进行读取,可能会导致解决后的色彩出现异常。下图,即为应用 RGB 程序读取字节序为 BGR 的图片的成果,此时,因为将 B、R 重量混同了,失去了谬误的图片色彩。 左一:原图,存储格局为 BGR;左二:应用 RGB 格局进行读取 另外,大家还也会接触到 BGRA 这样的存储格局(比方在 iOS、MAC 上解决摄像头数据),其中的 A ,示意在 RGB 三个通道根底上,减少了一个透明度通道 Alpha,用于调整色调的透明度,实现更丰盛的色调成果。对于减少了透明度的RGB,同样须要注意其理论的存储程序,常见的有 BGRA、RGBA、ABGR 和 ARGB 等等。 总之,RGB 的采样格局、存储格局绝对比较简单,咱们也不做过多的开展。正如上篇文章所述,在视频解决畛域,YUV 色调空间才是配角,它的采样格局、存储格局绝对于 RGB 也更加简单 。 YUV的采样和存储1、YUV 的采样格局大家曾经晓得,区别于 RGB 色调空间,YUV 色调空间的三个重量并非都参加色彩的示意,即使仅存在亮度重量 Y,也能出现黑白灰的图像轮廓。而人眼对于色度重量 U、V 不是特地敏感,缩小一些也不会太影响观感。这种个性体现到采样上,意味着容许咱们少采集 U、V 重量、甚至于不采集 U、V 重量(黑白图像),从而在采集上实现可观的数据压缩。按 U、V 重量的采集形式不同,支流的 YUV 采样格局有:YUV 4:4:4,YUV 4:2:2 和 YUV 4:2:0 几种。 ...

October 19, 2022 · 4 min · jiezi

关于音视频:视频中为什么需要这么多的颜色空间

作者 | 17哥 导读:在视频解决中,咱们常常会用到不同的色调空间:非线性RGB,线性 RGB,YUV,XYZ……为什么须要这么多的色调空间呢?为什么在 FFMpeg 中会有 color\_space,color\_transfer,color\_primaries 等一系列的色彩属性呢?这些术语之间到底暗藏着什么机密 ? 全文5840字,预计浏览工夫15分钟。 01 视频采集 如上图所示,在相机零碎中,内部世界的光信息(光子,photons)通过透镜或其余光学器件聚焦之后达到相机的图像传感器(CCD 或者 CMOS)。[1] 图像传感器能够将一个入射光子(photon)转换为对应的一个电子(electron)。在曝光工夫内,图像传感器对转换的电子进行电荷积攒。而后,图像传感器会将积攒的电荷信号转换成对应的电压信号。最初,利用 ADC 把电信号转换成数字信号,而转换后的数字信号则为某个范畴内的整数值。ADC 数字信号的取值范畴 : ADC 转换之后的数字信号的取值范畴受限于 ADC 设施。对于 8-bits 的 ADC 而言,数字信号的取值范畴为 [0, 2^8-1],因而,对于每一个像素而言,会用 [0, 255] 之间的整数来进行编码。 ADC 转换的数字信号的数值是一个线性编码的过程,这意味着如果将图像传感器上的光量减少 1 倍,则 ADC 转换之后对应的数值也会减少 1 倍。这是一个十分有用的个性:无论是减少物理世界的光量,还是减少 ADC 转换之后的数值,对图片而言,都会带来雷同的成果。线性编码意味着咱们所解决的数据和光发射的强度成正比关系。[2] 由数码相机中的 CMOS 传感器产生并写入原始文件(Raw File)的数据是线性的。与一般照片相比,线性数据通常看起来十分暗且对比度较低。[3] 在 iPhone 手机中,能够通过设置相机来拍摄 Apple ProRAW 格局的照片。 02 摸索视频伽马校对实际上,钻研表明,人类视觉零碎是以对数函数的形式来感知光亮度。这意味着,人眼会进步暗部的敏感度,升高高光局部的敏感度。[4] 从数学角度看,感知光强度和测量光强度之间存在一个近似的平方关系,具体如下式所示。 因为人类视觉感知零碎不是以线性形式工作的,因而必须应用非线性曲线来对 ADC 生成的的线性数据进行变换,从而使得拍摄的图像色调与咱们的视觉零碎的工作形式相匹配。这个过程也就是咱们所说的 伽马校对。 因而,在从线性 RGB 空间转换到非线性 RGB 空间时,须要 作为转换参数。相机中的 ISP 模块负责对图像传感器的线性 RGB 进行伽马校对进而产生对应的合乎人眼感知的非线性 RGB 数据。 ...

October 13, 2022 · 2 min · jiezi

关于音视频:基于声网-Web-SDK-实现一对一视频通话

视频互动直播是以后比拟热门的玩法,咱们常常见到有PK 连麦、直播答题、一起 KTV、电商直播、互动大班课、视频相亲等。本文将演示如何通过声网 视频 SDK 在 Web 端实现一个视频直播利用。话不多说,咱们开始入手实操。 前提筹备在声网开发者控制台 Console https://console.agora.io 注册声网开发者账号后,须要获取我的项目 AppID。另外,开发者每个月可取得 10000 分钟的收费应用额度,可实现各类实时音视频场景。 先来体验下 Demo咱们在 GitHub 上提供一个开源的根底视频通话示例我的项目,在开始开发之前你能够通过该示例我的项目体验音视频通话成果。 在线 demo:https://webdemo.agora.io/basicVideoCall/index.html源码 Github 地址:https://github.com/AgoraIO/API-Examples-Web/tree/main/Demo/basicVideoCall入手实际从 Web 前端页面引入声网 SDK,发动视频通话。 开发环境声网 SDK 的兼容性良好,对硬件设施和软件系统的要求不高,开发环境和测试环境满足以下条件即可,以下是本文的开发环境和测试环境: 浏览器:Chrome、Firefox、Safari 及 Edge开发环境 MacBook Pro (13-inch, M1, 2020)Visual Studio Code (1.67.1)AgoraWebSDK (4.12.2)测试环境 Chrome (101.0.4951.64)手动集成设置文件组织构造实现视频通话之前,参考如下步骤设置你的我的项目:如需创立新我的项目,能够在 Visual Studio Code 里 File > New Window,创立 Web 我的项目。残缺的目录构造如下,依据集体教训会有所变动。 .├── index.css # 用于设计 Web 利用的用户界面款式├── index.html # 用于设计 Web 利用的用户界面├── index.js # 通过 AgoraRTCClient 实现具体应用逻辑的代码。└── vendor # 第三方前端插件,辅助页面布局和交互,本教程中是下载到本地应用,你也能够应用 CDN 的形式 ├── bootstrap.bundle.min.js ├── bootstrap.min.css └── jquery-3.4.1.min.js前端页面集成声网 SDK声网能够下载到本地应用,也能够间接应用声网的 CDN 引入, 本文举荐应用 CDN 形式集成Agora SDK。 ...

October 9, 2022 · 5 min · jiezi

关于音视频:实现微信小程序直播的2种方式|7大场景解决方案

ZEGO 微信小程序直播SDK 能够在微信小程序中提供实时音视频直播服务,从而实现电商直播/在线教育/在线问诊/视频客服等各种业务场景。然而因为微信小程序的官网限度,在某些场景下须要额定应用 ZEGO 提供的小程序直播插件能力实现实时音视频直播性能。 本节将介绍须要应用与不须要应用 ZEGO 小程序直播插件两种计划的实用场景。 若不合乎上面任意一种场景,则无奈应用小程序直播性能,请分割 ZEGO 技术支持获取解决方案。 不须要微信小程序直播插件进行直播在微信小程序中实现音视频性能,须要应用微信的 live-player 和 live-pusher 组件,并且须合乎如下类目场景(当合乎如下类目场景时,则不须要应用 ZEGO 小程序直播插件): 须要ZEGO即构小程序直播插件进行直播即构直播助手 是微信官网认证的 社交 > 直播 类目微信小程序插件,为开发者提供便捷、弱小的微信小程序音视频直播服务(什么是小程序插件 )。 如果小程序具备“电商平台”类目或“教育”类目但二级类目不是在线视频课程,则无奈应用微信的 live-pusher 和 live-player 组件能力,但能够应用即构提供的插件“即构直播助手”在微信小程序中实现实时音视频性能。具体如下: 一级类目 二级类目 电商平台 电商平台 教育 培训机构 教育信息服务 学历教育 驾校培训 教育平台 素质教育 婴幼儿教育 在线教育 教育配备 出国移民 出国留学 特殊人群教育 更多“即构直播助手”插件的操作指引及 API 文档请参见:运行示例代码、集成 、实现流程 、API文档 。 微信小程序的主体必须为非集体主体类型,否则无奈应用直播性能。本文仅提供参考,具体的微信小程序类目及申请资质要求需以微信最新的 微信非集体主体小程序凋谢的服务类目 为准。微信小程序的类目即为微信小程序的服务场景,在小程序后盾的【设置】>【根本设置】>【服务类目】中,能够抉择合乎小程序性能的类目。所选类目需合乎小程序的理论利用场景,否则在提交审核后会被驳回申请。获取 ZEGO即构小程序直播插件 更多帮忙获取本文 ZEGO即构小程序直播插件 的开发文档、技术支持,拜访即构文档核心开发文档页,可多场景实现微信小程序直播性能; 近期有开发布局的开发者可上即构官网查看,恰逢即构七周年全线音视频产品1折的优惠,分割商务获取产品优惠;

September 30, 2022 · 1 min · jiezi

关于音视频:基于声网-SDK-实现-macOS-端的一对一视频通话

音视频互动包含直播是以后比拟热门的玩法,咱们常常见到有 PK 连麦、直播答题、一起 KTV、电商直播、互动大班课、视频相亲等。本文将演示如何通过声网 SDK 在 macOS 端实现一个视频通话利用。 前提条件Xcode 9.0 或以上版本反对 macOS 10.10 或以上版本的 macOS 设施无效的声网账户(收费注册)注:如果你的网络环境部署了防火墙,请依据声网文档核心的「利用企业防火墙限度」关上相干端口。 筹备开发环境本节介绍如何创立我的项目,并将声网 SDK 集成至你的我的项目中。 创立 macOS 我的项目参考以下步骤创立一个 macOS 我的项目。若已有 macOS 我的项目,能够跳脱这一步,间接查看本文「集成 SDK」大节。 关上 Xcode 并点击 Create a new Xcode project。抉择我的项目类型为 Cocoa App,并点击 Next。输出我的项目信息,如项目名称、开发团队信息、组织名称和语言,并点击 Next。如果你没有增加过开发团队信息,会看到 Add account… 按钮。点击该按钮并依照屏幕提示登入 Apple ID,实现后即可抉择你的账户作为开发团队。 抉择我的项目存储门路,并点击 Create。进入 TARGETS > Project Name > General > Signing 菜单,抉择 Automatically manage signing,并在弹出菜单中点击 Enable Automatic。集成 SDK抉择如下任意一种形式将声网 SDK 集成到你的我的项目中。 办法一:应用 CocoaPods 主动集成 开始前确保你已装置 Cocoapods。参考 Getting Started with CocoaPods 装置阐明。在 Terminal 里进入我的项目根目录,并运行 pod init 命令。我的项目文件夹下会生成一个 Podfile 文本文件。关上 Podfile 文件,批改文件为如下内容。留神将 Your App 替换为你的 Target 名称。 ...

September 26, 2022 · 3 min · jiezi

关于音视频:Flutter耳返和双声道功能的实现

1 耳返性能简介ZEGO Express SDK 提供了Flutter耳返和双声道的性能,在视频直播、K歌、音频录制等场景下广泛应用,开发者可依据理论业务场景须要设置,一套代码可实现跨平台音视频耳返性能,节俭开发成本。 实时音视频的耳返作用就是在嘈杂的环境下,分明地听伴奏和本人的声音,来鉴定本人有没有走音。技术实现上要实时录制的音频低提早播放进来,这个过程对提早要求很高。 耳返即耳机采集监听,在设施上插入耳机(一般耳机或蓝牙耳机)后,能从本机耳机侧听到本设施麦克风采集的声音。双声道即两个声音通道,听到声音时能够依据左耳和右耳对声音相位差来判断声源的具体位置。ZEGO Express SDK 默认音频采集单声道,当开发者有高音质需要时,可开启双声道采集性能,通过专门的双声道采集设施能够采集到双声道的音频数据并进行推流。2 实现耳返和声道性能的前提条件在进行耳返与声道设置之前,请确保: 已在我的项目中集成 ZEGO Express SDK,实现根本的实时音视频性能,详情请参考 疾速开始 - 集成 和 疾速开始 - 实现流程。已在 ZEGO 控制台 创立我的项目,并申请无效的 AppID 和 AppSign,详情请参考 控制台 - 项目管理 中的“我的项目信息”。3 ZEGO 音视频 SDK应用步骤3.1 设置直播或K歌场景下的耳返3.1.1 开启直播耳返开启预览后或者开始推流后调用 enableHeadphoneMonitor 开启采集监听即耳返,主播方讲话后,会听到本人的声音。 开启耳返后,在连贯上耳麦时耳返性能才理论失效。 ZegoExpressEngine.instance.enableHeadphoneMonitor(true);3.1.2 设置耳返音量开启预览后或者开始推流后可调用 setHeadphoneMonitorVolume 调整耳返的音量。 其中参数 “volume” 为采集耳返音量大小,取值范畴为 0 ~ 200,默认 “60”。 ZegoExpressEngine.instance.setHeadphoneMonitorVolume(100);3.2 设置声道setAudioConfig 和 setAudioCaptureStereoMode 都须要在 startPublishingStream、startPlayingStream、startPreview、createMediaPlayer 和 createAudioEffectPlayer 之前调用才无效。 3.2.1 设置音频双声道编码在推流前调用 setAudioConfig 办法设置音频品质相干配置,其中音频编码声道参数 “channel” 须要设置为双声道编码(默认值为单声道编码),其余参数取默认值即可。 var audioConfig = ZegoAudioConfig.preset(ZegoAudioConfigPreset.HighQualityStereo));ZegoExpressEngine.instance.setAudioConfig(audioConfig);3.2.2 设置音频采集双声道模式调用 setAudioCaptureStereoMode 办法开启音频双声道采集,并依据理论场景设置 “Mode” 参数(默认值为始终不开启双声道),用于实现始终开启双声道采集或仅在推流时开启双声道。 ...

September 19, 2022 · 1 min · jiezi

关于音视频:活动回顾-基于英特尔技术的端到端音视频优化

导读:2022 年 8 月 18 日,“视界无垠,音聚而生”,2022 网易音视频技术大会胜利举办,本次大会邀请了来自网易智企、网易云音乐、网易伏羲、网易新闻和英特尔的产品与技术专家进行专题分享。本文是来自英特尔的技术专家张立宇分享的《基于英特尔技术的端到端音视频优化》。 嘉宾介绍:张立宇,英特尔互联网行业解决方案专家,长期从事音视频等基础架构建设工作,包含视频编码,视频剖析,性能优化等方向。 随着直播技术的优化和降级,视频互动、视频晦涩曾经成为了标配。在这一过程中,传统以文本、图片等为主的互联网信息流也逐步被以音视频为代表的多媒体流所取代。以目前炽热的短视频服务为例,至 2021 年末,互联网用户对短视频服务的粘性已成为各互联网服务之首,应用总时长达 25.7%。对于大多数的超清音视频直播或录播,如何进行优化,提供给用户更好的视听体验,是一个很大的课题。 30 多年的互联网倒退给中国带来天翻地覆的变动,成为推动中国经济倒退的重要能源。数字经济继续疾速地增长,信息技术与实体经济减速交融,数字经济成为了中国经济增长的新引擎。 在这过程中音视频的利用越来越宽泛,视觉化的信息代替了传统的文字、图片、符号等,更加直观地反映出信息的实质,促成了更间接的信息交换。依据具体数据显示,到 2022 年,中国的超高清的视频市场规模会冲破 4 万亿。 总体来讲,在新技术的倒退下,音视频技术须要一直地降级来反对新的利用场景、新的模式、新的利用的需要。所以目前对整个音视频畛域来讲,不仅须要对下层软件系统进行优化,也须要在底层硬件技术设施上寻找新的解决方案,这样能力在音视频这个畛域有一个真正意义上的颠覆性的翻新技术升级。 大规模的人工智能的部署,也对将来图形处理产品提出了要求,要求实现高度的视觉保障,继续优化人工智能和间断计算,也为云时代的数据中心带来了强劲的须要,须要咱们有新的架构、实现智能计算、对海量数据进行解决、易构算力的交融与减速、多负载运维的撑持等。英特尔目前曾经建设了软件减速零碎、GPU 路线图,横跨从客户端到数据中心的所有产品,帮忙客户应答数据时代不同的需要。从英特尔的角度来讲,首先是通过硬件能力来构建音视频基础架构。英特尔始终在致力为开发人员提供硬件架构和软件的正确的组合,以便为他们提供特定的最佳解决方案。英特尔的 XPU 策略不是一个新的处理器或者产品,而是一个架构的组合,包含 CPU、GPU、FPGA、ASIC 等不同的减速和解决芯片,对应满足不同的利用负载和功耗需要。 英特尔对语音和视频解决的优化计划能够分为两层,底层基础架构对整个云平台视频云提供撑持,其次对下层视频云的具体工作负载进行优化。在硬件基础设施上,英特尔通过英特尔® 至强® 可扩大处理器、英特尔® FPGA 产品、英特尔® 傲腾™ 长久内存,以及英特尔® 以太网网络适配器、英特尔® 视觉云媒体剖析加速卡等产品,为各类基于音视频能力的翻新计划提供强劲的计算、存储和网络解决能力;另一方面,在软件优化减速上,来自英特尔的 Media SDK、 SVT、英特尔® oneAPI 等,在不同利用场景中以残缺的软件栈来减速音视频能力的工作效力。  除此之外,英特尔也有很多集成的数据函数库,提供了十分多的性能优化,比如说英特尔的 IPP,可能在一个函数的第二个过程中,疾速地实现离散的余弦变换,在晋升运算的同时,极大精简了代码量,通过应用 IPP 的函数库,优化算法,最小化内存的占用,加上英特尔 AVX512 指令集等形式,能够在离散余弦变换计算时实现 3 倍性能的晋升。 总体来说,英特尔的硬件技术设施就像性能加速器,通过英特尔至强处理器、英特尔的 FPGA 产品、英特尔的傲腾内存等硬件产品组合,为各类基于音视频的翻新计划提供十分强劲的技术能力、存储能力、网络能力。而软件更像是系统优化器,在不同的利用场景中以残缺的软件栈来减速音视频能力的工作性能,软硬联合之下英特尔就能够为各类平台提供基于云或数据中心的音视频的解决能力,提供业余高效的编码、解码能力,帮忙云服务提供商用户带来更加便捷、更加高清、价格更加实惠的视听体验,同时使云厂商更无效的推动系统优化,升高经营老本,最终实现 1+1 大于 2 的协同效应。 对英特尔来说,将来的数据中心,将会实现计算和存储的物理拆散,实现平安个性在芯片外部架构的整合,实现更灵便的硬件,软件应用好服务,软件将会以微服务的模式出现,通过以无处不在的连贯,从云到边缘的基础设施以及人工智能,帮忙人类持续增长,不断创新,全面赋能万物智能化的改革。

September 14, 2022 · 1 min · jiezi

关于音视频:基于声网-SDK-实现-iOS-端的一对一视频通话

在很多产品,退出实时视频通话曾经不是陈腐事件了,尤其是近几年的疫情影响,集体公司国家对于实时音视频的需要始终在疾速的增长。例如视频会议、社交利用、实时游戏,甚至也可能呈现在一些元宇宙的场景中。 本文将教你如何通过声网视频 SDK 在 iOS 平台上实现一个视频通话利用。为此你须要先注册一个声网开发者账号,开发者每个月可取得 10000 分钟的收费应用额度,可实现各类实时音视频场景。 一、 通过开源Demo,体验视频通话可能有些人,还不理解咱们要实现的性能最初是怎么的。所以咱们在 GitHub上提供一个开源的根底视频通话示例我的项目,在开始开发之前你能够通过该示例我的项目体验视频通话的体验成果。 Agora 在 https://github.com/AgoraIO/Basic-Video-Call/tree/master/One-to-One-Video 上提供开源的实时音视频通话示例我的项目 Agora-iOS-Tutorial-Objective-C-1to1 与 Agora-iOS-Tutorial-Swift-1to1。 二、 视频通话的技术原理咱们在这里要实现的是一对一的视频通话。你能够了解为是两个用户通过退出同一个频道,实现的音视频的互通。而这个频道的数据,会通过声网的 Agora SD-RTN 实时网络来进行低延时传输的。下图展现在 App 中集成 Agora 视频通话的根本工作流程: 如图所示,实现视频通话的步骤如下:获取 Token:当 app 客户端退出频道时,你须要应用 Token 验证用户身份。在测试或生产环境中,从 app 服务器中获取 Token。退出频道:调用 joinChannel 创立并退出频道。应用同一频道名称的 app 客户端默认退出同一频道。频道可了解为专用于传输实时音视频数据的通道。在频道内公布和订阅音视频流:退出频道后,app 客户端均能够在频道内公布和订阅音视频。App 客户端退出频道须要以下信息:App ID:Agora 随机生成的字符串,用于辨认你的 App,可从 Agora 控制台获取,(Agora控制台链接:https://console.agora.io/)。具体办法可见这篇教程(这篇教程链接:https://www.agora.io/cn/commu...)。用户 ID:用户的惟一标识。你须要自行设置用户 ID,并确保它在频道内是惟一的。Token:在测试或生产环境中,app 客户端从你的服务器中获取 Token。在本文介绍的流程中,你能够从 Agora 控制台获取长期 Token。长期 Token 的有效期为 24 小时。频道名称:用于标识视频通话频道的字符串。三、 开发环境声网Agora SDK 的兼容性良好,对硬件设施和软件系统的要求不高,开发环境和测试环境满足以下条件即可: Xcode 9.0或以上版本反对语音和视频性能的真机App 要求反对iOS 8.0或以上版本的iOS设施以下是本文的开发环境和测试环境:开发环境• macOS 11.6版本• Xcode Version 13.1 ...

September 13, 2022 · 5 min · jiezi

关于音视频:实时音视频通信的指标和主要矛盾

本文次要总结自李超老师的讲WebRTC原理的书。有趣味的同学也能够间接看书,书中讲述更具体。 实时音视频通信的指标对于互动性很强的实时通信场景,比方上课、视频会议等。相比于线上,咱们都更喜爱线下交换。这次要是因为线下交流会更有“真实感”。那么线上交换的“真实感”缺失在哪呢? 次要有2个方面: 实时性损失。音视频通过网络传输后必然带来延时,这种延时对于一些互动性较强通信场景就是不能忍耐的了。业务数据的损失。这个次要就是因为设施等因素的限度而无奈齐全还原直播现场全副的实在场景,包含现场气氛等。在此基础上,能够总结出,实时音视频通信谋求的实质是尽可能迫近或达到面对面交换的成果。 实时音视频通信的指标在实时音视频通信的场景中有2个指标能够很好的评估通信的“真实感”。一是通信延时,二是音视频服务质量。 通信延时指标延时人的感触200ms十分优质,如同在一个房间里聊天300ms以内大多数很称心400ms以内有小局部人能够感觉到提早,但还根本能够进行互动500ms以上提早显著,影响互动,大部分人不称心这个表是实时通信的延时指标。能够看到,在须要互动的场景下,提早大于500ms以上就会对互动有很大的影响了。 引起提早的因素很多,比方音视频采集、编码、传输、渲染等等这些处理过程都会带来提早。其中,网络传输的提早是最难评估和管制的,因为影响它的因素泛滥,且其变动是动静的。 音视频服务质量指标音视频服务质量分为音频和视频的,但音频的数据量较小,对网络影响不大,次要影响网络的视频服务质量。 视频服务质量和视频的分辨率、帧率、码率是非亲非故的。在实时音视频通信场景下,头像视频的默认分辨率个别为640*480或640*360,帧率至多是15帧/秒。在雷同分辨率时,码率越大,视频就越清晰。但码率也会有限度,个别超过肯定阈值(MOS=5)后,再大的码率就没有意义了。 这里简略阐明下,MOS值是均匀意见值,有主观和主观之分,是用来评估音视频服务质量好坏的。一般而言,5分示意优良,4分示意较好,3分示意还能够,2分示意差,1分示意很坏。 个别状况下,以h264编码为例,如果心愿视频的MOS值为4,分辨率为640*480时须要1.9Mbps的码率,分辨率为1920*1080时,须要7Mbps的码率;而心愿视频的MOS值为3,分辨率为640*480时须要0.5Mbps的码率,分辨率为1920*1080时,须要2.5Mbps的码率。能够看到,MOS值越高,视频品质越好,码率也就越大,须要的带宽也就越多。 因而,要进步实时音视频的“真实感”,就须要尽可能地升高传输的提早,同时增大传输的码率。然而,升高提早和增大码率是矛盾的,除非所有用户的带宽都足够多且网络品质都足够好。 实时音视频通信的主要矛盾从后面叙述中能够总结出,实时音视频通信的主要矛盾就在于音视频服务质量与带宽大小、网络品质、实时性之间的矛盾。解决这个主要矛盾的办法次要有5种。 减少带宽减少带宽是最无效解决问题的办法,只有用户带宽足够,所有的问题可能就不是问题了。可事实中咱们很少能心愿用户去晋升带宽,且在多用户实时通信场景下,单个用户对带宽的晋升对整体服务而言影响也不大,因为在这种场景下通信服务质量的好坏是由网络最差的那个用户决定的。所以这里减少带宽是指所有用户的带宽都减少。 首先,能够期待的是5G网络的遍及。这会整体的晋升所有接入5G网络设备的用户的网络能力。而后,在客户端方面,WebRTC反对的选路计划是一个很好的计划,它能够按优先级抉择最优质的网络连接线路。最初,在服务端方面,能够通过提供更优质的接入服务、保障云端网络的带宽和品质、更正当的路由调度策略来提供更优良的带宽。缩小数据量当网络带宽无奈减少时,最无效的解决这一矛盾的办法就是缩小音视频的数据量。 通常有5种办法来缩小数据量,别离是: 采纳更好的压缩算法,比方应用h265,AV1等压缩率更高的编解码器。应用SVC技术,SVC技术就是将视频按工夫、空间及品质分成多层编码,而后将它们装在一路流中发给服务端。服务端收到后,再依据每个用户的带宽状况抉择不同的层下发。应用Simulcast技术,与SVC的分层思维相似,但它的实现更简略。就是将视频编码出不同分辨率的多路码流,上传给服务器。服务器则依据每个用户带宽状况抉择一路最合适的流下发。应用动态码率。当网络带宽评估用户带宽有余时,则减小输入码率;而当评估带宽增大时,则减少输入码率。甩帧或缩小业务。这是一种下下策的办法,只有在用户网络十分差的状况下才可能应用。适当减少延时在网络抖动的状况下,应用缓冲队列来平滑解决数据,这种适当减少延时的办法也是能够解决局部业务品质和网络之间的矛盾的。这种形式在WebRTC中也是有利用的,比方PacedSender。 进步网络品质进步网络品质的前提是网络没有产生拥塞。能够从丢包、提早、抖动三个方面来评估网络品质的好坏。 丢包,是完了传输过程中对网络影响最大的指标,优质的网络丢包率不超过2%。对于WebRTC而言,大于2%且小于10%的丢包率是失常网络。提早,绝对丢包来说对网络影响要小点。如果网络中提早继续增大,则可能是网络中产生了拥塞。抖动,对网络影响最小。个别的抖动都能够通过缓冲队列来解决。在WebRTC中有很多进步网络品质的办法,比方NACK、FEC、JitterBuffer、NetEQ和GCC等。 疾速精确地评估带宽只有可能疾速精确地评估出带宽,通常就能无效的防止网络拥塞的产生。目前在WebRTC中Google最新的Transport-CC算法是体现最优良的。 总结到这里,能够看出,在实时音视频通信中想做到“既要,又要,还要”是十分难的。这里放一张李超老师总结的思维导图一起学习下。

September 13, 2022 · 1 min · jiezi

关于音视频:融云视频会议助力政企高效协同

8 月 29 日早间,不少网友反馈某某会议崩了,很多上网课的同学也遇到了闪退问题。随即“某某会议崩了”登上微博热搜。关注【融云 RongCloud】,理解协同办公平台更多干货。 适逢周一,很多原本就不想散会的“打工人”在默默窃喜,盼望着程序员哥哥们缓缓修;但有些上网课的学生们却甚是焦急,因为老师说会调整到早晨 9 点再上课,真是有人欢喜有人忧。但不论想散会还是不想散会,想上网课还是不想上网课,当今社会视频会议曾经稳稳地走进了人们的工作、学习和生存。摆在很多人背后的问题,并不是用不必视频会议,而是抉择什么样的产品进行视频会议。 视频会议是为了解决问题别让它自身变成问题试想一下,公司正在通过视频会议召开季度会,汇报人员散布在全国各地。轮到销售总监马三顺汇报工作时,大家发现视频会议画面上只剩下一个静止的马三顺“大头贴”。甚至销售想要揭示他关掉摄像头,都只能通过原始方法打电话。后果,马三顺未然稠密却依然坚韧站立着的头发画面,成了那场季度会最大的话题黑马。 这只是视频会议“卡”导致的一个小问题。更重大的是,当政企组织召开重要会议时,画面卡顿、高糊或者音画不同步等问题,轻则烦扰会议进度,重则导致会议被迫进行。原本视频会议是为了解决问题,但最终大家却发现,视频会议自身变成了问题。 融云基于弱小的 IM 和 RTC 实力,提供晦涩、高清、稳固的视频会议服务。在“不卡”这件事上,融云从未进行过致力。以后,融云视频会议最高反对 1080p 高清画质,音频弱网抗丢包 80%,视频弱网抗丢包 60%,音视频延时最低可达 66ms。 视频会议是为了沟通工作别让它诱发人们焦虑症微博上一位在家上网课的大学生说,因为家庭条件不佳,她每天都因为要开视频而焦虑不安,她怕他人看到本人没有独立的房间,看到本人家古老的家具和过期的装修,放心他人会因而看不起她。 尽管很多网友出于善意留下了“你的所有都没人在意”“没人会关怀你家怎么样” “想开点,who care who”的评论,然而相似的暖心鸡汤大概率安慰不了投稿人的心,反倒是有人说的“关上虚构背景”,更有参考价值。 为什么这么说呢?因为融云视频会议的虚构背景性能,会让人像之外的背景区域虚化,含糊事实环境;另外,虚构背景也提供多款背景供大家自定义替换,甭管是海景别墅还是山林木屋,大家想“待”哪里都能够。 如果会议容许,与会人还能抉择虚构形象代替本人“出镜”,没洗脸没洗头一身珊瑚绒睡衣照样散会,毕竟他人看到都是大家筛选的“代言人”。当然,要求真人必须露脸也无需慌乱,多维度美颜成果和多款滤镜可实现一秒“上妆”,随时随地漂亮示人。 视频会议是为了协同提效别让它成为效率杀手回忆当年的近程电话会议,主持人通常会说:“来,大家翻到 PPT 第 10 页,看第二段文字,看到没有?找没找到?”而后与会者开始各自翻找各自的 PPT,焦点对齐之后大家开始接着散会。这种会议过程有点慢,会议效率也不高。 但线下会议就不会有这个问题,因为会议议题和文档资料都能通过投影展现给与会者。所以目前大家对视频会议的需要是,视频会议能像线下散会一样,与会者可通过共享屏幕理解会议议题及相干材料。 融云视频会议,桌面端就能疾速共享屏幕,直观展现会议议题和会议材料,疏导与会者聚焦探讨,还能够实时做标注。让与会人员高效参加互动,实时近程协同。 视频会议是为了不便大家别让它有形进步应用老本作为只把握一门语言的打工人,在参加跨国视频会议时,不免有些难堪。比方某公司人员黄小玲,加入跨国会议时听懂是不可能全听懂的,只能通过个把词语揣测发言人说了什么。如果可怜被 cue 到,她总是缓和得巴不得马上拔掉网线人工断网。 很多人也有相似遭逢,因为语言不通导致视频会议体验极差。不过,有些人受困于环境嘈杂,也会导致听不清会议内容。 融云视频会议的字幕性能能够搞定这些问题。与会者能够抉择会议的谈话语言,而后开启字幕性能,实现语音实时转文字。视频会议以“文字”模式开始展示时,听不清语音的人能够通过文字理解,文字也看不懂的人能够借助工具进行实时翻译。 而视频会议的录制性能,除了帮忙无奈实时参会的人进行会议回顾外,还可将会议语音间接生成文字内容,变成可搜寻、有重点、能翻译的文字笔记。 视频会议作为连贯事实和虚拟世界的桥梁,在人们的工作、学习和生存中将表演越来越重要的角色。融云正在为这样一个指标而致力:视频会议更像线下面对面的沟通和交换,让信息无碍顺畅流动,并将人们之间的空间距离感彻底消除,为大家带来高度沉迷的体验,最终帮忙政企组织切实进步协同效率。

September 6, 2022 · 1 min · jiezi

关于音视频:音视频开发进阶|第六讲色彩和色彩空间上篇

前言在后面几篇文章中,咱们实现了音频相干基础知识的学习,从明天开始,咱们要暂别音频,持续学习视频相干根底内容。 虽说声音在咱们日常的生存、工作、娱乐过程中,施展着不可代替的作用,但人们常说,百闻不如一见、耳听为虚眼见为实。咱们对于世界的意识、对于沟通和互动的需要从未满足于 “声音” 这一个路径,在现在这个 “看脸” 的时代,咱们很多时候还谋求 “看见”、“面对面”,而这就是视频存在的意义。 绝对于纯音频,音视频能传递更直观、更丰盛的信息,很多时候,视频的退出赋予了音频血肉,也给予了咱们更多的抉择。所有基于纯音频的场景,都能够通过退出视频元素而演变出新的玩法,比方音频语聊降级为视频通话、电台直播转变为秀场直播、语音课堂降级为视频课堂等等。当然,视频元素也并不局限于 “摄像头”,屏幕采集、版权影视资源都能够作为视频数据源,满足了游戏直播、一起看电影等场景。 既然 “视频” 有这么多价值,作为一个音视频利用开发者,咱们天然要来好好地理解一下它。 视频的实质 —— 图像在前几次和声音打交道的过程中,咱们理解到声音的实质是物体振动产生的波,咱们对于声音的感知,其实是通过耳膜感知了声波的振动,所以对于声音的学习是从声波的采集以及数字化开始的。当初,咱们开始和视频打交道,天然要从视频的实质、以及咱们对视频的感知形式聊起。 那么,视频是如何产生的呢? 大家肯定有接触过 “翻页连环画”,这种连环画的每一页都是动态的图片,常态下平平无奇,但如果咱们疾速地拨动翻页,让每一页图片疾速、连贯地进行展现,本来 “动态” 的图片,在视觉上竟然变成了 “动静” 的画面(如下图)。 这里 “动态图片” 之所以会转变为 “动静画面” ,是基于人眼的 “视觉暂留 “个性:咱们观看物体时,物体首先成像于视网膜、并由视神经传入大脑,大脑才感知到物体的像。而当物体从眼帘中移去时,视神经对物体的印象不会立刻隐没,会连续几百毫秒。当旧图像隐没、新图像替换呈现的频率足够快时,前后图像在视觉上就产生了 “连贯”,造成了 “动静画面”。而 “动静画面” 也就是咱们所说的 “视频”。 从 “翻页连环画” 的景象看,视频的实质其实是一帧帧间断展现的图像。而咱们对视频内容的感知形式,就是通过眼睛捕捉到一帧帧图像上的 “色调”。无论是最简略的黑白默剧,还是最丰盛的炫彩影视,都须要由色调组成血肉和骨骼。 所以,咱们对于视频常识的学习,还须要从意识 “色调” 开始。 图像的血肉和骨骼 —— 色调大家都晓得,眼睛之所以能看到物体,是因为接管了物体反射的光波。而色调,则是大脑对光的一种 “感觉”。相较于声音的 “只可言传,不可意会”,色调对于咱们来说,是 “只可眼观,不可言传” 的。为了不便对色调进行对立形容,也为了让数字电路能辨认、解决色调数据,咱们须要利用数字化的伎俩对色调进行定义。 说到色调的定义形式,最为大家所熟知的是 “光的三原色模型”。光进入人眼后,视觉细胞会产生多个信号,其中有三种单色光信号:红(Red)、绿(Green)、蓝(Blue),这三种单色光按不同比例组合,造成了不同的色调,咱们也称其为 RGB 模型。参考 RGB 模型,咱们选定了三种色调重量,再对每种单色重量进行量化,也就实现了对色调的数字化解决。 这种解决形式所应用的 “色调模型” 的概念,很容易和 “多维空间、多维坐标系” 分割起来。比方 RGB 模型的三个重量,能够别离视为三维空间的 X、Y、Z 坐标,确定了具体的 RGB 重量值,相当于确定了一个(X,Y,Z)坐标点,每个不同的点即代表不同的色调。如果咱们计算出每个重量的取值范畴(坐标范畴),那么该范畴内的所有重量的取值组合,就确定了一个色调空间(Color Space),该空间中蕴含了该色调模型可示意的所有色彩。 对于人眼来说,能辨认的色调数量无限,兼顾思考技术瓶颈,理论利用中须要展现、可能展现的色调也是无限的,咱们往往不须要一个色调模型的所有色彩,不同场景下个别只须要选用某个色调 “子空间”,作为其规范的色调空间(也称为 “色域”)。而不同软硬件平台,只有约定好反对雷同的色调空间,只应用该色调空间内的色彩,就能实现兼容互通,否则,它们对同一种色调的展现就可能会呈现差别。 ...

September 2, 2022 · 2 min · jiezi

关于音视频:打造更安全的视频加密云点播版权保护实践

在中国,以在线教育、职业培训、OTT 服务商等为代表的网络视频行业,其付费规模逐渐增长。然而,针对网络视频的盗版侵权行为层出不穷,对版权方利益造成了重大的损失。因而,这一类用户急迫地心愿其高质量的视频内容能受到加密爱护,仅容许本人的付费用户观看。 云点播高度关注用户的视频内容平安,在视频加密的安全性和加密速度上深刻思考并不断创新。上面将为您具体介绍云点播在视频加密的技术实际。                                       根底加密计划 - Apple 的 HLS 是以后行业利用最广的在线音视频流格局,并且 HLS 也提供了一种应用对称密钥加密计划,个别被称为 HLS Encryption。HLS Encryption 的基本原理是,内容平台将 HLS 中的各个 TS 文件应用 AES-128 的密钥(Key)和初始向量进行加密。而后,在 M3U8 文件指明播放器解密时所须要的信息。1 #EXTM3U2 #EXT-X-VERSION:33 #EXT-X-KEY:METHOD=AES-128,URI="https://keyprovider",IV=0x1234 4 …如下面的 M3U8 所示,若 HLS 被加密,解密所须要的信息被蕴含在  EXT-X-KEY 标签中: TS 内容被应用 AES-128 加密;内容密钥从 https://keyprovider 地址获取;解密的初始向量为 0x123。云点播的第一版加密计划,咱们称之为「根底加密计划」,其解密过程如上图所示:播放器下载 M3U8 之后,向 EXT-X-KEY 中 URI 指定的地址申请内容密钥;提供内容密钥的 URI 是用户的业务服务器,当密钥申请被鉴权通过之后,向云点播申请对应的内容密钥;云点播向用户的业务服务器派发内容密钥;用户业务服务器将内容密钥派发给播放器,供播放器解密内容并播放。 云点播的「根底加密计划」,是基于 HLS Encryption 实现的规范计划。采纳这种计划加密之后,任何终端播放该视频,都必须通过业务服务器的非法校验并获取内容密钥,否则无奈播放。 尽管,「根底加密计划」可能实现对视频的加密爱护,然而内容密钥的传输存在安全性问题。依据 HLS Encryption 的设计,播放器从 EXT-X-KEY 中 URI 指定的地址取得内容密钥,并用该密钥解密视频内容。然而,这里取得的内容密钥是未经爱护的。如图所示,当咱们应用 Chrome 浏览器播放 HLS 加密视频时,能够开启调试模式捕获获取内容密钥的网络申请。在申请的应答体中,内容密钥的原始二进制内容被展现进去了。这意味着,攻击者只须要启用浏览器调试模式,或者其余的网络抓包工具,就能拿到内容密钥,造成密钥的泄露。  ...

August 29, 2022 · 1 min · jiezi

关于音视频:快速实现-CDN-直播

性能简介ZEGO Express SDK 反对推流到 CDN(Content Delivery Network,内容散发网络),包含转推 CDN 和直推 CDN 两种性能。开发者基于该性能可买通 RTC 产品和 CDN 直播产品,不便用户从网页或第三方播放器间接观看和收听直播内容。为了保障平安,推流到 CDN 时默认开启 CDN 鉴权。 为避免攻击者盗取或伪造您的推流 URL 地址,您能够参考 CDN 推流鉴权,晋升您推流应用的安全性。 1转推 CDN转推 CDN 指的是将音视频流从 ZEGO 音视频云推送到 ZEGO 自有 CDN 或第三方 CDN 的过程。 转推 CDN 包含以下三种形式: 默认转推 CDN用户应用 ZEGO Express SDK 推流到 ZEGO 音视频云的直播流均会转推到 CDN,目前仅反对 ZEGO 自有 CDN。 旁路转推 CDN开发者自定义指定 ZEGO 实时音视频云上的流转推至 CDN,反对 ZEGO 自有 CDN 和第三方 CDN。 混流转推 CDN混流场景也能够将输入流转推至 CDN,反对ZEGO 自有 CDN 和第三方 CDN。 ...

August 12, 2022 · 2 min · jiezi

关于音视频:人像分割技术解析与应用

一、抠图简介 抠图次要解决的是图像中前景和背景区域的精确预测问题,对于图像编辑和影视制作有着及其重要的实际意义。所以精确无效的抠图算法能够极大的改善内容生产的工作流程,从而节俭大量的人力物力来进步工作效率。 抠图作为一个根本的计算机视觉问题,在很多畛域都有着很多的利用。 而对于抠图的传统办法通常是基于 trimap(三值图)对前景、背景和 alpha 进行预计,但当图像中的前景和背景色彩类似或有着比较复杂的纹理时,传统算法很难获得比拟好的成果。所以传统办法的局限次要在于参考的都是低级的色彩、纹理和结构特征不足高级的语义信息。 随着近年来深度学习技术获得的微小倒退,其弱小的高级特征提取能力恰好解决了传统技术的弊病。ZEGO 即构科技应用深度学习技术解决图像、视频等抠图工作并在多个业务场景中进行了宽泛的利用。本篇文章咱们将率领大家次要理解对于抠图在人像宰割方向的技术实现过程与场景利用介绍! 二、抠图技术原理解析 抠图实质上就是精细化的宰割,因而其重点还是在如何获取高质量的透明度掩膜(alpha 图)上。 对于抠图而言,能够用以下公式进行概括: 其中Ri示意最终的后果,Ai示意抠图所需的透明度掩膜,Bi示意须要替换的新背景。 在Ai中,前景地位的值是大于 0 的,而背景地位的值等于 0。 如公式所示,抠图算法的难点次要在于只晓得每个像素的 RGB 值但却要对前景的 RGB、背景的 RGB 以及透明度 ALPHA 等 7 个未知值进行预计。 传统算法大多通过 trimap(手工绘制)的形式来生成 alpha 图。trimap 中蕴含了 3 种不同的像素值,其中像素值为 0 的地位示意是确定的背景,像素值为 1 的地位示意的是确定的前景,而像素值为 0.5 的地位示意的是未知区域,这部分地位既可能是前景也可能是背景,而抠图算法要解决的就是在未知区域中通过 random walking、knn、closed form 等等办法求解出前景和背景 trimap生成alpha图 trimap 的绘制须要用户具备肯定的教训常识,因而不具备普适性。同时 trimap 因为须要进行人机交互,因而也不具备实时性。 ZEGO 即构科技为了解决上述问题,采纳深度学习的形式研发抠图算法。该算法整体采纳 encoder、decoder 构造,只需输出一张待抠图图像就能生成最终的 alpha 图。 编码解码器构造 该构造可能对输出图像进行编码压缩并提取其深度特色,最终通过解码器解码去拟合实在的alpha 图样本。咱们的 encoder 采纳轻量级的 mobilenetV3_small 架构,可能在边缘设施上进行实时的计算。 数据对于深度学习而言至关重要。咱们应用公开数据集以及大量的网络图片构建了一个 40 万规模的抠图数据集,其中的 alpha 图全副通过 photoshop 等业余软件手工获取。该数据集包含了各种日常场景下的半身、全身人像,单个或多集体像指标以及各种姿势下的人像。 ...

August 12, 2022 · 1 min · jiezi

关于音视频:音视频开发进阶|音频编解码的必要性解读与格式选取

在上一篇文章中,咱们实现了对音频前解决三剑客的学习。声音信号通过音频前解决模块,曾经“洗尽铅华、去除杂质”,当初,你是否已急不可待想要将它们分享到世界各地了呢?但稍安勿躁,想要更好地与世界分享咱们的声音,还有一个不得不思考的问题,而这个问题将由咱们明天的配角 “音频编解码”来解决。 音频编码压缩的必要性咱们都晓得,要想把音视频数据实时分享到世界的各个角落,有一个传输工具必不可少:网络。而要用好这个传输工具,有一个必须关注的点:网络带宽。 作为资深网民,大家必定都理解过带宽。它指的是网络链路1秒钟内能传输的最大数据量,其单位个别应用 bps(bit per second),对应到推流(上传)/拉流(下载),能够相应分为上行带宽和上行带宽。如果把网络比喻为高速路,那么带宽就相当于这条路的宽度,音视频数据相当于路上来往的车辆。公路越宽,则容许并行通过的车辆越多,其运输能力就越强,如果路线太窄、须要并行通过的车辆又太多,可能会呈现阻塞、甚至是车祸。对应的,网络带宽越大,单位工夫能传输的数据越多,如果带宽有余,势必导致传输异样,产生卡顿、甚至数据失落等影响用户体验的问题。 基于对带宽的理解,咱们进一步看看纯音频场景对带宽的需要状况。咱们曾经晓得,音频模拟信号经数字化解决会失去规范的数字⾳频数据裸流,其格局为 PCM。无妨先来计算一下,如果间接传输 PCM 数据须要多少带宽。 音频数据传输所需的带宽,能够通过音频码率来度量,在 音频必知必会之音频因素 一讲中,咱们曾经学习了音频码率的概念及计算形式。对于采样率 44.1K Hz,位深 16 bit 的双声道音频 PCM 数据,它的码率为: 采样率/Hz * 位深/bit * 声道数 * 时长(1s) = 44100 * 16 * 2 * 1 = 1411200 bps = 1.4112 Mbps(bps = bit per second) 也就是说,要求推流用户的上行带宽、拉流用户的上行带宽至多为:1.4112 Mbps。这是单条音频流的状况,如果将场景扩大到语聊房或在线会议,带宽要求还须要根据上麦人数翻 N 倍。而在一些非凡场景,比方曾风行一时的 ClubHouse 或 势头正旺的 MetaWorld,它们甚至号称“不限度上麦人数”,对于带宽的要求必然会更高。依据统计数据显示,2021年我国宽带网络的上行速率中值约为35Mbps,思考到理论场景中除了音频之外,还有其余数据须要传输(比方视频数据,所需带宽是音频的数十倍),综合考量下来,带宽也算是“寸土寸金”了,PCM 数据的码率着实让人“高攀不起”。 所以,如何高效利用带宽,如何在无限的带宽下传输更多的音频数据,是咱们的重要课题。而音频编解码,就是这个课题的一个无效解决方案。 在 RTC 音视频数据的解决链路上,音频编码模块位于音频前解决模块之后、网络传输模块之前,其次要作用就是对原始音频数据进行编码压缩,以减小数据量、升高带宽耗费(音频解码模块位于网络接管之后,能够认为是音频编码的反向流程,也即对压缩后的数据进行解压缩、还原)。常见的编码算法,比方 AAC,可能实现绝对于 PCM 数据1/15以上的压缩率,也行将码率 1.4112 Mbps 升高至 0.094 Mbps,带宽占用将失去显著的优化。对于 RTC 场景来说,更低的带宽耗费意味着更好的场景适配性、更好的弱网适应性,这对于 RTC 利用的遍及、用户体验的保障都有裨益。除了带宽优化外,如果有保留音频为文件的需要,编码还能极大加重存储空间的压力。 ...

August 12, 2022 · 2 min · jiezi

关于音视频:经典动画大闹天宫4K-版上映老动画是如何修复的

《大闹天宫》在中国的百年动画史里,是一座让人叹为观止的顶峰,连日本古代动画制作鼻祖手冢治虫都是本片导演万籁鸣的“忠诚迷弟”。 8月8日,第十二届北京国内电影节颁布了展映片单,4K修复版《大闹天宫》亮相“修复经典”单元。本次展映的版本由西瓜视频联结火山引擎独特修复,是该片首次经由AI技术实现4K分辨率级别还原,也是4K修复版本首次亮相大荧幕。 为了实现《大闹天宫》(高低集)的4K修复,火山引擎多媒体实验室基于深度学习的视频加强修复技术,改善了老旧动画的含糊等画质问题,并辅以人工美学剖析调优,在晋升视频主观感知品质的同时,保留了原片的艺术成果。 此外,为了能在影院中取得更舒服的听觉成果,火山引擎音频技术团队同时进行了音质修复,优化了当年影片制作时拾音环境、录制设施限度带来的底噪过大、突发爆音等问题。 火山引擎视频点播与智能解决产品基于多媒体实验室打磨的算法与技术,针对音视频品质构建,从画质检测、无参评分、画质评分、针对性后处理(画质加强/分转码档位/过滤等)、播放回收等多个维度提炼理论反馈数据,打造了画质晋升全链路解决方案,并在三大支流场景——老片修复、低质加强、极致高清,别离打磨出最佳实际计划,反对疾速利用赋能企业客户。 火山引擎画质全链路解决方案 画质全链路解决方案反对在线实时处理和离线定制化解决,此次展映的 4K 修复版《大闹天宫》,是计划的检测技术、加强技术在老片修复场景的理论利用。 如何评估老片画质老片画质评估,是老片修复过程的首要环节。为了做好老片画质评估,火山引擎综合了市面上主观评测规范及自研 VQscore 无参考视频品质评估指标来实现画质检测和评分。其中,VQScore 采纳了主观分与细指标交融的形式,并且联合了神经网络和经典算法,具体内容如下。 VQScore 架构 同时,其可能反对包含噪声、亮度、对比度等十多种画质相干的检测指标,单项或综合评分输入: 评分检测指标(点击图片,放大可见) 影响老片观感体验的,次要是画质。对于画质,个别会有四类问题。 清晰率低:分辨率是掂量影片清晰水平的重要参数,老片分辨率个别都是720p、540p甚至更低;另外制作过程中,拍摄镜头、数字化扫描、数字化压缩存储等因素可能会造成纹理失落等问题,导致清晰度更差。晦涩度低:影响晦涩度的次要因素是视频帧率,目前大多影片帧率都在25帧以上,有的能达到60甚至120帧,但因为制作老本限度,许多老片拍摄或者手绘的帧数往往低于每秒15帧,观看时会有较强的卡顿感。色调失真:胶片保留较差,存在物理化学伤害,这些伤害在数字化后会引起各种色调问题。此外,老片用老的色调规范制作,亮度动静范畴广泛比拟低,所以画面对比度也比拟差,看起来就很暗淡。瑕疵多:提起老片,很多人会联想到满屏雪花个别的噪点、大量的黑线和闪动。因为保留环境比拟差,或者播放使用不当,老片存在物理、化学伤害,呈现出多种瑕疵。隔靴搔痒,老片焕发新生对老片进行画质评估之后,火山引擎视频点播与智能解决产品会针对影片的品质问题进行剖析,并在各个维度上产生对应的个性化修复模块,排列组合调优。 如何实现老片的画质加强 老片画质修复,就是每一部片子“隔靴搔痒”,从而达到最现实的修复成果。这个过程中,次要在以下几方面利用了要害算法技术: 晋升清晰度采纳超分辨率重建和去模糊算法。这两项技术是应用机器学习的形式实现的。火山引擎对海量高清和低清视频数据进行剖析,使算法模型能够学习到高清视频个性,从而实现视频从低清到高清的转换,并且生成缺失的细节。这样一来,分辨率就能够从720P晋升到4K,大幅提高清晰水平。 晋升晦涩度视频的卡顿感能够通过晋升帧率来优化。使用智能插帧算法,通过对前后帧的内容进行剖析,生成两头帧内容,将原先有余15的帧率,晋升至60以上,从而大幅晋升晦涩度。 色调加强首先,利用算法对画面色偏进行自动化检测和改正,让其复原原有的观感;其次,为适应最新显示设施的色调规范,对老片亮度范畴进行拓展,色调空间进行转换,用更宽的亮度和更丰盛的色调来显示老片,让色调更丰盛,面目一新。 打消瑕疵火山引擎联合传统信号处理以及深度学习算法,对较小的雪花颗粒噪声,应用传统算法进行解决;对于较大的坏点和划痕,应用机器学习算法进行辨认和修补。强力地修复瑕疵的同时,保留原有纹理不受影响。然而算法也不是万能的。在理论修复过程中,如果算法做到100%的解决瑕疵,那么会很容易将一些艺术成果也辨认为瑕疵,对影片造成毁坏。 为此,火山引擎在老片修复过程中,算法大略能解决95%以上的瑕疵问题,残余的瑕疵须要由人工辅助标注,再调整算法做二次优化。这样一来,既能够比拟彻底地打消瑕疵,也能爱护影片原有的艺术风格。 在北京电影节重温经典本次北京电影节最新排片已出炉,连忙把《大闹天宫》4K修复版退出观影日程吧! 8.13 周六  18:30 保利国内影城(凯德MALL·大峡谷店)全景声激光巨幕厅8.14 周日 15:30  寰映影城(合生汇店)7号厅8.19 周五 18:30  保利国内影城(凯德MALL·大峡谷店)全景声激光巨幕厅8.20 周六  13:00 寰映影城(合生汇店)7号厅8.21 周日 15:30 红剧场1厅火山引擎修复老片采纳加强视频画质的多媒体技术,算法通过抖音、西瓜视频等业务大规模验证和继续迭代,目前已向企业客户凋谢服务。 目前,火山引擎视频点播、智能解决的音视频品质加强方面反对闲时策略,节俭了客户业务70%的老本投入。闲时策略次要利用机器资源闲时,以很低的老本进行高价值音视频解决工作,包含智能超分、智能插帧、SDR2HDR加强、单纯SDR加强 、音频降噪、音量/响度平衡等。

August 11, 2022 · 1 min · jiezi

关于音视频:2022从IDC最新报告看阿里云视频云赛道演进

国内权威征询公司IDC公布《中国视频云市场跟踪(2021 H2)》报告阿里云间断四年稳居中国视频云整体市场份额第一整体市场份额占比达26.9% 时至2021,中国视频云的数字背地近期,当先的IT市场钻研与征询公司IDC最新公布了《中国视频云市场跟踪》,报告显示,2021下半年,中国视频云市场规模达到50.4亿美元,同比增长32.7%,在后疫情期间的中国视频云仍处于较高增速中。 数据显示,2021年下半年阿里云视频云市场占比高达26.9%,稳步放弃整体市场份额第一的地位,间断四年放弃领先者的角色。同时,在视频CDN份额、视频私有云/公有云/混合云等市场畛域,阿里云也继续高居市场份额第一,仍旧放弃全笼罩式领跑中国视频云大赛道。 依据IDC的定义,此次视频云钻研笼罩了面向视频利用场景的全副私有云和专属云基础设施、视频内容散发网络,以及在视频云基础设施上部署的视频产品、服务或解决方案。 同时,依照视频云利用场景,IDC将视频云解决方案市场划分为“视频直播”、“视频点播”、“音视频通信”等赛道,同时也蕴含音视频开发平台、媒体解决工具等产品和服务。 IDC指出,2021年下半年中国视频云基础设施市场规模达到41亿美元。互联网视频总播放时长持续减少,同时,视频高清化推动带宽与存储需要持续增长。 在基础设施之上,同期的中国视频云解决方案市场规模达到9.5亿美元。其中,直播与点播转码、视频渲染和RTC依然是解决方案市场的外围组成部分,同时低门槛的视频开发平台、智能内容生产工具、智能化辨认/剖析/审核服务等翻新性能,也展现出更弱小的增长后劲。 视频云市场的新增长坐标透过IDC报告,看中国视频云市场的几个增长要点:极致高清、沉迷交互、智能降级、电商直播加持、传统行业浸透、企业出海。 IDC中国行业云服务钻研经理魏云峰示意,过往三年,中国视频云服务商与互联网视频平台严密单干,见证了中国视频云市场的第二次增长低潮;放眼视频云的下半场,除了互联网视频高清化需要下的深度倒退,中国视频平台出海和新“虚实之争”也为市场带来了广大的遥想空间。 仔细观察数据,2021下半年,中国视频云总体市场增速间断三个周期(半年)回落,本期(2021下半年)同比增速为32.7%,相比整体增速,其中的视频云解决方案市场增速更高,同比增长达35.4%。 形成这一增速,在此次IDC的报告中,走漏出几个要点: 极致高清2021全年,短视频平台、互动娱乐直播平台随同着DAU、MAU等指标的疾速攀升,持续大幅减少视频云用量。 在互联网视频用户视频播放时长逐渐迫近人口极限背景下,“视频高清化”成为中短期内拉动云计算资源与带宽增长的外围能源。 沉迷交互进一步来看,更好的交互与沉迷体验,是将来视频云解决方案市场增长外围驱动力,也为客户拓展视频状态、丰盛视频玩法提供了更多可能,亦对视频云服务商的下层能力提出了更多要求。 智能降级“云+音视频技术+AI”的交融倒退始终是必然之势,AI技术特色的全链路视频优化与解决能力,亦可能成为将来视频平台在产品、服务选型中的重要指标。 电商直播加持2021年,电商直播需要持续放弃增长,几大电商平台放弃直播GMV高速增长,多元化的内容平台也在转型内容电商化,进而驱动企业的第二增长,对视频直播赛道造成利好。 传统行业浸透据IDC察看,在既有业务、生产、商业流程中嵌入视频计划,曾经成为传统行业客户部署、利用视频云服务的重要形式。 在超视频化时代,广电传媒、金融、医疗等传统行业客户的各种视频化摸索与翻新,成为远期视频云市场增长的重要能源。 其中,广电传媒行业需要放弃快速增长,包含视频内容散发、轻量化视频内容生产工具等视频云产品与服务,正在被越来越多行业客户承受;金融、医疗等行业客户正在摸索各类近程视频连贯与触达场景,包含近程营业厅、视频连贯、视频培训等,都在加大视频云用量。 企业出海中国视频平台出海正在为市场带来广大的遥想空间,中国企业正在减速出海,也在由“数字化出海”向“出海数字化”扩大,数智技术为出海业务的全方位数字化翻新鼎力赋能,视频云必然也是其重要一员。 端云中发明,场景中翻新间断4年IDC第一的背地,更关注云网端深度交融下对音视频技术的极致摸索,和云端一体化体验下对音视频场景的利用翻新。 针对2021年下半年的倒退,阿里云视频云在多个维度上着力。 全链智能降级媒体服务通过AI能力的深度加持,从音视频媒体服务的智能化,降级到全链路智能深度浸透的“智能媒体服务”。 媒体服务是音视频服务最根底、最基本的产品状态,所以更须要继续的翻新。它往往被行业聚焦在媒体解决环节,以及近一年凸显需求量的媒体生产环节中,但阿里云视频云以更业余的视角,将媒体服务打造得更全面、更智能、更云化、更贴合场景需要。 这其中蕴含智能媒体生产、智能媒体解决、智能云导播、智能媒体播放,以及更要害的智能媒资治理,围绕媒体的业余、高效、灵便、智能的服务能力,买通 直播、点播场景,提供一站式应用服务。 不仅如此,在产品状态上更可满足不同客户的多样化需要,阿里云视频云在PaaS根底上,还可提供更轻量化的媒体SaaS,实现开箱即用的智能媒体服务。 在IDC此次报告中,尤为提到,“轻量化媒体生产工具成为追赶热点,广电传媒行业放慢引入各类视频云计划,轻量化媒体解决与生产工具,已取得多家新媒体客户青眼,并逐渐扩充应用范畴;而在私有化环境中,部署全套公有云基础设施和云化媒资管理工具,则是将来广电传媒客户的重要需要。” 对此,阿里云视频云全链路智能降级后的媒体服务,不仅笼罩互联网行业多畛域,对广电传媒等传统行业,可能更加凸显其数智化的业务驱动价值。 新一代实时通信向将来成长强交互是音视频体验的高阶状态,此次IDC报告中再次强调,“更好的交互与沉迷体验,是将来视频云解决方案市场增长外围驱动力”。 向将来空间减速成长,2021年,阿里云视频云降级新一代实时通信与交互能力。 以往,RTC更多聚焦于线上的实时通信与一般互动,尤其针对在线课堂、娱乐社交等场景,而新一代的实时通信倒退向更简单的场景和更高级的产品状态。 首先,实时通信以寰球实时流媒体传输网络GRTN(Global Real-time Transport Network)为底座,以超低延时直播服务RTS(Real-time Streaming)为重要根底,向上成长更重要的音视频内容与交互的体验技术。 在底座之上,是产品和场景的翻新。 在新产品的翻新上,以Cloud ME为典型的虚构流动服务解决方案,在2022北京冬奥会上,以实时全息交互的现场黑科技,发明了百年奥运的新纪元。IDC报告称之,通过这一款全息音视频交互产品,将中国视频云的沉迷式体验晋升到新的高度。 同时,在新场景的摸索上,以文化传媒场景为典型,就在前不久,由央视报道的“国内首个大型沉迷式云考古节目《三星堆奇幻之旅》”,通过阿里云实时通信技术加持(如云渲染、视频串流等),让央视第一次实现破屏穿梭,带观众无门槛“身临其境”般畅游于考古现场,感触历史复刻于前。 不限于此,智能汽车的实时通信、智能硬件的近程互动,同样是阿里云视频云在理论落地和深度摸索的商业场景,将来也将翻新更多数字沉迷的交互体验课题。 音视频开发平台普惠万象IDC在本次报告中还曾提到,“通用产品在减速向传统行业减速浸透,直播、点播、RTC作为视频云通用产品/能力,正在逐渐被传统行业客户承受,与传统业务流程交融,体现出更加丰盛的意义与价值。” 同期,阿里云视频云也在通过低门槛的音视频开发平台和典型直播场景样板间,在传统行业摸索实际中“普惠式浸透、笼罩更宽泛的企业用户”,为更多元的传统企业带来微小普惠价值。 于此,在2021年,所有趋向于音视频数智化摸索的企业,都可轻松开启一个“极速智造”的新世界。 在这过程中,助力泛滥企业打造更低成本、更具灵便定制力的业务零碎,一方面赋能多元化的互联网平台打造视频化、直播化翻新业务,同时,也为更多传统企业以低门槛的音视频开发平台,迅速搭建业务、发明商业新象。这其中笼罩泛滥畛域,蕴含智能制作、教育培训、批发、金融等,也为更多传统企业关上全新的视频化业务空间与设想。 技术的溯源,云上的宇宙在算网交融、云端一体无望带来“虚实交融”的明天,无处不在的算力驱动了这样的超视频化时代。 IDC此次预测,中国视频云市场仍然会放弃较高速的增长,预计2026年将达到364亿美元。 对于视频云赛道,IDC钻研经理魏云峰此次示意,整个市场或正处于产品与服务改革的十字路口。 将视频云原子能力作为通用产品/服务向传统行业浸透,“脱虚向实”;还是重仓、甚至全仓“元宇宙”,领先摸索、布局各类翻新技术与计划,押注虚拟世界的下一场东风,成为必选题。 然而,无论是元宇宙、超元世界的虚拟化布局,还是更多传统行业的真实性赋能,撑持其中的,是对云上音视频的技术摸索、场景重构,和价值了解,也正是阿里云视频云始终默默摸索的根源。 阿里云从2007开始率先着力视频云赛道,从率先自研推出窄带高清技术,到2022在北京冬奥破冰新技术、发明泛滥“百年奥运的第一次”,这背地是十几年的摸索迭代与实在积淀。 在2022年的阿里云峰会上,阿里云智能总裁张建锋提出,阿里云最重要策略是“Back to Basic”,也就是,回归云计算的实质,保持在技术的长征路上,一直获得新的冲破。 顺着对技术根源的追溯,咱们晓得,这是一个产业数字化、数字产业化的时代,视频云正在用本人的视角推动数字化的边界。 在算网交融、云端一体无望带来虚实交融的明天,高阶化的算力驱动了这样的超视频化时代,而无处不在的算力实现了云边端全场景的计算能力,让泛滥行业、产业在场景中萌生翻新改革的力量,从而爆发全新的价值与状态。 基于阿里云云计算与边缘计算寰球当先的深厚底座,叠加16年的音视频畛域积淀,让阿里云视频云具备人造弱小的数智化力量,于是,在驱动行业翻新与发明的同时,也在塑造人们将来的云上宇宙。 「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。    

August 10, 2022 · 1 min · jiezi

关于音视频:ffplay视频播放原理分析

作者 | 赵家祝 FFmpeg 框架由命令行工具和函数库组成, ffplay 是其中的一种命令行工具,提供了播放音视频文件的性能,不仅能够播放本地多媒体文件,还能够播放网络流媒体文件。本文从 ffplay 的整体播放流程登程,借鉴其设计思路,学习如何设计一款繁难的播放器。 一、播放器工作流程在学习 ffplay 源码之前,为了不便了解,咱们先宏观理解一下播放器在播放媒体文件时的工作流程。 解协定:媒体文件在网络上传输时,须要通过流媒体协定将媒体数据分段成若干个数据包,这样就能够满足用户一边下载一边观看的需要,而不须要等整个媒体文件都下载实现能力观看。常见的流媒体协定有 RTMP、HTTP、HLS、MPEG-DASH、MSS、HDS 等。因为流媒体协定中不仅仅蕴含媒体数据,还蕴含管制播放的信令数据。因而,解协定是移除协定中的信令数据,输入音视频封装格局数据。解封装:封装格局也叫容器,就是将曾经编码压缩好的视频流和音频流依照肯定的格局放到一个文件中,常见的封装格局有 MP4、FLV、MPEG2-TS、AVI、MKV、MOV 等。解封装是将封装格局数据中的音频流压缩编码数据和视频流压缩编码数据拆散,不便在解码阶段应用不同的解码器解码。解码:压缩编码数据是在原始数据根底上采纳不同的编码压缩失去的数据,而解码阶段就是编码的逆向操作。常见的视频压缩编码标准有 H.264/H.265 、MPEG-2 、AV1 、V8/9 等,音频压缩编码标准有 AAC 、MP3 等。解压后失去的视频图像数据是 YUV 或 RGB ,音频采样数据是 PCM 。音视频同步:解码后的视频数据和音频数据是独立的,在送给显卡和声卡播放前,须要将视频和音频同步,防止播放进度不统一。 二、main函数ffplay 的应用非常简单,以ffplay -i input.mp4 -loop 2为例,示意应用 ffplay 播放器循环播放 input.mp4 文件两遍。执行该命令时,对应的源码在 fftools/ffplay.c 中,程序入口函数是 main 函数 。 注:本文 ffplay 源码基于 ffmpeg 4.4。2.1 环境初始化 初始化局部次要调用以下函数: init\_dynload:调用SetDllDirectory("")删除 动态链接库(DLL)搜寻门路中的当前工作目录,是 Windows 平台下的一种平安预防措施。av\_log\_set\_flag:设置 log 打印的标记为AV\_LOG\_SKIP\_REPEATED,即跳过反复音讯。parse\_loglevel:解析 log 的级别,会匹配命令中的-loglevel字段。如果命令中增加-report,会将播放日志输入成文件。avdevice\_register\_all:注册非凡设施的封装库。avformat\_network\_init:初始化网络资源,能够从网络中拉流。parse\_options:解析命令行参数,示例中的-i input.mp4和-loop 2就是通过这个函数解析的,反对的选项定义在options动态数组中。解析失去的文件名、文件格式别离保留在全局变量input\_filename和file\_iformat中。2.2 SDL初始化 SDL的全称是 Simple DirectMedia Layer,是一个跨平台的多媒体开发库,反对 Linux、Windows、Mac OS等多个平台,实际上是对 DirectX、OpenGL、Xlib再封装,在不同操作系统上提供了雷同的函数。ffplay 的播放显示是通过 SDL 实现的。 ...

August 3, 2022 · 3 min · jiezi

关于音视频:上海交大牵手淘宝成立媒体计算实验室推动视频超分等关键技术发展

7月27日,上海交通大学电子信息与电气工程学院与阿里巴巴团体大淘宝技术发表达成策略单干,独特成立上海交通大学电子信息与电气工程学院-淘宝(中国)软件有限公司媒体计算联结实验室(下称”联结实验室”)。该联结实验室是为了更好地摸索将来媒体时代的极致体验,通过翻新和产业联合,推动行业倒退。 据悉,单方将依靠上海交大在数字媒体畛域深厚学术积攒,和阿里巴巴大淘宝电子商务畛域的当先市场教训,独特摸索将来媒体计算和内容商业之间的关系,推动关键技术倒退,打造服务好消费者的内容体验。 见签嘉宾:张文军、余刚签字嘉宾:郭小军、吴桂林 单方将在内容电商的核心技术畛域,包含视频编码、视频解决、品质评估、视频了解、沉迷式媒体体验等畛域发展钻研,充沛开掘智能算法成果,满足用户随时随地低成本高画质,以音视频为次要载体且状态一直演进的电商内容生产应用需要,以此推动将来媒体时代改革。 人类90%的信息通过视听觉取得,寰球数字媒体产业倒退迅速,数字媒体内容出现指数式爆炸增长的态势:图像、音频、视频和虚构场景正在成为人们网络交换的次要内容。近年来,淘宝继续在内容化方面发力,边看边逛的淘宝直播和种草生产一体的内容社区逛逛成为新的生产娱乐模式。淘宝直播反对千万级直播间峰值同时在线,而以逛逛,猜你喜爱,商品详情等为主的淘宝短视频须要日均千万级的短视频转码工作。背地的媒体内容场景丰盛,品种繁多,所带来的规模效应为摸索和落地相干先进技术提供了短缺的土壤。淘宝在继续发力内容业务的同时,也在根底技术畛域追加投入,在视频编码,视频加强,视频传输,视频了解方面有一系列的相干布局,且获得了肯定的业界和学界影响力。在国内视频编码比赛MSU上屡次夺魁,在权威的视频加强比赛CVPR NTIRE (New Trends in Image Restoration and Enhancement workshop and challenges on image and video processing) 较量中取得多项桂冠,基于寰球实时传输网络GRTN为淘宝直播提供低延时保障,并且相干技术通过国际标准立项,多媒体畛域翻新技术在包含IEEE T-PAMI, IEEE T-IP, IEEE T-CSVT, CVPR, ICCV等顶级学术期刊和会议中发表了一系列的学术论文。 该媒体计算联结实验室将更多从“体验”的维度进行媒体计算钻研。根底技术能力是晋升体验的最重要的组成部分,新技术的倒退将推动新媒体内容倒退,在音视频体验和交互方式上带来新的感触。 上海交通大学将来媒体网络协同翻新核心主任张文军传授示意:上交-淘宝媒体计算联结实验室致力于音视频内容的生产、解决、编码、传输和评估,贯通典型媒体服务全链路,与淘宝在线直播及大视频业务十分匹配。置信通过本次深度单干,可能很好地牵引咱们钻研团队聚焦理论问题,使得学界的前沿研究成果可能疾速落地和利用,从而为用户带来更好的生产体验。 上海交通大学将来媒体网络协同翻新核心主任张文军传授 联结实验室主任、阿里巴巴团体大淘宝技术负责人余刚示意:将来商业批发场景中, 用户所见即所得、沉迷式体验将失去进一步增强,视频内容更加活泼 ,视频色调更加真切,视频清晰度失去进一步晋升。媒体计算联结实验室将在端侧和云、视频从生产到生产的全流程对相干关键技术进行无效推动和增强。 阿里巴巴团体大淘宝技术负责人余刚 依据国务院公布的《新一代人工智能倒退布局》,可视媒体将是商业智能的外围之一。将来媒体网络不仅是科学家关注的课题,也是生产电子工业治理部门和企业独特关注的课题。此次阿里巴巴大淘宝技术与上海交通大学电子信息与电气工程学院成立媒体计算联结实验室,将联合单方在新批发场景和多媒体技术上的劣势,推动媒体计算技术的翻新和倒退,助力人工智能场景的落地。

July 28, 2022 · 1 min · jiezi

关于音视频:火山引擎发布音视频云端一体解决方案veVOS一站获取抖音同款音视频能力

7月20日,2022 火山引擎 FORCE 原动力大会上,音视频云端一体解决方案 veVOS 正式公布,veVOS 可能一站式提供抖音同款全链路音视频能力,帮忙企业构建云上增长新动力,助力业务麻利翻新。veVOS 基于字节跳动音视频实际积淀,提供视频直播、实时音视频、智能视频创作、视频点播、智能丑化特效、智能音频丑化等音视频能力的全场景云端一体解决方案。 Video in One Solution 助推云上新增长 火山引擎总裁谭待认为,继续体验翻新是实现云上增长的要害因素之一,以后内容化、视频化是体验翻新的两大重要方向。据 IDC 预测, 将来 5 年,内容治理、媒体类负载增速将达到 60% 以上,成为企业的外围翻新利用。 同时,为更好满足终端用户的视频体验需要,企业也心愿疾速获取最新的音视频模式、性能、玩法,疾速跟进甚至发明新的市场风口,来推动业务增长。不止是视频的云端解决,企业更心愿获取全链路、端到端的音视频能力,既包含云端解决,也包含客户端 SDK。例如:在短视频场景,须要拍摄剪辑-美颜特效-云端存储-转码解决-散发-播放全流程能力;在直播娱乐场景,须要直播推流-连麦互动-美颜特效-直播散发-播放能力。 而与简单多样的综合场景下全链路音视频能力要求对应的,是繁多音视频产品能力扩散、综合接入老本高、开发周期长等技术挑战。 为更好解决上述问题,火山引擎音视频云端一体解决方案 veVOS,以 Video in One Solution 为核心理念,整合视频直播、实时音视频、智能视频创作、视频点播、智能丑化特效、智能音频丑化等全链路音视频能力,笼罩在线音视频、社交娱乐、媒体资讯、在线教育等支流音视频场景。 (图:端到端齐备音视频能力) 云端一体,抖音同款音视频 基于抖音、西瓜等亿级 DAU 产品打磨,veVOS 为用户提供更低延时、更高画质、更强互动、更稳固牢靠的音视频体验。 以直播延时为例,火山引擎和阿里云、腾讯云共建"超低延时直播协定信令规范",目前大规模散发的直播延时进入 1 秒大关,最快可达到 500 毫秒。而基于笼罩寰球的 RTC 网络,目前火山引擎 RTC 能够实现 300ms 超低首帧耗时,200ms 极低延时。在画质体验上,火山引擎一直冲破高清天花板,在日前的 JPEG AI (智能图像编码)规范平台响应较量中,火山引擎多媒体实验室取得主观评测第一名。在视频编解码寰球顶级赛事 MSU2020 中,火山引擎研发的 BVC 系列编码器取得 17 项评分冠军;而基于智能学习算法的客户端超分 SDK,能够大幅度加强视频的清晰度和锐度,功耗极低,满足大规模利用条件,通过试验,等价带宽老本降落 15.3%,且卡顿用户占比降落 2.2%,人均播放时长减少 0.9%。在用户互动上,veVOS 联合智能丑化特效 SDK,整合抖音同款音视频互动能力与特效贴纸,打造欠缺的丑化计划,满足各种利用场景;而智能视频创作 SDK 对接抖音团体几十个视频拍摄和编辑业务,涵盖剪辑 14 类近 20 万的资源商城,笼罩剪辑全流程的特效素材,让用户的内容创作更共性;智能音频 SDK 通过多模态音频技术赋能内容创作和互动,让内容生产和创作变得更简略、愉悦和多元。同时,火山引擎打造了稳固牢靠的终端 SDK:实时音视频 SDK 通过一直技术迭代实现“0”黑屏、“0”闪屏,打造极致平滑的上麦体验;自研播放器 SDK,通过海量服务验证,实现“0”首帧播放,解体率低于 0.001%,外围场景功耗优化 30% 以上。为更好量化并优化用户体验,火山引擎视频云建设 QoS 和 QoE 数据体系,打造品质平台,实现一站式品质监控、根因剖析、单点追究等,帮忙客户疾速建设起品质指标体系、故障剖析能力, 通过播放数据的深度开掘,实现精细化指标统计、实时数据监控和指标下钻剖析。基于品质平台,火山引擎已帮忙抖音、西瓜、心浪等客户疾速定制合乎的播放策略,实现精细化经营,打造老本+体验最佳均衡。 ...

July 28, 2022 · 1 min · jiezi

关于音视频:音视频H264

封装格局H.264的两种打包/封装办法:字节流AnnexB格局 AVCC格局放用于网络发送时,要封装成RTP格局 1. AnnexB格局(实时播放)开始前缀(00000001或000001)+NALU数据,绝大部分编码器的默认输入格局 3字节0x000001 单帧多slice(即单帧多个NALU)之间距离4字节0x00000001 帧之间,或者SPS等之前2. AVCC(存储)解码器配置参数在一开始就配置好了,零碎能够很容易的辨认NALU的边界,不须要额定的起始码,缩小了资源的节约,同时能够在播放时调到视频的两头地位。这种格局通常被用于能够被随机拜访的多媒体数据,如存储在硬盘的文件。MP4、MKV通常用AVCC格局来存储。AVCC格局不应用起始码作为NALU的分界,这种格局在每个NALU前都加上一个大端格局的前缀(1、2、4字节,代表NALU长度) 防字节竞争解决(Annxb和AVCC均有):RBSPEBSP>用起始码定位NALU边界存在一个问题,即NALU中可能存在与起始码雷同的数据。>为了避免这个问题,在构建NALU时,须要在数据中的0x000000,0x000001,0x000002,0x000003中插入防竞争字节(Emulation Prevention Bytes)0x03,使其变为:0x000000 = 0x0000 03 000x000001 = 0x0000 03 010x000002 = 0x0000 03 020x000003 = 0x0000 03 03解码器在检测到0x000003时,将0x03摈弃,复原原始数据。3.RTP封装=12字节固定RTP包头 + 载荷(NALU)rtp传输的是annexb的h264码流 0 1 2 3 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7 8 9 0 1 +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ |V=2|P|X| CC |M| PT | sequence number | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | timestamp | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+ | synchronization source (SSRC) identifier | +=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+=+ | contributing source (CSRC) identifiers | | .... | +-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+-+V: RTP协定的版本号,以后协定版本号为2。P: 填充标记,如果P=1,则在该报文的尾部填充一个或多个额定的八位组,它们不是有效载荷的一部分。X: 扩大标记,如果X=1,则在RTP报头后跟有一个扩大报头CC: CSRC计数器,批示CSRC 标识符的个数。M: 标记位(不同载荷含意不同,视频标记一帧的最初一个分片slice则=1,其余=0)PT: 载荷类型RTP_PAYLOAD_RTSP 如GSM音频、JPEM图像等。例如H264=96序列号: 用于标识发送者所发送的 RTP 报文的序列号,每发送一个报文,序号减少 1工夫戳: 工夫戳反映了该 RTP 报文的第一个八位组的采样时刻。 接受者应用工夫戳来计算提早和抖动, 并进行同步控制。SSRC:同步信源标识符 辨别是在和谁通信。值随机抉择,加入同一视频会议的两个同步信源的SSRC要雷同。//特约信源(CSRC)标识符:每个CSRC标识符占32位,能够有0~15个。每个CSRC标识了蕴含在该RTP报文有效载荷中的所有特约信源。

July 24, 2022 · 1 min · jiezi

关于音视频:基于-Web-SDK-实现视频通话场景-声网-SDK-教程

声网视频 SDK 被广泛应用于多种实时互动场景中,例如视频会议、视频通话、音视频社交、在线教育等。为了让刚刚接触声网 SDK 的开发者,能够更顺畅地实现根底的视频通话性能,咱们基于声网 Web SDK 4.x 版本梳理了本篇教程。 在本文末,会提供相应 Demo 、文档地址供大家参考应用。同时,欢送点击此处注册声网账号体验。声网每个月会为开发者提供 10000 分钟的收费额度。 本文为「声网 SDK 教程」系列内容 01 Demo 体验咱们在 GitHub 上提供一个开源的根底视频通话示例我的项目,在开始开发之前你能够通过该示例我的项目体验音视频通话成果。Demo 与线上体验地址,可在文末获取。 02 入手实际实际工作从 Web 前端页面引入声网 SDK,发动视频通话。 开发环境声网 SDK 的兼容性良好,对硬件设施和软件系统的要求不高,开发环境和测试环境满足以下条件即可: ChromeFirefoxSafariEdge以下是本文的开发环境和测试环境: 开发环境 MacBook Pro (13-inch, M1, 2020)Visual Studio Code (1.67.1)测试环境 Chrome (101.0.4951.64)如果你此前还未接触过声网 SDK,那么你还须要做以下筹备工作: 注册一个声网账号,进入后盾创立 AppID、获取 Token;下载声网官网最新的 视频 SDK。我的项目设置文件组织构造 实现视频通话之前,参考如下步骤设置你的我的项目: 如需创立新我的项目,能够在 Visual Studio Code 里 File > New Window,创立 Web 我的项目。残缺的目录构造如下,依据集体教训会有所变动。 .├── index.css # 用于设计 Web 利用的用户界面款式├── index.html # 用于设计 Web 利用的用户界面├── index.js # 通过 AgoraRTCClient 实现具体应用逻辑的代码。└── vendor # 第三方前端插件,辅助页面布局和交互,本教程中是下载到本地应用,你也能够应用 CDN 的形式 ├── bootstrap.bundle.min.js ├── bootstrap.min.css └── jquery-3.4.1.min.js集成声网 SDK ...

July 23, 2022 · 5 min · jiezi

关于音视频:零基础开发小游戏语音开黑Demo

与亲朋好友一起玩在线游戏,如果游戏中有实时语音能力能够拉进玩家之间的间隔,增加更多乐趣。咱们以经典的中国象棋为例,开发在线语音象棋。本文次要波及如下几个点: 在线游戏的规定,本文以中国象棋为例。借助Zego SDK的实时音讯能力,实现在线游戏实时数据传输。借助Zego SDK的语音能力,实现在线语音。留神:尽管本文以中国象棋为例,但其余在线小游戏同样能够套用,只是游戏规则不一样而已。 最终成果如下: 1 中国象棋游戏规则对于中国象棋的游戏规则,我这里做个简略的介绍。 车:只能走直线。马:只能按日字对角走,如果往对角方向的长边有棋子,则不能走。象:只能按田字对角走,且不能过河。如果田字正核心有棋子,则不能走。仕:只能在九宫对角线上走。帅:只能在九宫外面走,须要留神,单方帅如果在同一条直线上两头必须有棋子,否则不容许在同一条直线。跑:如果不吃子,则跟车一样的规定。如果吃子,则须要被吃的子与跑之间有一个棋子。兵:没过河时只能后退。过河后,能够左右和后退,但不能后腿。在玩家每一次下棋时,首先须要验证指标地位是否是无效地位,即是否合乎游戏规则: // 判断是否能够挪动public static boolean canMove(Chessboard chessboard, int fromX, int fromY, int toX, int toY) { //不能原地走 if (fromX == toX && fromY == toY) return false; Chess chess = chessboard.board[fromY][fromX]; // 首先,确保指标地位不是本人的子 Chess[][] board = chessboard.board; if (board[toY][toX] != null && board[toY][toX].isRed() == chessboard.isRed) { return false; } switch (chess.type) { case RED_SHUAI: case BLACK_SHUAI: return canShuaiMove(chessboard, fromX, fromY, toX, toY); case RED_SHI: case BLACK_SHI: return canShiMove(chessboard, fromX, fromY, toX, toY); case RED_XIANG: case BLACK_XIANG: return canXiangMove(chessboard, fromX, fromY, toX, toY); case RED_MA: case BLACK_MA: return canMaMove(chessboard, fromX, fromY, toX, toY); case RED_CHE: case BLACK_CHE: return canCheMove(chessboard, fromX, fromY, toX, toY); case RED_PAO: case BLACK_PAO: return canPaoMove(chessboard, fromX, fromY, toX, toY); case RED_ZU: case BLACK_ZU: return canZuMove(chessboard, fromX, fromY, toX, toY); } return true;}如果是合乎规定的行走,再间接将指标地位的棋子移除(必须先判断有棋子且是对方棋子才行)。游戏能够始终这样继续上来,直到有一方的帅被吃掉, 游戏完结。 ...

July 13, 2022 · 2 min · jiezi

关于音视频:VUEWebRTC实现音视频直播

1 性能简介本文将介绍如何疾速应用 Vue 实现一个简略的实时音视频通话。 相干概念解释: ZEGO Express SDK:由 ZEGO 提供的实时音视频 SDK,可能为开发者提供便捷接入、高清晦涩、多平台互通、低提早、高并发的音视频服务。推流:把采集阶段封包好的音视频数据流传输到 ZEGO 实时音视频云的过程。拉流:从 ZEGO 实时音视频云将已有音视频数据流进行拉取的过程。2 前提条件在实现根本的实时音视频性能之前,请确保: 已在我的项目中集成 ZEGO Express SDK,详情请参考 疾速开始 - 集成。已在 ZEGO 控制台 创立我的项目,申请无效的 AppID 和 AppSign,详情请参考 控制台 - 项目管理。3 示例源码下载请参考 下载示例源码 获取源码。 相干源码请查看 “/express-demo-web/src/Examples/Framework/Vue” 目录下的文件。 4 应用步骤以后我的项目应用的 Node 版本为 14.17.3,Vue 版本为 2.4.2。 以用户 A 拉取用户 B 的流为例,流程如下图: 整个推拉流过程的 API 调用时序如下图: 4.1 创立引擎1. 创立界面 在创立引擎之前,举荐开发者增加以下界面元素,不便实现根本的实时音视频性能。 本地预览窗口远端视频窗口完结按钮 2. 创立引擎 创立 ZegoExpressEngine 引擎实例,将申请到的 AppID 传入参数 “appID”,将接入服务器地址传入参数 “server”。 ...

July 13, 2022 · 3 min · jiezi

关于音视频:RTCAI视觉如何快速开发一个实时美颜应用移动端

Z世代作为社会新的生产主力,谋求共性、酷爱离奇事物,青眼与酷炫离奇的玩法、紧跟娱乐潮流。AI+音视频的联合,作为在音频和视频之外第三个场景玩法翻新的支撑点,刚好投合了潮流属性。 以后市场中难以找到AI视觉&音视频双能力稳固牢靠的供应商,AI视觉与音视频各自的技术门槛令泛滥企业的技术综合能力,用户不得不对接更多的供应商,而这也让更贴合用户需要的一体化服务迟迟没有到来。 接入速度慢? 保护老本高? 响应不及时? ZEGO 即构科技在往年6月推出了 AI 视觉产品“ZEGO Effects”,用稳固牢靠的AI+音视频能力提供更便捷高效的一站式服务,解决行业痛点,基于根底的音视频服务,满足用户在音视频场景中对于美颜、滤镜、AI 特效等 AI 视觉性能的需要。 本篇文章咱们将介绍如何应用 Zego 即构科技的 Express SDK 和 Effects SDK 产品,疾速实现在挪动端的音视频 + AI 场景的搭建。 概念介绍在正式开始介绍音视频+AI场景搭建实操之前,先简略介绍下Express SDK 和 Effects SDK 的根底概念。 1、Express SDKExpress SDK 是指 ZEGO 实时音视频 SDK,可能为开发者提供便捷接入、高清晦涩、多平台互通、低提早、高并发的音视频服务,能够实现一对多,多对多的实时音视频互动,秀场直播,视频会议等场景。 2、Effects SDKEffects SDK 是指 ZEGO AI 视觉 SDK,提供多项智能图像渲染和算法能力,包含智能美颜、AR 特效、图像宰割等,可广泛应用于娱乐直播、在线教育、拍照工具等多种场景。 充沛满足泛娱乐场景下各类玩法,让企业疾速取得 AI+ 音视频创新能力: 美颜 —— 智能美颜、基于精准的人脸关键点监测和 3D 模型的高级美颜、自然美妆;AR 特效 —— ZEGO Effects 提供多种 AR 特效,反对 2D/3D 贴纸,脸部贴纸,对于简单背景,光照变动及人物夸大姿势等有极强的鲁棒性;智能宰割 —— 通过精准宰割扭转画面背景,用户可需要实现视频、直播场景自在变换,再辅以多样背景素材,能够实现更多乏味玩法;百变滤镜 —— 提供多种精美滤镜,包含清爽、日系、柔美、森林、光效等不同主题,能够轻松变换图像格调。AI 视觉在音视频代码中的实现逻辑上面咱们将以 iOS,Android 端为切入点,带大家理解一下 Express SDK + Effects SDK 整个实现过程。 ...

July 5, 2022 · 2 min · jiezi

关于音视频:超分辨率技术在实时音视频领域的研究与实践

前言近日,计算机视觉和模式识别畛域顶级会议 CVPR 在美国新奥尔良市举办,同时计算机图像复原畛域最具影响力的全球性顶级赛事 NTIRE 在会上颁奖,网易云信音视频实验室获得 NTIRE 高效率超分辨率挑战赛总体性能赛道冠军,以及运行工夫赛道季军。本文将着眼于 AI 超分技术从钻研到部署的落地问题,介绍超分辨率技术现状,以及视频超分在挪动端落地利用所面临的时机与挑战。 超分辨率技术概述近年来,互联网视频数据呈爆炸式增长。与此同时,视频的分辨率也越来越高,以满足人们对视频体验品质(Quality of Experience, QoE)日益增长的需要。然而,因为带宽的限度,网络传输视频通常会被降采样和压缩,这不可避免地会导致视频品质的降落,进而影响用户的体验与观感。超分技术旨在从低分辨率输出中复原出视觉品质更佳的高分辨率输入,能够无效地解决视频品质不佳的问题,从而满足播放端用户对于极致高清画质的需要。在直播点播、监控设施、视频编解码、手机拍摄、医学影像、数字高清和视频还原等畛域都有十分重要的利用价值。 超分辨率技术的分类与倒退方向超分辨率技术狭义上讲蕴含 3 种状况: 单幅图像超分辨率、从多帧间断图像中超分辨率重建单帧图像、视频序列的超分辨率重建。 单幅图像放大次要利用对髙分辨率图像的先验常识和以混叠模式存在的高频信息进行还原。后两种状况除了利用先验常识和单幅图像信息外,还能够利用相邻图像之间的互补信息进行超分辨率重建,失去比任何一幅低分辨率图像分辨率都高的高分辨率图像,然而这两种状况常带来难以承受的计算成本与邻帧重建不间断的危险。因而,在理论落地时,偏差于单图超分辨率技术。 依照工夫和成果进行分类,能够将单幅图像超分辨率算法分为传统算法和深度学习算法两类。 传统超分辨率重建算法传统的超分辨率重建算法次要依附根本的数字图像处理技术进行重建,常见的有如下几类: 基于插值的超分辨率重建:基于插值的办法将图像上每个像素都看做是图像立体上的一个点,那么对超分辨率图像的预计能够看做是利用已知的像素信息为立体上未知的像素信息进行拟合的过程,这通常由一个预约义的变换函数或者插值核来实现。基于插值的办法计算简略、易于了解,但存在较为显著的缺点。还原出的图像经常呈现含糊、锯齿等景象。常见的基于插值的办法包含最近邻插值法、双线性插值法和双立方插值法等。 基于进化模型的超分辨率重建:此类办法从图像的降质进化模型登程,假设高分辨率图像是通过了适当的静止变换、含糊及噪声才失去低分辨率图像。这种办法通过提取低分辨率图像中的要害信息,并联合对未知的超分辨率图像的先验常识来束缚超分辨率图像的生成。常见的办法包含迭代反投影法、凸集投影法和最大后验概率法等。 基于学习的超分辨率重建:基于学习的办法则是利用大量的训练数据,从中学习低分辨率图像和高分辨率图像之间某种对应关系,而后依据学习到的映射关系来预测低分辨率图像所对应的高分辨率图像,从而实现图像的超分辨率重建过程。常见的基于学习的办法包含流形学习、稠密编码方法。 基于深度学习的超分辨率重建算法SRCNN 是深度学习办法在超分辨问题的首次尝试,是一个比较简单的卷积网络,由 3 个卷积层形成,每个卷积层负责不同的职能。第一个卷积层的作用次要是负责提取高频特色,第二个卷积层则负责实现从低清特色到高清特色的非线性映射,最初一个卷积层的作用是重建出高分辨率的图像。SRCNN 的网络结构比较简单,超分辨成果也有待改善,不过它确立了深度学习办法在解决超分辨这类问题时的根本思维。起初的深度学习办法,根本都遵循这一思维去进行超分辨的重建。 起初的 ESPCN 基于 SRCNN 进行了一些改良,但因为网络重建能力无限,超分辨的成果也不是特地现实。因为在过后,深度卷积网络的训练是存在问题的。个别对于卷积神经网络来说,当网络层数减少的时候,性能也会减少,但在理论利用中,人们发现当网络层数减少到了肯定水平,因为反向流传原理,就会呈现梯度隐没的问题,导致网络收敛性变差,模型性能升高。这个问题直到 ResNet 提出残差网络结构之后,才失去比拟好的解决。但值得注意到是,ESPCN 网络首次提出了亚像素卷积层,去除了低分辨率图像送入神经网络前的预上采操作,极大升高了 SRCNN 的计算量,进步了重建效率。 VDSR 是残差网络以及残差学习思维在超分辨问题上的首次利用,将超分辨网络的层数首次减少到了 20 层。利用残差学习的形式,网络学习残差特色,网络收敛快,对细节更加敏感。起初一些卷积神经网络提出了更简单的构造,比方 RGAN 提出应用生成式反抗网络来生成高分辨的图像,SRGAN 由 2 局部组成,一个是生成网络,另一个是判断网络。生成网络的作用是依据一张低分辨率的图像来生成一张高分辨的图像,而判断网络的作用是将生成网络生成的高分辨图像断定为假,这样网络在训练的时候,生成网络和断定网络两者之间一直博弈,最终达到均衡,从而生成细节纹理比拟真切的高分辨图像,具备更好的主观视觉效果。其余深度卷积网络办法比方 SRDenseNet、EDSR、RDN,应用了更简单的网络结构,网络的卷积层越来越深,在单张图像上的超分辨成果也越来越好。 然而,因为高计算成本与内存占用,许多工作难以部署在资源无限的设施上。为此,超分辨率的高效模型设计也引起宽泛关注。FSRCNN 采纳紧凑的沙漏型架构首次减速 SR 网络;DRCN 和 DRRN 采纳递归层来构建具备较少参数的深度网络。CARN 通过将无效残差块与组卷积相结合,缩小了 SR 网络的计算。还引入了留神机制来找到信息量最大的区域,以更好地重建高分辨率图像。另外,常识蒸馏也被援用到轻量型超分辨率网络,以进步它们的性能。 实时视频超分辨率的挑战在挪动互联网时代,挪动端作为视频内容最重要承载平台,负责着大量的 PGC 和 UGC 视频内容的播放,但受限于模型泛化能力有余,挪动端算力无限,算法计算复杂度低等问题,基于 AI 的超分辨率算法的以下个性使得其在挪动端上进行实时部署时面临着微小挑战: 主观成果不佳,间接应用以上提到的基于深度学习的超分辨率算法,会发现其主观成果和 Bicubic 等传统算法差不多,对视频画质的晋升成果很无限。 ...

July 5, 2022 · 2 min · jiezi

关于音视频:ZEGO-教程-RTC-AI-视觉的最佳实践-PC端

以下文章来源于ZEGO即构开发者 ,作者Native SDK 开发 摘要:帮忙开发者在音视频场景中疾速取得 AI 视觉性能 —— 美颜、滤镜、背景抠图等。 文|即构 Native SDK 开发团队 上篇文章咱们具体介绍了基于挪动端实现音视频+AI视觉联合,疾速获取智能图像渲染和算法能力,上面咱们将以 WINDOWS,MACOS 端为切入点,带大家理解一下在PC端 Express SDK + Effects SDK 的整个实现过程。 AI视觉在音视频代码中的实现逻辑1、初始化Effects SDK初始化Effects SDK次要是实现对象的创立和资源的设置。 C++代码实现如下: ...// 设置资源zego_effects_set_models(model_path_list, 2);zego_effects_set_resources(resouce_path_list, 4);// 创立 effects 实例zego_effects_create(&m_handle,license);// 初始化effects 对象zego_effects_init_env(handle,width,height);2、初始化Express SDK初始化Express SDK次要实现视频帧数据格式的设置,启动自定义前解决性能以及注册回调对象。这里须要留神的是,不同平台下所用的视频帧格局有所不同。 平台视频帧数据格式MACOSZEGO_VIDEO_BUFFER_TYPE_CV_PIXEL_BUFFERWINDOWSZEGO_VIDEO_BUFFER_TYPE_RAW_DATAC++(MACOS)代码实现如下: // 创立 express 实例engine = ZegoExpressSDK::createEngine(appID,appSign,true, ZEGO_SCENARIO_GENERAL,nullptr);// 抉择 CVPixelBuffer 类型视频帧数据ZegoCustomVideoProcessConfig config;config.bufferType = ZEGO_VIDEO_BUFFER_TYPE_CV_PIXEL_BUFFER;// 开启自定义前解决engine->enableCustomVideoProcessing(true,&config);// 设置视频前解决回调对象engine->setCustomVideoProcessHandler(myHandler);C++(WINDOWS)代码实现如下: // 创立 express 实例engine = ZegoExpressSDK::createEngine(appID,appSign,true, ZEGO_SCENARIO_GENERAL,nullptr);// 抉择 RAW_DATA 类型视频帧数据ZegoCustomVideoProcessConfig config;config.bufferType = ZEGO_VIDEO_BUFFER_TYPE_RAW_DATA;// 开启自定义前解决engine->enableCustomVideoProcessing(true,&config);// 设置视频前解决回调对象engine->setCustomVideoProcessHandler(myHandler);3、Effects SDK + Express SDK 的实现逻辑Express SDK 提供的自定义视频前解决能与 Effects SDK 完满联合起来。 ...

July 4, 2022 · 1 min · jiezi

关于音视频:音视频技术栈思维导图

分享一张音视频技术栈思维导图,心愿对行将入行音视频开发畛域的同学有帮忙。

July 1, 2022 · 1 min · jiezi

关于音视频:uniapp如何30分钟快速开发实时音视频功能

“一套代码,多端运行”是很多开发团队的幻想。ZEGO SDK基于uni-app跨平台框架反对iOS、Android、Windows、macOS、HarmonyOS、Web、小程序并反对平台间互通,疾速实现搭建多端音视频通话,大大降低开发和学习老本。 本文将疏导疾速创立和运行第一个uni-app+RTC我的项目,适宜想要疾速实现多端共用音视频我的项目的开发者; 1 筹备环境在开始集成 ZEGO Express SDK 前,请确保开发环境满足以下要求:HBuilderX 3.0.0 或以上版本。筹备 iOS / Android 设施,版本要求如下:iOS 9.0 或以上版本且反对音视频的 iOS 设施。Android 4.4 或以上版本且反对音视频的 Android 设施。iOS / Android 设施曾经连贯到 Internet。 2 我的项目筹备2.1 创立我的项目进入即构官网,在【ZEGO控制台】创立我的项目,并申请无效的 AppID,这一步很要害,appid为利用的惟一标识,如身份证号,是利用的身份证明,用于明确你的我的项目及组织身份。zego提供的服务也是基于APP ID; App ID的获取形式很简略,只需3~5分钟,在即构官网-我的我的项目-创立即可。创立的我的项目信息可用于SDK的集成和配置; 2.2 Token 鉴权登录房间时必须 应用 Token 鉴权 ,可参考 Token 鉴权教程 为了不便开发阶段的调试,开发者可间接在 ZEGO 控制台获取长期 Token(有效期为 24 小时) 来应用,详情请参考 控制台(新版) - 项目管理 中的 “我的项目信息”。 3 集成3.1 我的项目设置开始集成前,可参考如下步骤设置你的我的项目;如已有我的项目,本步骤可疏忽。如需新建我的项目,可依照以下步骤创立你的新我的项目: 1.启动 HBuilderX,抉择“文件 > 新建 > 我的项目”菜单。 2.在呈现的表单中,抉择 “uni-app” 平台,并填写项目名称。 ...

July 1, 2022 · 2 min · jiezi

关于音视频:教你30分钟快速搭建直播间

秀场直播既能够实现单人视频直播,也能够邀请观众上麦、进行多人连麦互动。您能够通过如下视频疾速理解秀场直播的次要性能演示和接口调用。 1 架构设计秀场直播场景的次要架构如下图所示(以多人连麦直播互动为例): 2 筹备环境在开始集成 ZEGO Express SDK 前,请确保开发环境满足以下要求: Android Studio 2020.3.1 或以上版本。Android Studio 版本编号零碎的变更请参考Android Studio 版本阐明。 Android SDK 25、Android SDK Build-Tools 25.0.2、Android SDK Platform-Tools 25.x.x 或以上版本。Android 4.4 或以上版本,且反对音视频的 Android 设施。Android 设施曾经连贯到 Internet。3 集成 SDK3.1 (可选)新建我的项目此步骤以如何创立新我的项目为例,如果是集成到已有我的项目,可疏忽此步。 关上 Android Studio,抉择 “File > New > New Project” 菜单。 填写我的项目名及我的项目存储门路。 其它依照默认设置,单击 “Next”,最初单击 “Finish” 实现新工程创立。3.2 导入 SDK目前反对的平台架构包含:armeabi-v7a、arm64-v8a、x86、x86_64。 开发者可通过以下任意一种形式实现集成 SDK。 形式一:应用 JitPack 主动集成 SDK进入我的项目根目录,关上 “build.gradle” 文件,在 “allprojects” 中退出如下代码。 ...allprojects { repositories { maven { url 'https://www.jitpack.io' } google() jcenter() }}进入 “app” 目录,关上 “build.gradle” 文件,在 “dependencies” 中增加implementation 'com.github.zegolibrary:express-video:2.+',这样能获取到最新的版本,如果须要下载指定版本,请从https://jitpack.io/#zegolibrary/express-video查问具体版本号,并将2.+批改为指定的版本号。 ...

June 30, 2022 · 3 min · jiezi

关于音视频:VoIP-Push-在海外音视频业务中的应用

VoIP(Voice over Internet Protocol)也被称为 IP 电话,通过 IP 协定传输语音通信和多媒体会话,是一种性价比高且体系架构凋谢的技术计划,能够被利用在相亲、面试、征询等多种场景,提供优异的通信体验。而 VoIP Push 是 VoIP 利用实现流程上十分重要的一环。关注【融云寰球互联网通信云】理解更多 在音视频业务出海过程中,iOS 端 PushKit 与 CallKit 框架配合,提供与手机零碎一样的复电体验,间接在锁屏界面显示,并且通话过程中不会被其余利用打断。(因为受苹果审核政策的影响,CallKit 在边疆不可用。) 6 月 23 日的融云 RTC · 进阶实战高手课上,融云音视频研发工程师从 VoIP 概念、VoIP Push 在不同平台的实现过程等方面介绍了在 VoIP Push 海内我的项目中的利用,并重点分享了其在 iOS 端的实际。后盾回复【VoIP】获取残缺课件 什么是 VoIP?传统的语音通信应用的是基于电路替换的 PSTN,特点是间断门路采纳物理连贯,电路接通后,呈现在数据终端用户背后的电路就如同专线一样,交换机控制电路不会去查看传输的数据包中的任何内容,为用户提供了一条齐全通明的通信通路。(传统通信采纳电路替换技术,图源:Nextiva) 电路替换技术为用户的每一个呼叫建设一个连贯技术,而连贯一旦建设,就始终被一对用户固定占用,无论他们是否通信,都不能被其余用户共享。当通信较少时,信息传输的理论效率升高,且因为其通信时电路被用户独占,通信老本较高。 VoIP(Voice over Internet Protocol,也称为 IP 电话)是一种通过 Internet 网络协议传送语音通信和多媒体会话的技术。 VoIP 技术采纳了分组替换技术作为通信平台。(VoIP 采纳分组替换技术,图源:Nextiva) 分组替换技术采纳了报文交换的“存储-转发”形式,但不像报文交换机那样以报文作为单位进行替换,而是把报文截成较短的、对立格局的分组来进行替换和传输。每一个分组进入交换机后,交换机根据分组中的地址信息抉择该分组的传输门路,并将其沿着选定的门路传输给下一个交换机或用户终端。 同电路交换机技术相比拟,分组替换因为不存在专用链路,其通信通路的利用率很高。能够说,IP 骨干网中的每条线路都在为所有用户提供传输服务。 运营商在架设 PSTN 的终端时有很大的硬件设施上的老本投入,如通信电缆、数据交换设施、各节点设施、施工老本、人工成本、保护老本等。而 VoIP 全是基于 Internet 上的传输,充分利用了用户的宽带资源,性价比更高。加上专门的终端接入设施及相应的平台技术对语音的弱小解决性能,VoIP 的通话质量能达到传统的 IP 电话的通话质量。 综上所述,VoIP 与传统电话相比劣势在于:① 可能更加无效地应用网络资源② 性价比高③ IP 电话网继承了计算机网络的智能个性,能够灵便地实现各种增值业务的开发④ 凋谢的体系结构 ...

June 29, 2022 · 2 min · jiezi

关于音视频:声网-VQA将实时互动中未知的视频画质用户主观体验变可知

在实时互动场景中,视频画质是影响观众体验的要害指标,但如何实时评估视频的画质始终是个行业难题,须要将未知的视频画质用户主观体验变成可知。 未知的局部往往是最须要攻克的,声网也始终在继续摸索合乎实时互动畛域的视频画质评估办法,通过声网视频算法专家的继续钻研,正式推出了业内首个可运行于挪动设施端的视频画质主观体验 MOS 分评估模型。利用先进的深度学习算法,实现对实时互动场景中视频画质主观体验 MOS 分(均匀主观意见分)的无参考评估,咱们把这一评估体系叫做 声网 VQA (Video Quality Assessment)。 声网 VQA 是一套“评估主观视频品质体验”的主观指标,在声网 VQA 推出前对于视频品质的评估业界曾经有两种办法。第一种是主观的视频品质评估,这种办法次要利用在流媒体播放的场景中,并依据原始参考视频提供信息的多少来进行品质评估。第二种是主观的视频品质评估,传统的办法次要依赖人工观看视频并打分,尽管能肯定水平上直观反映观众对视频品质的感触,但这种仍存在耗时费劲、老本较高、主观观感存在偏差等问题。 以上两种传统的视频品质评估办法都难以实用于实时互动的场景,为了解决以上问题,声网构建了大规模的视频画质主观评估数据库,并在此基础上训练了业内首个可间接在挪动端运行的 VQA 模型,它利用深度学习算法实现对实时互动场景接收端视频画质主观体验 MOS 分的评估,解除了传统主观画质评估对人力评分的高度依赖,从而极大进步视频画质评估效率,使实时的视频品质评估成为可能。 简略来说,咱们建设了一个视频画质主观评分的数据库,再通过深度学习算法建设了一个算法模型,并基于大量视频-MOS 分的信息进行训练,最终使用到实时互动的场景中,实现视频画质主观 MOS 分的精准模仿。但这其中的难点在于,1、如何收集数据集,即如何量化人对视频品质的主观评估;2、如何建设模型,使该模型可能运行在任何接收端,实时评估接收端画质。 收集业余、谨严、牢靠的视频画质数据集为了保证数据集的业余、谨严与牢靠,声网首先在视频素材整顿阶段,做到视频内容自身的起源丰盛,防止评分员打分时的视觉疲劳,同时,在画质区间上尽量散布平衡,防止在有些画质区间的视频素材过多,有些画质区间的视频又过少,这样对后续打分的均值会有影响,下图为咱们在某一期视频收集到的打分散布: 其次,为了更合乎实时互动场景,声网数据集的设计十分谨严,笼罩了多样化的场景视频伤害失真类型,包含:暗光多噪点、静止含糊、花屏、块效应、静止含糊(摄像头抖动)、色调、饱和度、亮点和噪声等。打分指标也设置了 1-5 分,以 0.5 分为一个画质区间,每个区间确到 0.1,颗粒度更细并对应了具体的规范。 最初,在数据荡涤阶段,咱们按照 ITU 规范成立 ≥15 人的评分员组,先计算每个评分员和总体均值的相关性,剔除相关性较低的评分员后,再对残余评分员的评估求均值,得出最初的视频主观体验 MOS 分。尽管不同的评分员对于“好”和“坏”的相对区间定义,或者是对画质伤害的敏感水平都不尽相同,然而对“较好”和“较差”的判断还是趋同的。 建设基于挪动端的视频画质主观体验 MOS 分评估模型收集完数据,接下来须要基于数据库通过深度学习算法来建设视频主观体验 MOS 分评估模型,使该模型可能取代人工评分。因为在实时互动场景下,接收端无奈获取无损的视频参考源,因而声网的计划是将主观 VQA 定义为接收端解码分辨率上的无参考评估工具,用深度学习的办法监控解码后的视频品质。 ● 模型设计的学术严谨性:在训练深度学习模型的过程中,咱们也参考了多篇学术级的的论文(见文末的论文参考文献),例如在非端到端的训练中会对原始视频提取局部特色,咱们发现视频空间上的采样对性能的影响最大,而进行时域上的采样与原视频的 MOS 相关性最高(参考论文文献 1)。同时,影响画质体验的不光是空域的特色,时域上的失真也会有影响,其中有一个时域滞后效应(参考论文 2)。该效应对应着两个行为:一是视频画质下降时主观体验立刻升高,二是视频画质晋升时观看者体验的迟缓晋升。对此,声网在建模时也思考了这种景象。 ● 挪动端超小模型参数量减少 99.1%:思考到以后很多实时互动场景利用在挪动端,声网针对性的设计了挪动端更易利用的超小模型,模型绝对大模型参数量减少 99.1%,运算量缩小 99.4% 。就算是低端手机接入后,也能够无压力的跑起来,进行端上视频画质的普查。同时,咱们还实现了翻新的深度学习模型压缩办法,在基于某个轻量化版本并且放弃模型预测相关性状况下,进一步将模型参数量减少59%,运算量缩小49.2%。可做为通用办法,推广应用到对其余深度学习工作的模型做简化,造成一个无效的通用简化方法。 ● 模型性能优于学术界公开大模型:一方面,声网 VQA 小模型的预测后果相关性与学术界公开的大模型放弃相当,甚至略优于一些大模型的后果,咱们选取了声网 VQA 的模型与学术界公开的 IQA、BRISQUE、V-BLINDS 以及 VSFA 等四种视频画质评估算法模型在两个大规模的公开数据集 KoNViD-1k 、LIVE-VQC 上进行了试验,试验后果如下图: ...

June 27, 2022 · 2 min · jiezi

关于音视频:如何轻松实现在线-K-歌房与王心凌合唱山海

王心凌与谭维维独唱《山海》“他明确,他明确,我给不起,于是转身向山里走去。” 《浪姐3》二公舞台王心凌和谭维维独唱的《山海》燃炸全场,引得屏幕前的粉丝也跟着王心凌一起飙低音。 如果能开发一个在线K歌利用,就能与王心凌线上独唱实现追星自在。 如何疾速实现独唱性能?即构科技提供了实时独唱一站式解决方案和技术实现流程。 目前行业内广泛采纳的独唱计划为“串行独唱”。在“串行独唱”计划中,独唱各方串行退出,伴奏由主唱端混入。从实质上来说,这是一种“伪实时独唱”。 ·主唱体验缺失:副唱、听众独唱同步成果良好,但主唱无奈实时听到副唱的歌声 ·独唱人数有限度:三人或以上的独唱实现简单,提早高,难以真正落地 为了冲破这两个限度,同时不影响副唱和听众端的体验,即构对计划架构进行了重构,克服了多个技术挑战,实现了独唱者之间的实时互动,也满足了三人及以上的独唱需要。 本文将分享如何基于ZEGO SDK轻松实现在线K歌房,适宜想极速搭建在线 K 歌房的开发者。也适宜想清晰听到王心凌歌声的男粉们。近期即构七周年庆全线产品1折起,有须要的开发者可点击详情理解:https://www.zego.im/activity/2100005 在线K歌技术计划通过 ZEGO Express SDK,可极速搭建含 正版曲库 的在线 KTV 场景: 在线K歌场景下实时独唱计划针对实时独唱的场景,ZEGO 提供了一站式解决方案,让开发者极速搭建可能真正进行“独唱”的在线 K 歌房。 各端在连麦的根底上同时播放歌曲伴奏,而后上麦进行独唱,双人模式下主唱和副唱能够相互听到对方声音,多人模式下独唱者之间都能听到彼此声音,简直感触不到提早,达到了真正意义上的实时独唱。 在媒体流方面,独唱者相互进行推拉流,同时会由一名独唱者推出歌曲伴奏,其余独唱者在本地播放伴奏,通过 NTP 进行工夫同步。另外,歌曲伴奏和所有独唱者的声音都通过 ZEGO RTC 进行混流服务解决造成一条流,观众只需拉一条流即可听到各端同步的声音,完满实现多人独唱的成果。 该计划的长处在于: 升高了端到端的时延。提供了用户中途退出独唱的解决方案。精准同步不同端之间的伴奏、歌词、人声。改善各端设施性能和本地工夫不精准的状况,升高网络环境造成的时延影响。实时独唱计划技术实现流程1 概述搭建一个残缺的在线 KTV 须要实时语音(RTC)、点歌(歌曲的获取与分享)、歌词展现等根底能力,并通过以上根底能力实现独唱、麦位治理、房间治理、歌词展现与同步等业务零碎。 2 根本流程介绍以下介绍实现一个残缺在线 KTV 的根本流程,可帮忙您从整体上了解在线 KTV 的外围业务。 2.1 根底业务模块在线 KTV 整体计划蕴含房间治理、麦位治理、点歌零碎、独唱同步治理、歌词同步治理 5 个业务模块,根本业务流程如下: 在线 K 歌房内的用户有多种角色,包含房主、独唱者、观众。 角色形容房主创立 KTV 房间并推送人声、伴奏到远端,并发动混流工作。房主会主动上麦并固定为麦上首位。独唱者独唱者能够点歌,或者与其余独唱者进行独唱。观众进入 KTV 房间后,拉取播放房间内的混流。不同角色在本计划中的根本实现流程如下: 房主 房主创立并退出房间。发动混流工作(包含房主的人声流、房主伴奏流以及所有独唱者的人声流)。通过发送 SEI 信息同步房间内所有人的歌曲播放进度。房主退出房间,房间内所有成员主动退房。房主创立及来到 RTC 房间,均需由业务服务器创立房间获取对应的 roomID 和 userID 后,而后通过调用 Express 接口 loginRoom 登录房间和 logoutRoom 接口退出房间。房主通过调用 Express 相干接口进行点歌、下载歌曲和歌词、播放歌曲和发送 SEI 信息等操作,两头则由业务服务器监听房间内歌曲、麦位的信息变更,并告诉房间内所有成员。歌词下载结束后,通过歌词 UI 组件进行逐行或者逐字歌词的展现。 ...

June 24, 2022 · 3 min · jiezi

关于音视频:WWDC22-多媒体特性汇总

M2 芯片M2 芯片采纳加强的第二代 5 纳米制程技术并封装了超过 200 亿个晶体管,相比 M1 多 25%;反对 100GB/s 的对立内存带宽,相比 M1 晋升 50%,最高反对 24GB 的 LPDD5 内存 ;CPU 架构沿用 8 外围架构(4 个性能外围 + 4 个能效外围),相比 M1 性能晋升 18%;GPU 反对 10 外围,雷同功耗下整体图形性能比 M1 晋升 25%,最大功耗程度下相比 M1 性能晋升最高可达 35%;搭载新一代神经网络引擎,每秒能够解决 15.8 万亿次操作,相比 M1 晋升 40%;搭载新一代媒体解决引擎,反对 8K H.264、HEVC 编解码;装备 ProRes 视频解决引擎;反对多路 4K 和 8K 视频的解码播放; Macbook Air最新公布的 Macbook Air 搭载最新的 M2 芯片,反对 1080p 摄像头采集。至此已有 7 款 Mac 设施反对 1080p 视频采集,除了这次公布的 MBA,其余 6 款别离是 2021 款 14 英寸 MBP、2021 款 16 英寸 MBP、2021 款24英寸2端口iMac、2021 款 24 英寸 4 端口 iMac、27 英寸 iMac、iMac Pro。 ...

June 21, 2022 · 3 min · jiezi

关于音视频:依图在实时音视频中语音处理的挑战丨RTC-Dev-Meetup

前言 「语音解决」是实时互动畛域中十分重要的一个场景,在声网发动的「RTC Dev Meetup丨语音解决在实时互动畛域的技术实际和利用」 流动中,来自百度、寰宇科技和依图的技术专家,围绕该话题进行了相干分享。 本文基于依图 AI SaaS 技术负责人周元剑在流动中分享内容整顿。关注公众号「声网开发者」,回复关键词「DM0428」 即可下载流动相干 PPT 材料。 依图是一家做 AI 基础设施和 AI 解决方案的提供商,领有的 AI 技术能力绝对比拟宽泛,包含图片、视频、语音、自然语言解决等,除具备 AI 算法能力外,也能提供 AI 算力。 大家理解依图的背景后,我来说下依图在直播场景下遇到的与音频内容审核相干的挑战。 01 直播内容审核的业务流程 ■图 1 图 1 展现了直播场景下内容审核的业务流程。 根本过程是:主播先上麦直播,而后流就会被推送到平台,平台将审核申请发给供应商,审核的供应商(比方依图)通过地址获取流,并对其进行解码,实时剖析找出违规的内容,再通过回调模式把数据返回给客户。客户收到数据后,个别须要进行二次的人工复核,如果确认是违规内容,那么就会进行后盾解决,比方进行直播或者删除账号等。 02 直播音频审核算法模块将零碎外部的算法模块开展,如图 2 所示能够分为这三类,一类是根底的语音辨认( ASR );第二类是文本分类,次要用于依据辨认出的文本判断其中蕴含哪些违规内容。第三类是非语言辨认,如果违规内容不是通过文字来表白的,就能够通过这部分进行辨认。 ■图 2 2.1 语音辨认( ASR )技术难点首先介绍在 ASR 中遇到过的挑战。 总体来说,次要遇到的挑战有两点:第一点是强背景音的烦扰,在互联网的语音场景下,通常伴有背景音乐或者游戏音效,环境个别比拟嘈杂,甚至还会存在多人谈话的状况,相比一般场景,这些特点叠加起来的语音辨认难度会大大增加。 第二点是特定专有词的辨认。某些违规词汇在生活中不经常出现,所以在语音辨认的时候,如果没有进行专门的优化,会偏向于把音节辨认成更常见的词,从而导致违规词的漏报。 2.1.1 强背景音性能优化 那么,如何应答这样的问题呢?针对强背景烦扰问题,咱们通过各种尝试,总结下来最无效的办法是从数据方面进行解决。 数据方面次要有两个优化:第一个是依据业务场景来创立一个比拟精密的环境音模拟器,通过模拟器进行数据加强,这种办法在其余畛域曾经失去过验证,比方特斯拉的主动驾驶模型在训练过程中也是采纳相似的技术来晋升性能。 依图从发声模仿、房间模仿、收声模仿、信道模仿等多个维度构建了一个模拟器。在每个维度下能够进行参数调整,比方谈话人的数量、语速语调或者背景音、声源的地位方向、失声成果、混响等。总体来说,大略有上百种参数能够进行调整。通过模拟器能够改善原来绝对比较简单的训练数据的丰盛度,使训练数据更贴近特定的场景,从而获得不错的性能晋升成果。 另一个晋升伎俩就是通过难例开掘来进行训练 。在失常模型的训练过程中有正例数据也有负例数据,在蕴含大量数据的状况下,总是会存在一些正例数据与负例数据类似的状况,这样的数据通常称为难例,就是比拟难的数据。在线难例开掘就是在模型的训练过程中,重复把难例数据增加到训练中。相似错题本,通过错题本记录不太会的题目能够晋升问题。 这种形式利用到难例训练,能够让模型学到更多不容易辨别的细节,进而取得不错的性能晋升。通过以上技术,在有强背景音的数据分布下,模型也能获得不错的体现。 2.1.2 特定专有词辨认 后面提到另外的一个挑战是专有词的辨认。这里举一个例子,如图 3 所示,这里是对一段音频中文字的翻译,能够看到,如果之前没有听过“磕泡泡”这个词的话,则大概率无奈辨认进去这段话的含意。有可能是会把“磕泡”听成“可怕”。 ■图 3 针对这个问题,咱们通过尝试,发现有两个办法改良比拟无效:第一个办法是在模型训练的时候,对专有词的 loss 强度进行权重的晋升,也就是说,专有词如果做错,将给予更高的惩办。比方下面的这个例子,失常状况下,说错一个字就扣 1 分,如果“磕泡泡”说错,就设置为扣 2 分。通过这种模式,模型就会更加致力地防止专有词辨认谬误。 ...

June 17, 2022 · 1 min · jiezi

关于音视频:使用融云SDK在APICloud平台实现单人多人音频通话

一、成果展现 二、性能实现的思路 应用之前必须先获取token、init、connect,同时须要到融云后盾开明音视频通话性能(开明或者敞开30分钟后失效)。 单人通话逻辑比较简单,次要会用到didReceiveCall、didConnect、didDisconnect等三个事件。 次要通话流程: (1)发动通话 (2)监听复电 (3)接听或者挂断 多人通话逻辑简单一点,并且只能利用在群组或者讨论组,会用到didReceiveCall、didConnect、remoteUserDidJoin、remoteUserDidLeft、remoteUserDidInvite、didDisconnect等六个事件。 次要通话流程: (1)在组里抉择几个成员发动通话 (2)成员收到复电 (3)成员接听或者挂断 (4)邀请几个成员退出以后通话 (5)被邀请组员收到复电 (6)被邀请组员接听或挂断复电 (7)通话组员监听是否有新成员退出或成员退出 为了让页面代码逻辑更简略,设计了四个页面 index.html(融云初始化、所有监听等次要业务代码) receive-call.html(接收端业务代码,单人多人通话代码) send-call.html(发送端业务代码,单人多人通话代码) friends.html(群组或探讨组成员列表) index.html首页融云初始化以及监听代码如下: var rong = api.require('rongCloud2'); rong.init(function (ret, err) { if (ret.status == 'success') { rong.connect({ token: $api.getStorage('token') }, function (ret, err) { }); } }); //复电事件 rong.addCallReceiveListener({ target: 'didReceiveCall' }, function (ret) { if (ret.callSession.status) { var callType = 'more'; if (ret.callSession.conversationType == 'PRIVATE') { callType = 'one'; } api.openWin({ name: 'receive-call', url: 'receive-call.html', pageParam: { uid: ret.callSession.callerUserId, userIdList: [ret.callSession.observerUserList], callId: ret.callSession.callId, callType: callType }, animation: {type: "fade"} }); } }); //通话完结事件 rong.addCallSessionListener({ target: 'didDisconnect' }, function (ret) { api.sendEvent({ name: 'didDisconnect' }); }); //对端挂断事件 rong.addCallSessionListener({ target1、单人通话 ...

June 17, 2022 · 3 min · jiezi

关于音视频:如何针对海外不同地区进行音视频自动化测试丨Dev-for-Dev-专栏

近年来因为全球性的新冠疫情,世界各地对实时音视频的需要猛增。不同国家和地区因为经济倒退、国家政策等起因,网络环境有很大不同,如果要做好音视频体验,就须要分地区进行音视频指标测试。然而不论是外包,还是云测,都无奈满足咱们对品质的要求。 本文将介绍在以后新冠疫情下,声网是如何对海内不同地区进行音视频自动化测试,并取得牢靠的指标后果。 本文为「Dev for Dev 专栏」系列内容,作者为声网音视频实验室 Android 开发工程师 胡大化。 01 传统音视频测试方法已不实用以测视频延时为例,以前咱们通常的做法是:首先找一个网络时钟,而后让发送端、接收端两台手机进行视频通话,并且用发送端手机拍摄这个时钟,而后接收端就看到网络时钟的画面。咱们将网络时钟的工夫,减去接收端手机显示的时钟工夫,就是这一帧视频的延时。如图 1.1 所示: ■图1.1 以后帧延时为315ms 这种测试方法须要测试人员到现场去安排测试设施。然而在以后疫情环境下,很难派员工去海内出差进行实地场测。 02 为何不外包给海内测试团队?你可能会想到既然不能派员工去海内出差,可不可找当地人帮忙,或者外包给当地业余的测试团队? 这种策略咱们也思考过。但音视频测试不同于个别的软件黑盒测试,在测试过程中实测用例很多,每个用例都要调不同的参数,内部测试团队很难达到咱们平时测试时关注细节的水平,另外他们也不具备测试音视频所须要的专业知识。无奈保障测试后果精确牢靠。再者不同国家和地区因为语言时区等起因,协调的老本极高。 03 借助云测进行自动化测试咱们尝试应用云测供应商在海内不同地区部署的手机做测试,在这些手机装置测试程序,在国内通过远程桌面或自动化脚本管制手机进行音视频通话。 大的云测厂商如 Headspin 在国外几十个国家地区都有部署云测手机,但云测手机与真机不同,有很多限度:比方摄像头被遮住,就无奈应用那些通过摄像头采集进行视频传输的测试用例了。因而咱们须要设计一套不应用摄像头测音视频指标的计划。咱们想到了通过自采集 YUV 视频的形式测试视频指标。 采纳自采集 YUV 的形式,实现了两个云测手机之间视频传输,那怎么能力失去视频传输的性能指标呢?如延时、卡顿、码率、帧率等。应用 YUV 自采集的形式,没有独立的时钟源能够参考,测延时必须要解决两个手机对时问题。咱们尝试通过 NTP 服务器或局域网对时两种计划。如果两个手机都在一个局域网下,通过局域网对时会十分精准,咱们在本地实测两个手机之间替换数据包往返延时 rtt<10ms,而且在同一个局域网内上行和上行链路速度一样,那么理论对时偏差应该<2ms。这合乎咱们对精度的要求。 然而有的云测供应商两个手机之间无奈通过局域网通信,比方 Headspin 就不能够。这时咱们思考用 NTP 形式对时。NTP 对时误差在几十毫秒,相比局域网大很多,如果超过 50ms,就会对咱们测延时影响很大,咱们心愿对时偏差<50ms。如何做到这一点?通过查阅 NTP 官网文档得悉,只有对时时 rtt 足够小,就能够实现。rtt 与对时偏差的关系如下图 1.2 所示(来源于 NTP 官网): ■图1.2 NTP 对时中 rtt 与对时偏差的关系 从下面能够看出,只有往返延时 rtt 管制 100ms 以内,对时偏差-10ms<offset<10ms,这样两个手机的对时偏差不会超过 20ms,合乎咱们的要求。理论环境下是否做到 rtt<100ms 呢?通过实测咱们发现齐全能够做到。在上海通过阿里云的 NT P服务器(ntp.aliyun.com)对时,rtt 在 30ms 左右,很少超过 60ms。 ...

June 16, 2022 · 1 min · jiezi

关于音视频:基于-ZEGO-SDK-实现-iOS-一对一音视频聊天应用

1 筹备环境在开始集成 ZEGO Express SDK 前,请确保开发环境满足以下要求: Xcode 12.0 或以上版本。iOS 9.0 或以上版本且反对音视频的 iOS 设施。iOS 设施曾经连贯到 Internet。 2 我的项目筹备2.1 创立我的项目 进入即构官网,在【ZEGO控制台】创立我的项目,并申请无效的 AppID,这一步很要害,appid为利用的惟一标识,如身份证号,是利用的身份证明,用于明确你的我的项目及组织身份。zego提供的服务也是基于APP ID; App ID的获取形式很简略,只需3~5分钟,在即构官网-我的我的项目-创立即可。创立的我的项目信息可用于SDK的集成和配置; 2.2 Token 鉴权 登录房间时必须 应用 Token 鉴权 ,可参考 Token 鉴权教程为了不便开发阶段的调试,开发者可间接在 ZEGO 控制台获取长期 Token(有效期为 24 小时) 来应用,详情请参考 控制台(新版) - 项目管理 中的 “我的项目信息”。 3 集成3.1 我的项目设置开始集成前,可参考如下步骤设置你的我的项目; 如已有我的项目,本步骤可疏忽。 如需新建我的项目,可依照以下步骤创立你的新我的项目: 启动 Xcode,在 “Welcome to Xcode” 窗口中单击 “Create a new Xcode project” 或抉择 “File > New > Project” 菜单。在呈现的表单中,抉择 iOS 平台,并在 “Application” 下抉择 “App”。填写表单并选取各个选项来配置我的项目,实现后,单击 “Next”。必须提供 “Product Name” 和 “Organization Identifier”,用于创立 App 的惟一标识 “Bundle Identifier”。抉择我的项目存储门路,单击 “Create” 创立我的项目。3.2 导入 SDK应用 CocoaPods 主动集成装置 CocoaPods关上终端,进入我的项目根目录,执行 pod init 命令创立 Podfile 文件。关上 Podfile 文件,在 “target” 下增加 po`d'ZegoExpressEngine/V`ideo',须要将 “MyProject” 替换为开发者的 Target 名称。 ...

June 15, 2022 · 3 min · jiezi

关于音视频:音视频中的DTSPTS

I、P、B 帧I 帧(Intra coded frames) : I 帧图像采纳帧内编码方式,即只利用了单帧图像内的空间相关性,而没有利用工夫相关性。I 帧应用帧内压缩,不应用静止弥补,因为 I 帧不依赖其它帧,所以是随机存取的入点,同时是解码的基准帧。I 帧次要用于接收机的初始化和信道的获取,以及节目的切换和插入,I 帧图像的压缩倍数绝对较低。I 帧图像是周期性呈现在图像序列中的,呈现频率可由编码器抉择。P 帧(Predicted frames) : P 帧和 B 帧图像采纳帧间编码方式,即同时利用了空间和工夫上的相关性。P 帧图像只采纳前向工夫预测,能够进步压缩效率和图像品质。P 帧图像中能够蕴含帧内编码的局部,即 P 帧中的每一个宏块能够是前向预测,也能够是帧内编码。B 帧(Bi-directional predicted frames) : B 帧图像采纳双向工夫预测,能够大大提高压缩倍数。值得注意的是,因为 B 帧图像采纳了将来帧作为参考,因而 MPEG-2 编码码流中图像帧的传输程序和显示程序是不同的。通过上述根本能够阐明如果有 B frame 存在的状况下一个 GOP 的最初一个 frame 肯定是 P。 这就带来一个问题:在视频流中,先到来的 B 帧无奈立刻解码,须要期待它依赖的前面的 I、P 帧先解码实现,这样一来播放工夫与解码工夫不统一了,程序打乱了,那这些帧该如何播放呢?这时就须要咱们来理解另外两个概念:DTS 和 PTS。 DTS、PTSDTS(Decoding Time Stamp):即解码工夫戳,这个工夫戳的意义在于通知播放器该在什么时候解码这一帧的数据。PTS(Presentation Time Stamp):即显示工夫戳,这个工夫戳用来通知播放器该在什么时候显示这一帧的数据。尽管 DTS、PTS 是用于领导播放端的行为,但它们是在编码的时候由编码器生成的。 当视频流中没有 B 帧时,通常 DTS 和 PTS 的程序是统一的。但如果有 B 帧时,就回到了咱们后面说的问题:解码程序和播放程序不统一了。 比方一个视频中,帧的显示程序是:I B B P,当初咱们须要在解码 B 帧时晓得 P 帧中信息,因而这几帧在视频流中的程序可能是:I P B B,这时候就体现出每帧都有 DTS 和 PTS 的作用了。DTS 通知咱们该按什么程序解码这几帧图像,PTS 通知咱们该按什么程序显示这几帧图像。程序大略如下: ...

June 10, 2022 · 1 min · jiezi

关于音视频:马志强语音识别技术研究进展和应用落地分享丨RTC-Dev-Meetup

本文内容源自「RTC Dev Meetup 丨语音解决在实时互动畛域的技术实际和利用】的演讲分享,分享讲师为寰语科技语音辨认钻研主管马志强。01 语音辨认技术现状1、语音成为万物互联时代人机交互要害入口,语音辨认市场空间稳步进步近几年来,语音辨认技术曾经逐渐走进了咱们的生存和工作中,特地是以 AI 语音助手为代表的语音交互性能也曾经失去落地,利用到各类生产级产品当中,比方,智能手机、智能汽车、智能家电以及智能家居等。用户只须要唤醒语音助手,提供相应的指令,就能够使其帮忙咱们实现打电话、查天气以及导航等常见的性能。依据相干咨询机构的调研报告所说,中国智能语音垂直行业的倒退规模,到 2025 年将要达到千亿的级别。从倒退空间能够看出,语音交互以及语音辨认逐步成为万物互联时代人机交互的要害入口。 2、“一带一路”建设须要语言互通,多语种辨认需要日益强烈语音辨认的市场空间在稳步的进步中,在国家建设“一带一路”的社会背景下,其所倡导的“五通”也须要语言互通来提供撑持。目前,“一带一路”曾经涵盖了 100 多个国家和地区,波及到几十种官方语言。在此背景下,国家对于多语种技术的能力需要日益强烈,而多语种语音辨认技术也是其中最重要、最根底的技术能力之一。咱们从 2020 年开始,就曾经布局并建设了多语种技术能力,比方明天将要介绍的多语种辨认、多语种翻译以及多语种合成等通用的技术能力。 3、实时音视频业务 AI 字幕无效晋升用户体验和沟通效率近两年来,受到疫情的影响,人们的工作和生存形式也产生了较大的变动,比方,当初比拟风行的在线教育、在线直播、线上会议等模式逐步被大家所承受,对应的 AI 字幕技术目前也曾经胜利利用赋能到了这些场景中。比方,AI 字幕能够通过语音辨认技术和语音翻译技术,将辨认后果和翻译后果以字幕的模式实时地展现给用户。这种模式能够帮忙用户更好地了解直播或者视频的内容,不便用户记录会议纪要。整体来看,AI 字幕技术提供了一种语音转写和语音翻译的系统性解决方案,极大地晋升了用户体验和沟通效率。 4、语音助手业务场景面临的技术挑战语音助手和 AI 字幕是两个典型的语音辨认利用场景,以后,深度学习技术正在一直地倒退和提高,在很多场景中语音辨认的成果其实曾经达到了可用的程度,然而在刚刚提到的两个典型场景中,目前依然面临着较大的技术挑战。比方,针对语音助手场景存在着高噪场景的辨认问题,特地是在远场环境中,语音非常容易受到混响和噪声的烦扰影响,导致大量的多人谈话以及人声重叠等难点问题,造成远场语音辨认成果的急剧下降。 第二个问题是海量实体辨认的问题。比方在语音助手场景中,可能须要应用其进行一些导航指令,这就要求 ASR 模型具备辨认全国至多千万量级实体的能力,能够设想,其中必定会存在大量同音不同字的实体,这样模型辨认也非常容易互相串扰。同时,这种量级规模的实体散布其实是十分不平衡的,特地是对于尾部的实体而言,它是十分稠密的,此时 ASR 模型建模将会十分艰难。 第三个问题是多语种语音辨认的问题,线上进行过 ASR 或者相干工作的同学可能比较清楚,对于一些适用范围较广的语种,比方汉语、英语等,训练数据相对来说比拟丰盛;然而对于小语种来说,比方泰米尔语或者是乌尔都语,训练数据是极其稀缺的,可能只有几百小时、几十小时的量级,在这种状况下,这些语种训练进去的 ASR 模型,其辨认成果个别十分差。 同样,AI 字幕业务场景也面临着一些技术挑战。第一个挑战就是简单的转写辨认场景。比方,在音视频字幕转写的场景中,音视频通常会蕴含各种噪声和背景音,这些都会影响语音转写的成果。另外。在线上直播或者娱乐直播场景中也会随同着一些特效音和音乐,这对语音转写都带来了微小的挑战。 针对于 AI 字幕场景的第二个挑战就是其自身的高实时性要求,在个别状况下用户要求字幕和正在观看的音视频尽可能地放弃同步,通常提早管制在 1~2 秒,此时的用户体验和用户观感个别都是十分好的。然而这其实晋升了对 ASR 模型,特地是 AI 转写模型的要求。 针对 AI 字幕的第三个挑战就是 AI 字幕的上屏成果体验,次要蕴含两个局部:首先,转写后果以字幕的模式传递给用户,通常要附加标点,比方句号或者逗号,用户依据标点能够进行分句,此时用户对于字幕的了解度绝对较好;但如果没有标点,则对用户来说字幕内容看起来是十分艰难的。其次是字幕的擦除率,以图 1 为例,此时有三个句子,别离是三次上屏的后果。比方,“明天”其实在三次上屏的过程中变动了两次,先由“今”变成了“惊”,而后由“惊”又变回了“今”,在这个过程中,字幕其实跳转了两次,跳转的过程是十分频繁的,对于用户来说,观感以及了解度可能不是特地敌对,这也是 AI 字幕技术须要解决的一个问题。 ■图 1 02 语音辨认技术研究进展第一局部次要介绍了语音辨认技术现状,接下来重点介绍语音辨认技术的研究进展。首先,介绍针对于语音辨认工作的三大关键技术,这三个关键技术也能够认为是刚刚提到的两个典型场景 —— 语音助手和 AI 字幕的根底和共性技术。 1、关键技术(1) 语音辨认数据资源的工程建设 进行过 ASR 工作或者深度学习相干工作的同学可能比拟理解,训练数据对模型来说是十分要害的。个别状况下,咱们从现网(生产环境)可能获取到海量的无监督数据,比方文本数据、语音数据或者视频数据。对于这些无监督数据,目前有两种次要的解决流程:第一种解决流程是借助于现有的 ASR 模型,间接给语音或视频打标签,生成一些弱监督的标注数据。第二种解决流程是借助于机器辅助的形式,首先进行预标注,预标注实现之后,一些语言学专家会基于预标注后果进行人工的纠正和测验,通过这种形式能够失去一个有监督的准确标注的平行数据。依靠于曾经建设好的数据资源标注平台,目前是可能反对和提供大规模 ASR 训练数据建设能力的。 ...

June 9, 2022 · 2 min · jiezi

关于音视频:直播预告-社交新纪元共探元宇宙社交新体验

元宇宙,正成为社交赛道的新战场。 走过热气腾腾的2021,2022年元宇宙热度仍旧不减,年初一款名为“啫喱”的元宇宙社交App上线,20多天迅速走红;映客直播也于近日上线“全景K歌”,为用户提供元宇宙K歌体验...... 现在,元宇宙已被构想为新一代互联网状态,那么,基于此状态的社交模式会如何倒退?现阶段的技术是否能够落地具备“沉迷感”的社交产品?搭建一个欠缺的元宇宙世界,又需具备哪些关键因素? 2022年6月15日(周三)晚7点,即构科技将举办《社交新纪元,共探元宇宙社交新体验》直播流动。 直播预报 | 社交新纪元,共探元宇宙社交新体验流动特地邀请到即构科技技术副总裁 Jim、映客直播产品负责人叶永发、元宇宙科技媒体MetaPost创始人王依、即构科技市场核心总监 Yilla,从多视角解读元宇宙社交的有限可能。 即构科技ZEGO,将在06月15日 19:00 直播预约

June 9, 2022 · 1 min · jiezi

关于音视频:迈入泛K歌娱乐时代即构推出社交K歌融合方案

无处不在的在线 K 歌。 在线 K 歌始终是泛娱乐畛域的热门赛道,艾媒征询最新数据表示,2021 年中国在线 K 歌用户规模约为 5.1 亿人,渗透率约为 49.7%,这意味着每两个网民中,就有一个体验过在线 K 歌。 尽管如此,在线 K 歌的市场规模还远未见顶,剖析目前的 K 歌产品,在线 K 歌正经验从传统 K 歌模式过渡到场景化的多元 K 歌模式。去年开始,巨头们频频公布 K 歌产品,并与社交、直播、短视频等场景进行联合,向用户提供更多元娱乐服务。 比方在语聊场景随时切换到 K 歌状态,防止用户尬聊的同时加强社交趣味性;在直播场景中退出 K 歌玩法,主播之间进行 K 歌直播、PK 唱等趣味玩法;在短视频场景下疾速与好友、陌生人一起欢唱 K 歌...... 能够预感,不久后在线 K 歌将以各种交融状态呈现咱们的线上娱乐生存中,在线 K 歌正迈入泛 K 歌娱乐时代。 即构推出 “社交 + K 歌” 交融计划在线 K 歌尽管备受年轻人青睐,但对于企业和开发者来说,向用户提供功能完善、互动体验良好的线上 K 歌体验仍存在不少挑战,其中就有几个外围难题要解决: 比方线上 K 歌场景下对于音质保真、多人实时互动、多端伴奏同步等音视频技术的高要求,围绕 K 歌场景的播放组件、麦位治理、美声变声等场景化的能力搭建,以及音乐版权的获取等成为困扰泛娱乐企业的难题。 这些难题成为妨碍着社交、直播平台向用户提供线上 K 歌玩法的要害痛点,因而,为解决以上痛点,即构凭借多年在实时音视频技术的深耕,向企业和开发者提供了「社交 + K 歌」交融计划,助力泛娱乐企业更便捷的上线 K 歌玩法。 ...

June 7, 2022 · 1 min · jiezi

关于音视频:WebRTC服务端工程实践和优化探索

本文来自即构外部音视频框架设计的开发同学在 2020 年对于《WebRTC 服务端工程实际和优化摸索》的技术分享; 心愿本次分享能给大家在 WebRTC 服务端实现或者我的项目选型时带来一些思考。 接下来进入主题,明天的分享次要分为三个局部: WebRTC 服务器架构介绍及设计思路; 开发 WebRTC 服务器所需的技术和面临的难点; QoS 服务质量的实现及优化。 WebRTC 服务器架构介绍和设计思路咱们首先要想一下,为什么须要 WebRTC 服务器?WebRTC 服务器它的作用是什么? 在大家的认知外面,WebRTC 是谷歌开源的一个协定,是当初大家比拟相熟的一个点对点通信计划。点对点通信计划是指单方浏览器之间是间接互联的,如果在多方会议或多方通话的状况下,每个通话者之间都是直连的,没有通过第三方。 上面来看一下它的优劣势: 劣势 第一,简略。这个模型非常简单,点对点,没有通过两头的一些服务器。 第二,提早小。既然是直连的,咱们可能天经地义地认为两头除了这些路由节点之外,就没有其余中央会减少延时了。然而我前面加了一个问号,也就是说未必是这样的。 相熟咱们国内运营商网络状况的都晓得,联通,挪动,电信之间的通信可能是不对称的,如果我是联通,你是挪动,咱们直连的话,提早未必是小的,这个就是我加了一个问号的起因。 第三,端对端带宽适应。这个指的是 WebRTC 能够依据会话者之间的网络状况、带宽状况进行适应。比方当你的接管带宽不够时,我能够升高上行编码码率来适应你,从而达到一个更好的通话成果。 劣势 第一,连通性能差。点对点之间,因为所有的网络不是在一个防火墙后,咱们可能须要打洞,甚至有一些防火墙十分严格的话,咱们连打洞都没方法实现,这会极大的影响服务的连通性。 咱们首先要发现对方,而后要打洞,如果打洞不胜利,还须要通过直达服务器来进行媒体的传输,这个过程可能会快则几秒钟,慢则几分钟。也就是说咱们从会话开始到单方建设通信,整个过程是非常复杂、消耗十分长的工夫。 第二,带宽占用高。所有的与会者是直连的,带来的一个问题是,如果我要看到其余所有人的视频,那么每个人都须要推一路流给我。同样的,其他人也是须要接管除他以外的所有流,这时候我的上行带宽占用是十分高的。在视频会议场景下,少则十几多则二十几个人,当初几百个人的会议也是很常见的。依照咱们现行的带宽,是达不到的。 第三,编解码压力大。既然每个人的流要独自发送给其余与会者,那么也要独自编解码,要发送 N 路就要编 N 路,并且编解码压力是十分大的,不仅咱们的挪动端没方法接受,甚至咱们的 PC 端也是没方法接受的,这是它很大的一个劣势。 在咱们理论的利用场景上,如果没有服务器,那么咱们也没方法进行录制,无奈实现视频回播、鉴黄以及 CDN 散发等性能。综合思考,咱们就会发现点对点计划可能并没有很好的满足咱们以后理论的利用需要。 所以这里就要引入一个服务器计划的架构,依据方才提到的点对点三大劣势,咱们来重点看看新计划是如何解决的。 连通性 通常咱们的服务器都会架构在公网上,所以各个会话者是间接跟咱们在公网上的服务器建设连贯,省掉了打洞,间接一步到位。 网络带宽占用高 假如以后咱们这个会议有四方会话,那我的与会者有三路,我只需发一路到服务器上,通过服务器把我这一路转发给其余三路的与会者就能够了,不须要再去多发两路,这样我的上行带宽就从本来的三路变成了一路了;而接收端,引入 MCU 的概念,为了节俭上行带宽,咱们能够将这三路混流,再转发给我,那么我的上行也只有一路。 编解码压力小 通过优化架构带宽,编解码从原来的 N 路变成一路,也同步缓解了编解码压力。 既然服务器能更好的满足咱们的理论利用,那么 WebRTC 服务器应该怎么进行架构设计呢?开发 WebRTC 服务器须要哪些技术以及可能会面临哪些难点?以及 WebRTC 服务端 QoS(服务质量)的实现及优化有哪些重点要留神的? 篇幅关系,对于《WebRTC 服务端工程实际和优化摸索》的残缺内容,大家能够通过咱们的流动材料包获取,材料包中还有视频回放、演讲 PPT 等材料。 ...

June 6, 2022 · 1 min · jiezi

关于音视频:如何基于-ZEGO-SDK-实现-Android-一对一音视频聊天应用

疫情期间,很多线下流动转为线上举办,实时音视频的需要剧增,在视频会议,在线教育,电商购物等泛滥场景成了“生存新常态”。 本文将教你如何通过即构ZEGO sdk在Android端搭建视频通话能力。即构SDK提供100+种行业解决方案,每月赠送10000分钟收费时长,提供收费接入体验。 接下来咱们看看残缺的实现流程。 1 筹备环境在开始集成 ZEGO Express SDK 前,请确保开发环境满足以下要求:Android Studio 2020.3.1 或以上版本。Android SDK 25、Android SDK Build-Tools 25.0.2、Android SDK Platform-Tools 25.x.x 或以上版本。Android 4.4 或以上版本,且反对音视频的 Android 设施。Android 设施曾经连贯到 Internet。 2 我的项目筹备2.1 创立我的项目进入即构官网注册帐号后登录,在【ZEGO控制台】创立我的项目,找到左侧导航栏单击“概览”,按如下场景操作: 首次创立:单击“我的我的项目”栏目中的“创立第一个我的项目,收费试用”。 非首次创立:在“我的我的项目”栏目中,单击右上角的“创立我的项目”。 整个我的项目创立预计只需3~5分钟,创立过程同时也获取了App ID,这一步很要害,可用于SDK的集成和配置; 实现我的项目创立后,能够在该我的项目下“查看”的相干信息,包含根本信息、配置信息和辅助工具。 2.2 Token 鉴权登录房间时必须 应用 Token 鉴权 ,可参考 Token 鉴权教程。 为了不便开发阶段的调试,开发者可间接在 ZEGO 控制台获取长期 Token(有效期为 24 小时) 来应用,详情请参考 控制台(新版) - 项目管理中的 “我的项目信息”。 音视频长期 Token:开发者在登录房间时必须带上 Token 参数,来验证用户的合法性,为不便您体验和测试,可在控制台间接获取长期 Token 来应用。 单击“点击生成”。在弹出的“生成长期 Token”窗口中输出 “RoomId” 和 “UserId” 后,单击“生成”即可疾速生成长期 Token,不便开发阶段进行调试。 ...

June 2, 2022 · 3 min · jiezi

关于音视频:在映客的虚拟KTV里唱了一首爱你

如果你忽然打了个喷嚏 那肯定就是我在想你 如果中午被手机吵醒 啊~那是你的虚构 KTV 在响起 2022 年 5 月 18 日,映客 App 上线了业内首个元宇宙 K 歌玩法「全景 K 歌」,给用户带来前所未有的社交体验: 1、生成虚拟化身,穿梭进虚拟世界 玩家能够自在发明虚构形象,利用 AI 实时建模、捏脸生成专属形象,进入到一个酷炫的虚构 K 歌世界中一展歌喉。 2、提供丰盛、实在的互动社交体验 玩家能够在虚拟世界里随便走动,跟伙伴进行打招呼、飞吻等肢体互动,同时还能够对台上的演唱者进行肢体点赞、比心、欢呼等,营造氛围十足的演唱气氛。 3、多重视角切换,拟真化 K 歌体验 领有第一人称、第三人称、集体特写三种不同维度的视角,点歌后 AI 导航主动上台演唱,在演唱歌曲的同时还能够切换演唱视角,100% 面部表情随动,肆意嗨唱。 ↓视频演示片段↓ https://www.youku.com/video/X... 在产品畛域,有一个时刻叫作 Aha moment(顿悟时刻),即用户发现产品价值从而被吸引的霎时。 咱们无妨带入到「全景 K 歌」里,体验可能存在的霎时: 霎时 1:捏了个有共性的虚拟化身,进入到虚构 K 歌房走动时,忽然瞥见一个雷同打扮元素的搭档,霎时产生偶遇“同类”的惊喜感; 霎时 2:鼓起勇气下台唱了首王心凌的“爱你”,唱到一半台下围观的人越来越多,大家纷纷挥手、比心的那一刻,心头涌现了满满的成就感; 霎时 3:不太习惯被动社交,在虚构 K 歌房坐下后,看到有人远远地朝我走来,伸出手被动向我打了声招呼,原来社恐也能够轻易被化解...... 当感官维度增多,产生共鸣的霎时也会随之变多,这也是「全景 K 歌」一上线就吸引用户踊跃体验的外围因素之一。 01 落地元宇宙 K 歌房,背地有哪些挑战?上述 Aha moment 的诞生须要建设在良好的体验之上,能够试想,如果在虚构社交过程中呈现卡顿、穿模等问题,势必会大大影响用户体验。那么就目前行业现状而言,落地一个具备优质体验的元宇宙 K 歌房,会面临哪些难题呢? 1、相干开发人员稀缺:搭建元宇宙场景须要 Unity、UE(空幻引擎)开发教训,相干畛域的开发者少之又少,处于十分稀缺的状态,开发难度大、人才储备少成为广泛难题。 2、虚构场景定制难:一方面制作虚构场景须要极高的创意,须要依据业务场景对虚拟空间开展丰盛设想;另一方面高质量的虚构场景也存在制作老本大、美术实现艰难等问题; ...

June 2, 2022 · 1 min · jiezi

关于音视频:如何基于-ZEGO-SDK-实现-Flutter-一对一音视频聊天应用

之前的文章公布了ZEGO SDK实现Android端音视频通话利用的开发教程,不少开发者反馈很实用,能不能也出一版Flutter的教程。 有求必应,这不小编来了~ 咱们封装了ZEGO Flutter SDK,本文将疏导你如何应用ZEGO Flutter SDK 疾速轻松的构建一个跨平台音视频聊天利用,缩小开发成本。 1 筹备环境在开始集成 ZEGO Express SDK 前,请确保开发环境满足以下要求: Flutter 1.12 或以上版本。iOS 7.0 或以上版本,且反对音视频的 iOS 设施或模拟器(举荐应用真机)。Android4.4 或以上版本,且反对音视频的 Android 设施或模拟器(举荐应用真机)。如果为真机,请开启“容许调试”选项。iOS / Android 设施曾经连贯到 Internet。请配置开发环境如下: Android Studio:“Preferences > Plugins”,搜寻 “Flutter”插件进行下载,并在插件中配置曾经下载好的 Flutter 的 SDK 门路。VS Code: 在利用商店中搜寻 “Flutter”扩大并下载。以上任一开发环境配置好 Flutter 环境后,在终端执行 flutter doctor,依据提醒内容补全相干未下载的依赖项。 2 我的项目筹备2.1 创立我的项目进入 即构官网,在创立我的项目,【ZEGO控制台】.并申请无效的 AppID,这一步很要害,appid为利用的惟一标识,如身份证号,是利用的身份证明,用于明确你的我的项目及组织身份。zego提供的服务也是基于APP ID; App ID的获取形式很简略,只需3~5分钟,在即构官网-我的我的项目-创立即可。创立的我的项目信息可用于SDK的集成和配置; 2.2 Token 鉴权登录房间时必须 应用Token 鉴权 ,可参考 Token 鉴权 教程 。为了不便开发阶段的调试,开发者可间接在 ZEGO 控制台获取长期 Token(有效期为 24 小时) 来应用,详情请参考 控制台(新版) - 项目管理 中的 “我的项目信息”。. ...

June 2, 2022 · 3 min · jiezi

关于音视频:SRS带宽不足下内存泄漏

最近解决了SRS中的一个bug,特此记录一下。SRS(4.0)服务器上,应用RTMP推流,在网页端用webrtc拉流。设置低带宽场景下存在内存大幅度继续一直上涨景象,应该是有内存透露。察看发现2个景象——1.存上涨幅度与推流端码率成正比。2.敞开nack后内存上涨幅度显著减小。管制台上打印SRS日志发现错误日志: [Warn][24154][x6w4gl27][62] handle udp pkt, count=1/1, err: code=1011 : size=104, data=[00 01 00 54 21 12 a4 42] : stun binding request failed : stun binding response send failed : sendto thread [24154][x6w4gl27]: cycle() [src/app/srs_app_listener.cpp:630][errno=62]thread [24154][982648t3]: on_stun() [src/app/srs_app_rtc_conn.cpp:2113][errno=62]thread [24154][982648t3]: on_binding_request() [src/app/srs_app_rtc_conn.cpp:2773][errno=62]thread [24154][982648t3]: sendto() [src/app/srs_app_listener.cpp:347][errno=62]联合日志中代码调用门路,剖析可能是SrsUdpMuxSocket::sendto中srs_error_new中new的对象没有开释,批改函数代码将谬误间接返回: if (nb_write <= 0) { if (nb_write < 0 && errno == ETIME) { return err; //return srs_error_new(ERROR_SOCKET_TIMEOUT, "sendto timeout %d ms", srsu2msi(timeout)); } return srs_error_new(ERROR_SOCKET_WRITE, "sendto");}应用gperf.gmp工具剖析代码批改前和批改后的函数内存应用状况: ...

May 29, 2022 · 1 min · jiezi

关于音视频:沉浸式体验网易云信在线-KTV

在线 KTV 现状近年来,唱鸭、鲸鸣、回森、小森唱等多款产品竞相呈现,激励金、高投入等景象也很常见,各平台都在抢占用户市场方面牟足了劲儿,一份份财报、数据图和全线飚红的 K 线,也给投资人们的投入带来了可观的回报。依据第三方数据钻研机构比达征询在 2021 年 4 月底公布的相干数据显示,3 月份全民 K 歌的沉闷用户数在行业中大幅当先,月活用户数达到 13543.8 万人,唱吧位列第二,月活达到 3037.3 万人,此外,酷我 K 歌、天籁 K 歌和唱鸭分列第 3-5 位,月活用户均超 300 万人。 在线 K 歌的玩法层出不穷,然而在线独唱这一场景却鲜有平台去尝试。这次要是因为目前各厂商的技术能力在独唱这一场景下,还很难给用户带来极致的体验。 声临其境的难点和独唱困局为了摸索在线独唱这一场景,咱们用最简略的 RTC 服务,搭建了一套未定制化的独唱 Demo 来测试成果。这套零碎的简略阐明如下图。 演唱者 A 自主播放伴奏,RTC 引擎把干声和伴奏混合后发到演唱者 B 和观众。此时演唱者 B 听到 A 的歌声和伴奏后,合着节奏一起唱。但这个流程有几个显著的问题亟待解决: 演唱者之间的通信提早过大,A 听到 B 的声音比本人的音乐要慢很多观众听到 A 的声音在伴奏节奏上,但 B 的声音却比伴奏慢歌词无奈同步传递演唱者和非演唱者都没有置身 KTV 包厢的沉迷感参加独唱的用户的声音会被相互打断抽丝剥茧的找对策为了欠缺这个场景,咱们对下面测试中遇到的问题一一进行剖析,并在咱们的实时独唱计划中予以解决,具体内容见下表: 网易云信的实时独唱计划整体构造 升高提早到极限云信的 WE-CAN 传输网络优化了传输提早。对于间隔较近的用户,We-Can 的 2.0 调度零碎可能进行智能调度,保障用户能达到同一个机器、机房或尽量近的机房,这样流就齐全不必走公网,在机房内齐全解决,达到极致的低提早成果。 对于不同的运营商,通过智能路由的抉择,可能保障网络稳定性达到 99.99%,提早<75ms。 在端上对音频的整个 pipeline 做了大量的优化,使均匀的采集播放、信号处理提早升高至52ms。在特定网络下,这些工作能够保障在以后网络条件下失去最低的通信提早,而因为通信提早的客观存在。咱们须要用其余的计划来缩小提早对于独唱体验的影响。通过准确同步伴奏来缩小提早对于体验的影响为了解决演唱者单方听到的声音提早过大的问题,咱们实现了基于服务器精准同步的 NTP 修改值,给整个业务体系提供一个精准的工夫戳。当独唱发动时,参加独唱的两端精准开始播放伴奏(同步精度达 10ms 级),单方各自跟着伴奏唱歌,不再须要等对方的伴奏,使整体独唱提早对于用户体验的影响升高。 ...

May 27, 2022 · 1 min · jiezi

关于音视频:网易云信-QUIC-应用优化实践

导读:网易云信作为音视频服务提供商的领导者,始终致力于提供顶级的音视频通话服务体验,为用户在各种顽劣环境下提供牢靠的音视频服务。如何在极其弱网条件下依然能给用户提供牢靠的音视频服务,是网易云信关注的重中之重。本文将论述网易云信对于 QUIC 协定的利用优化实际。 引言QUIC 协定从传输层面相较 TCP 的几点劣势 0-RTT 建连QUIC 协定基于 UDP,自身无需握手,并且其应用 Diffie-Hellman 或者 ECC 算法,只在 1-RTT 就实现对等秘钥的协商。QUIC 协定的 0-RTT 建连应用 TLS1.3,通过 early_data 实现加密数据透传。 多路复用/无对头阻塞相比于 HTTP/2 的多路复用,QUIC 不会受到队头阻塞的影响,各个流更独立,多路复用的成果也更好。 连贯迁徙与 TCP 用四元组标识一个惟一连贯不同,QUIC 应用一个 64 位的 ConnectionID 来标识连贯,基于这个特点,QUIC 的应用连贯迁徙机制,在四元组发生变化时(比方客户端从 WIFI 切换到蜂窝挪动网络),尝试“保留”先前的连贯,从而维持数据传输不中断。 可定制的拥塞管制QUIC 协定没有定义拥塞控制算法的应用,这部分实现在应用层,不便开发者自行优化迭代。QUIC 协定从协定层面相较 TCP 的几点差异Separate Packet Number SpacesQUIC 协定定义了 4 种不同的加密级别,各种加密级别应用不同包序列号空间。 Monotonically Increasing Packet Numbers雷同包序列号空间中的包序列号枯燥递增,防止了重传歧义。QUIC 协定的包序列号空间只标识传输程序,数据包内容的程序则用 STREAM 帧当中的偏移(offset)来标识。 Clearer Loss Epoch当一个 QUIC 包被申明为失落,QUIC 开启一段失落检测的周期,在此之后发送的任何一个 QUIC 包被确认则刷新检测周期的工夫。与 TCP 不同,TCP 会始终期待序列号空间中的空白被填满只管有可能在传输过程中雷同数据包产生了屡次失落。这样做的意义在于:QUIC 能够更准确地在每个往返工夫(RTT)内去更新拥塞窗口的大小。 ...

April 28, 2022 · 2 min · jiezi

关于音视频:音视频RTCP

RTCP因为我对全副协定内容没有过多波及,这里只记录跟工夫戳同步相干的,后续有工夫精力再补充首先还是从TCP形式接管的RTSP包剖析: 由图能够剖析出,当channel identifier是0x01时,阐明是RTCP数据包。 RTCP 数据包格局该标准定义了几种 RTCP 数据包类型来承载多种管制信息: SR:发送者报告,用于发送和接管的统计信息 作为沉闷发送者的参与者RR: 接收者报告,用于接管参与者的统计信息 SDES: 源形容项,包含CNAME BYE: 示意参加完结 APP: 特定于应用程序的性能 这个是通用的RTCP包格局,理解即可 版本号(V):对于以后版本的RTP协定,版本号为2(截止到本书编纂为止),目前还 没有推出新版本的打算,并且之前的版本并没有宽泛的被应用. 填充(P):填充位示意,所要填充的数据曾经超出了目前所能包容的位数。如果此位 被设置为1,那么意味着包尾曾经被一个或多个八位字节填充,最初一位八位所填充的 内容示意此包的总数大小。 条目计数(IC):某些包类型中蕴含了一个list的条目,可能作为固定的、用于特定类 型的信息的补充。这些条目字段须要标示出包中蕴含的条目标总数(这个字段在不同的 包中有不同的命名办法,这取决于具体如何应用此字段)。每个RTCP包最多蕴含31个 条目,同时也受到MTU(maximum transmission unit)的限度。如果须要传输超过31 个条目标场景,那么应用程序必须生成多个RTCP包。Item Count字段为0的时候示意此包中的条目为空(然而并不意味着包中内容为空)。如果不须要Item count字段那么此字段能够用于其余的目标。 包类型(PT):此字段标识了传输的包中所携带的信息的类型。在RTP的标准中定义了 五种规范数据包类型,未来可能还会定义其余的类型(例如,报告额定统计信息或者传 递其余特定源的信息)。 长度:此字段标识包头之后的内容总长度。因为所有的RTCP的数据包的长度必须为32 位的整数倍,所以这个字段放的是32位字的个数,因为如果依照八位字节计算会呈现 此字段和总长度不统一的状况。0是一个无效长度,示意这个包只蕴含4个8位字节的包 头(包头字段IC在这种状况下也是0)。 发送端(流媒体服务器)以肯定的频率发送RTCP SR(Sender Report)这个包给接收端(例如浏览器),所以我次要介绍这个类型的RTCP包。 SR包内蕴含一个RTP工夫戳和对应的NTP工夫戳,能够用<ntp,rtp>对做音视频同步。 音视频同步(TODO)参考文章应用rtcp实现音视频同步

April 21, 2022 · 1 min · jiezi

关于音视频:打破虚拟边界的视频交互新方式AR-隔空书写的应用理念和探索实践

AR隔空书写演示 随着技术的倒退和超视频化的时代驱动,交互的模式日渐丰盛。从屏幕点触,到语音交互,人脸、指纹、声纹,再到近年风行的 AR 和 VR……人类早在语言呈现之前便习惯应用肢体和手势这种近乎本能的沟通形式来进行交换,作为最根底和天然的交互方式,手势交互的利用场景越来越多。 以后,市面上大部分视频利用的手势交互逻辑,次要是通过某个具体手势触发预置的单个特效,这种较为简单的交互不仅不能施展出人类灵便手掌的后劲,在终端上的辨认成果也有较大的晋升空间。 尤其是受疫情影响以及在音视频会议和协同办公需要微小的明天,应用实体白板画图写字进行近程沟通和合作十分艰难。 尽管市面上有相似虚构白板的产品,然而这类产品次要还是依赖于鼠标等设施来进行输出,咱们能够利用手势的人造劣势,代替鼠标、键盘、触屏等交互方式,实现 AR 隔空书写,在办公、生存、娱乐场景施展其微小价值。 AR 隔空书写,突破虚构白板壁垒如何通过 AR 隔空书写来实现一个欠缺的虚构白板? 最间接的想法是把写字的内容渲染在屏幕上,例如最近一个较火的开源我的项目“Yoha”便是通过这个想法实现了成果,但这也面临着因为摄像头视角无限导致字无奈写得很小和书写内容无限等问题。 另一种计划,能够通过先书写一部分内容,将其放大后,再写另一部分内容。这种解决方案看似可行,却面临着排版艰难以及前后内容连续性差等问题。 阿里云视频云美颜特效 SDK(以下简称“美效 SDK”)的 AR 隔空书写能力,通过把 AR 隔空书写的窗口悬浮在虚构白板上,使得 AR 隔空书写窗口能够自在的放大、放大、平移,这样用户就能够自在管制写字的大小和地位,对书写内容的排版也会更具操控性。 对于摄像头捕获的每一帧图像的边缘进行裁剪,而后再悬浮在白板上,用户能够放大或放大 ROI 窗口,来实现对书写内容的大小和精密度的管制。 用户还能够通过挪动 AR 隔空书写窗口来管制写字的地位。 当使用者的手势(虚构笔尖)移到 AR 窗口边缘左近的时候,AR 窗口将会主动朝对应的方向挪动(参考 DOTA、LOL、魔兽争霸等游戏挪动窗口)。 参考动图,这种身材不须要挪动的操作形式不仅合乎人的书写应用习惯,也使得挪动窗口的便利性和应用舒适性大大提高。 阿里云视频云将该 AR 隔空书写能力作为“暗藏黑科技”集成在钉钉的音视频会议硬件产品中,该能力能够帮忙参会者在近程会议中通过隔空书写或是画图来助力沟通。在近期的钉钉发布会上,阿里云视频云也对该能力进行了交互展现。 https://www.youku.com/video/X... 钉钉 2022 线上发布会,AR 隔空书写现场演示 丰盛虚构特效,让视频交互更趣意AR 隔空书写还能够和粒子特效联合,展现出雪花、火焰、水滴、花瓣、烟雾等各类丰盛炫酷的特效,为用户进行共性创作提供施展空间,让视频交互更美感、更乏味。 AR 隔空书写能力近日上线于阿里云视频云的美效 SDK,这是基于自研的面部关键点位技术,反对画面丑化、人像美颜、抠像制作、贴纸美妆、动作辨认、智趣交互、抠像解决等多种个性化的定制美效交互服务。 美效 SDK 具备多维度劣势: 成果好:性能全面、一键组合与逐项 DIY包体小:根底美颜性能仅需 0.78M性能优:Android 最低反对 4.3 零碎,iOS 零碎最低反对到 iOS-8 零碎,Mac 反对最新 M1接入疾速可定制:独立组装拆解、按需参数级调整定制基于一系列的利用劣势,美效 SDK 实用于直播、拍摄、会议、电商等多种业务场景,完满均衡了成果丑化与性能开销的问题,助力视频交互更丰盛智趣。 ...

April 19, 2022 · 1 min · jiezi

关于音视频:极致体验揭秘抖音背后的音视频技术

近两年,音视频技术展示了迅猛的发展势头,在短视频、直播、在线会议、教育等行业都有亮眼的利用案例,曾经逐步成为新时代互联网的基础设施之一。音视频技术对清晰、晦涩、实时有着外围要求,但在理论的落地过程中,行业中仍存在诸多痛点问题亟待解决。 抖音是国内音视频技术利用的典型代表,无论是春节红包我的项目遇到的超大规模并发,还是海量用户上传短视频作品带来的带宽压力,亦或是用户智能设施、网络环境的参差不齐,都给技术计划带来了严厉的挑战。在这样的挑战下,字节跳动积攒了规模化的音视频技术利用实际,并封装成了丰盛的产品能力向业界输入。 如何让用户即使在弱网环境、低端设施上,也能畅享音视频的魅力?如何实现全行业对立的低延时互联互通信令协定,简化低延时技术的开发和接入门槛?如何利用视频算法晋升不同环境下 RTC 的互动体验?如何让企业获取抖音同款音视频技术解决方案,开箱即用升高对接老本?本期字节跳动技术沙龙以 《极致体验,揭秘抖音背地的音视频技术》 为主题,将为音视频技术从业者、技术团队与企业带来音视频技术的一站式解决方案,帮忙大家轻松 get 抖音背地的同款技术。 本期字节跳动技术沙龙收费报名通道现已开启,戳文末浏览原文或扫描长图海报二维码即可报名! 演讲主题视频体验如何激发增长内容简介面对海量用户、简单的网络环境、繁多的终端机型和丰盛的业务场景,字节在过来几年中,积攒了大量对服务质量(QoS)与用户体验(QoE)、商业指标之间关联的数据,这次演讲次要介绍视频技术在抖音等字节系利用的工作实际,向听众分享不同技术指标如何影响用户体验,如何影响业务指标,促成增长,并介绍在字节利用视频技术过程中的一些见解与理念。 观众收益视频技术如何给业务带来收益视频的启播速度、卡顿率/卡登时长、画质、延时等对业务的影响字节视频云在抖音上的利用实际,如何赋能用户激发增长演讲嘉宾晓成 字节跳动抖音资深技术专家 20 年以上软件开发教训,15 年以上视频畛域从业教训,曾工作于摩托罗拉、微软、RealNetworks、Hulu 等公司,19 年退出字节跳动,负责抖音等多种字节利用的体验优化工作,撰有《在线视频技术精要》(19 年,人民邮电出版社),领有多项中美专利。 打造极致播放体验,点播端到端解决方案内容简介随着短视频行业的衰亡,业务对播放体验提出更高的要求,例如抖音的小视频场景,首帧的加载工夫是 100ms 还是 500ms 对业务 QoE 指标影响显著。本期分享介绍视频云对点播播放体验优化端到端技术解决方案,包含指标建设、首帧优化、画质优化、策略优化等助力业务依据本身应用场景,疾速构建极致播放体验。 观众收益通过视频云的端到端解决方案,能够为本身业务播放体验优化提供思路理解借助视频云点播能力疾速构建短视频业务演讲嘉宾王志勇 字节跳动视频架构技术专家 10 年以上的软件开发教训,晚期在搜狐视频负责客户端开发,前几年在守业公司做视频常识付费产品研发,长期关注音视频相干畛域倒退,2021 年退出字节跳动,目前负责视频云点播 Tob 方向推动。 RTM 低延时推动抖音视频直播进入新时代内容简介超低延时(RTM)直播技术是近期逐渐衰亡的一种全新加强体验的直播解决方案,它的特点是延时相比传统直播技术,端到端延时更小达到 1 秒级别,卡顿无显著负向;在电商购物、竞价秒拍、体育赛事讲解等互动的强实时交互性场景下面,满足十分多的全新玩法和体验;同时在业务侧平滑降级与接入该项技术所需承担的技术老本较低,危险可控,是将来下一代更有竞争力和创新力的直播技术标准。 观众收益超低延时技术能够晋升业务营收收益, 在用户看播浸透、留存、新增等维度影响收益RTM 低延时直播是下一代全新的技术标准,十分有心愿取代传RTMP/FLV/HLS 模式RTM 低延时直播在延时大幅度降低的同时,视频的启播速度、卡顿率/卡登时长、画质和传统 FLV 相比无不相伯仲,但延时显著升高至 1 秒(相比传统直播技术 4 秒以上延时)观众能够全方位地理解超低延时客户端技术中管制延时的具体技术手段演讲嘉宾李晨光 字节跳动视频架构技术专家 12 年以上软件开发教训,始终专一于音视频畛域的技术研发工作,曾就任于联发科技、PPS 影音、爱奇艺等公司,从事视频编解码优化、图像前解决、直播全链路端到端利用研发工作。21 年退出字节跳动,负责字节跳动-抖音 RTM(real-time-media)超低延时直播的技术研发,目前致力于 RTM 低延时的行业标准化推动工作。 RTC 场景下视频暗场景加强技术内容简介RTC 的利用场景具备很强的随机性,用户进入会话时,所处地位可能并没有良好的光照条件,顽劣的光照条件会重大影响视频的体验,进而影响用户之间的沟通和交换。因而,字节 RTC 团队设计了一套视频暗场景加强算法,显著改善了暗光照环境下图像成果,晋升实时视频流的品质,进而晋升 RTC 的互动体验。 观众收益理解 RTC 场景下基于深度学习的视频算法研发和落地状况理解暗场景加强算法从研发到上线的最佳实际演讲嘉宾赵突 字节跳动 RTC 团队图像算法工程师 ...

April 19, 2022 · 1 min · jiezi

关于音视频:一起来试玩在线可编程交互的实时音视频-Web-SDK-入门教程

在与开发者长期的沟通中,咱们发现,只管声网为开发者提供了丰盛翔实的 SDK 技术文档,但对于首次接触声网 SDK 的开发者来说,在第一眼看到文档的时候,可能会被大量新概念和简单的 API 接口吞没。SDK 技术文档存在本身的自洽性要求,内容须要具体、全面、便于查阅。因而,咱们思考再出品一套从开发者应用习惯登程,易于了解和学习的入门教程,拉平开发者的学习曲线。 拉平学习曲线的秘诀其实就在于把平缓的“竹筒倒豆子”类型的信息传递形式,变更为渐进式的学习路线。 可编程交互的入门教程咱们以声网实时音视频 Web SDK 为出发点,实现了一款渐进式、可实时交互、可编程的开发者教程。 这款教程具备以下特点: ● 渐进学习:教程依据实时音视频服务的搭建流程,将学习路线分为音视频采集、渲染、传输等局部。开发者能够通过音视频信号理论的流动方向,逐渐学习声网实时音视频 SDK 的各种性能,最终胜利搭建音视频通话利用。 ● 容易上手:教程内嵌 Codepen 示例代码。开发者无需搭建任何环境,只须要一台电脑,一个浏览器,以及电脑自带的摄像头、麦克风即可完满运行示例并实时看到运行成果。 ● 耗时短:全副教程内容仅需约 2 个小时即可全副跑通。 ● 开源:教程中的代码及教程自身都是齐全开源的,教程基于 Gatsby 搭建。咱们也欢送开发者提出贵重的意见。 大家能够在 Web 浏览器中拜访如下地址进行体验:https://agorawebsdktutorialmain.gatsbyjs.io/ 咱们接下来会做什么?开发者教程以面向开发者(to D)为核心,指标是继续升高开发者的了解门槛、晋升集成速度、改善开发体验。这份教程对咱们来说是一个新的尝试。咱们心愿尽可能多地收集来自开发者的反馈和需要,进一步丰盛和扩大咱们的教程内容和覆盖范围。所以,如果大家在尝试之后,在性能、场景、体验上,有任何倡议、想法,欢送扫码入群,与咱们交换:

April 18, 2022 · 1 min · jiezi

关于音视频:音视频RTSP

RTSPrtsp,英文全称 Real Time Streaming Protocol,RFC2326,实时流传输协定,是TCP/IP协定体系中的一个应用层协定!协定次要规定定了一对多应用程序如何无效地通过IP网络传送多媒体数据。RTSP体系结位于RTP和RTCP之上(RTCP用于控制传输,RTP用于数据传输),应用TCP或UDP实现数据传输! RTSP交互过程上面是一个简略的RTSP交互过程: 接下来顺次介绍应用到的申请办法与响应示例。(TODO: GET PARAMETER, PAUSE) OPTIONSC–>SOPTIONS rtsp://127.0.0.1:1051/live RTSP/1.0\r\nCSeq: 2\r\n\r\n客户端向服务器申请可用办法S–>CRTSP/1.0 200 OK\r\nCSeq: 2\r\nPublic: OPTIONS, DESCRIBE, SETUP, TEARDOWN, PLAY\r\n\r\n服务端回复客户端,以后可用办法OPTIONS, DESCRIBE, SETUP, TEARDOWN, PLAYDESCRIBEC–>SDESCRIBE rtsp://127.0.0.1:1051/live RTSP/1.0\r\nCSeq: 3\r\nAccept: application/sdp\r\n\r\n客户端向服务器申请媒体形容文件,格局为sdpS–>CRTSP/1.0 200 OK\r\nCSeq: 3\r\nContent-length: 146\r\nContent-type: application/sdp\r\n\r\nv=0\r\no=- 91565340853 1 in IP4 127.0.0.1\r\nt=0 0\r\na=contol:*\r\nm=video 0 RTP/AVP 96\r\na=rtpmap:96 H264/90000\r\na=framerate:25\r\na=control:track0\r\n服务器回复了sdp文件,这个文件通知客户端以后服务器有哪些音视频流,有什么属性,下文有介绍这里只须要晓得客户端能够依据这些信息得悉有哪些音视频流能够发送SETUPC–>SSETUP rtsp://127.0.0.1:1051/live/track0 RTSP/1.0\r\nCSeq: 4\r\nTransport: RTP/AVP;unicast;client_port=54492-54493\r\n\r\n客户端发送建设申请,申请建设连贯会话,筹备接管音视频数据解析一下Transport: RTP/AVP;unicast;client_port=54492-54493\r\nRTP/AVP:示意RTP通过UDP发送,如果是RTP/AVP/TCP则示意RTP通过TCP发送unicast:示意单播,如果是multicast则示意多播client_port=54492-54493:因为这里心愿采纳的是RTP OVER UDP,所以客户端发送了两个用于传输数据的端口,客户端曾经将这两个端口绑定到两个udp套接字上,54492示意是RTP端口,54493示意RTCP端口(RTP端口为某个偶数,RTCP端口为RTP端口+1)S–>CRTSP/1.0 200 OK\r\nCSeq: 4\r\nTransport: RTP/AVP;unicast;client_port=54492-54493;server_port=56400-56401\r\nSession: 66334873\r\n\r\n服务端接管到申请之后,得悉客户端要求采纳RTP OVER UDP发送数据,单播,客户端用于传输RTP数据的端口为54492,RTCP的端口为54493服务器也有两个udp套接字,绑定好两个端口,一个用于传输RTP,一个用于传输RTCP,这里的端口号为56400-56401之后客户端会应用54492-54493这两端口和服务器通过udp传输数据,服务器会应用56400-56401这两端口和这个客户端传输数据PLAYC–>SPLAY rtsp://127.0.0.1:1051/live RTSP/1.0\r\nCSeq: 5\r\nSession: 66334873\r\nRange: npt=0.000-\r\n\r\n客户端申请播放媒体S–>CRTSP/1.0 200 OK\r\nCSeq: 5\r\nRange: npt=0.000-\r\nSession: 66334873; timeout=60\r\n\r\n服务器回复之后,会开始应用RTP通过udp向客户端的54492端口发送数据TEARDOWNC–>STEARDOWN rtsp://192.168.31.115:8554/live RTSP/1.0\r\nCSeq: 6\r\nSession: 66334873\r\n\r\nS–>CRTSP/1.0 200 OK\r\nCSeq: 6\r\n\r\nSDP协定RFC4566格局<type>=<value>其中: ...

April 15, 2022 · 2 min · jiezi

关于音视频:CVPR2022-前沿研究成果解读基于生成对抗网络的深度感知人脸重演算法

凭借在人脸生成畛域的扎实积攒和前沿翻新,阿里云视频云与香港科技大学单干的最新研究成果《基于生成反抗网络的深度感知人脸重演算法 》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation)被 CVPR2022 接管。本文为最新研究成果解读。 论文题目:《Depth-Aware Generative Adversarial Network for Talking Head Video Generation》arxiv链接:https://arxiv.org/abs/2203.06605 人脸重演算法将使视频编解码有新冲破?近年来随着视频直播的大火,越来越多的人开始关注视频云畛域。而视频传输的低提早,高画质,始终是难以均衡的两个点。以后直播延时最低能够降到 400ms 以内,然而在视频会议等各场景的需要一直减少的状况下,比方近程 PPT 演示,咱们对画质和提早的均衡有着更高的要求。而冲破直播提早的要害是编解码技术的晋升,人脸重演算法与编解码技术的联合,在视频会议场景的利用中将使带宽需要大幅缩小,而取得更具身临其境的体验,这是迈向超低延时优画质视频会议十分重要的一步。人脸重演(face reenactment/talking head)算法是指,利用一段视频来驱动一张图像,使图像中的人脸可能模拟视频中人物的面部姿势、表情和动作,实现动态图像视频化的成果。 图 1 人脸重演倒退现状目前的人脸重演办法重大依赖于从输出图像中学习到的 2D 表征。然而,咱们认为浓密的 3D 几何信息(例如:像素级深度图)对于人脸重演十分重要,因为它能够帮忙咱们生成更精确的 3D 人脸构造,并将噪声和简单背景与人脸辨别开来。不过,浓密的视频 3D 标注代价昂扬。 钻研动机&翻新点在本文中,咱们介绍了一种自监督的 3D 几何学习办法,能够在不须要任何 3D 标注的状况下,从视频中预计出头部深度(depth maps)。咱们进一步利用深度图来辅助检测人脸关键点,从而捕获头部的静止。此外,深度图还用于学习一种 3D 感知的跨模态注意力(3D-aware cross-model attention),以领导运动场(motion field)的学习和特色的形变。 图 2 图 2 展现了本文提出的 DA-GAN 的 pipeline,它次要蕴含三局部: (1)深度预计网络\( F_d \),咱们通过自监督的形式预计浓密的人脸深度图; (2)关键点检测网络\(F_{kp}\),咱们将由深度图表征的 3D 几何特色与由 RGB 图的外观特色进行拼接,以预测更为精确的人脸关键点; (3)人脸合成网络,它又能够分为一个特色形变模块和一个跨模态注意力模块。 特色形变模块将输出的稠密关键点转化为稠密运动场(sparse motion field),随后学习失去浓密运动场(dense motion field),并用其对图像特色进行扭曲(warping)。 ...

April 15, 2022 · 1 min · jiezi

关于音视频:火山引擎支持-Pico-完成业界首场-8K-3D-实时互动-VR-演唱会

4 月 9 日晚,Pico 独家直播了 2022 王晰 “图景”集体巡回音乐会,这是业界第一场面向公众的 8K 3D VR 演唱会。作为技术服务商,火山引擎视频云提供了从 VR 采集推流、VR 编码优化、VR 云导播、虚拟现实特效叠加、全画幅 VR 高清低码传输到 VR 播放器的全链路能力。 Pico VR 直播海报不同于以往的线上直播上演,Pico 独家直播的王晰 VR 音乐会为大家带来了全新的观演形式与视觉体验,180 度的 3D 机位、“1 排 1 座”的超近距离体验、8K 清晰度…… 让佩戴 Pico Neo3 设施进行线上参加的观众宛如进入现场音乐会,沉迷感十足。 据悉,这场冲破与翻新的 VR 演唱会推动之初存在着诸多难题。要想保障观感,实现“怼脸看演唱会”,以后的 VR 内容须要 8K 超高分辨率来保障播放画质。然而 VR 整体链路较为简单,引入 8K 超高画质后,给采集、编辑和传输带来了较大的压力。比方 8K 全景视频相比 1080P,传输数据量级翻了 16 倍,码率疯长到数十甚至上百兆,超出用户家用 WiFi 的负载极限。 火山引擎视频云利用了 ROI 编码等多种组合算法,将码率压缩到 20Mbps 以下,率先解决了全画幅传输极致压缩码率对上行 WiFi 带宽的挑战,让用户能够全程晦涩观看 8K 3D VR 演唱会。火山引擎视频云还基于 VR 体验特点,推动多种技术组合翻新,实现了网络相机 8K 流和云导播买通、云导播 8K 实时切播,以及视频流的空间信息辨认与空间特效的叠加等,并保障了直播全链的鲁棒性和低提早。 ...

April 14, 2022 · 1 min · jiezi

关于音视频:音视频YUV

什麼是yuvYUV 色彩编码采纳的是 亮堂度 和 色度 来指定像素的色彩。 其中,Y 示意亮堂度(Luminance、Luma),而 U 和 V 示意色度、浓度(Chrominance、Chroma)。 和 RGB 示意图像相似,每个像素点都蕴含 Y、U、V 重量。然而它的 Y 和 UV 重量是能够拆散的,如果没有 UV 重量一样能够显示残缺的图像,只不过是黑白的,所以yuv图像能够兼容於黑白影像和黑白影像。 为什么yuv更省空间RGB像素表示法很简略,如果你没做过数字图像和视频的开发,可能很少据说过YUV。但在数字图像和视频编码里畛域,YUV像素表示法十分风行,有几个起因造成。首先,人眼对亮度更敏感,对色彩的敏感度稍弱,所以应用YUV来示意图像能够节俭存储资源。其次因为数字摄像机传感器不能间接采样三原色,所以RGB也不适宜硬件解决。因而YUV才如此利用宽泛。 用RGB示意像素须要用3个字节。但YUV示意一个像素,可能是3个字节,也可能是2个字节(丢掉U或者丢掉V),还可能只有1个字节(丢掉U和V)。占用字节大小的不同因为采纳不同的采样形式。 YUV采样格局YUV 图像的支流采样形式有如下三种: YUV 4:4:4采样YUV 4:2:2采样YUV 4:2:0采样YUV 4:4:4 采样 YUV 4:4:4 采样,意味着 Y、U、V 三个重量的采样比例雷同,一个像素点,都是(Y、U、V)3个字节组成 举个例子 :如果图像像素为:[Y0 U0 V0]、[Y1 U1 V1]、[Y2 U2 V2]、[Y3 U3 V3]那么采样的码流为:Y0 U0 V0 Y1 U1 V1 Y2 U2 V2 Y3 U3 V3 最初映射出的像素点仍旧为 [Y0 U0 V0]、[Y1 U1 V1]、[Y2 U2 V2]、[Y3 U3 V3] YUV 4:2:2采样 ...

April 13, 2022 · 4 min · jiezi

关于音视频:如何在云端重塑内容生产来看这场虚拟人主持的发布会

3月30日,阿里云视频云在线上举办了一场由虚拟人助力主持的「智能媒体生产」产品升级发布会,流动围绕产品能力的展示、视频生产流程的变革、高效生产背地的技术先进性,阐释了企业如何在云端重塑视频内容生产的全流程,打造云端内容制作新范式。 发布会虚构主持人 面对传统视频生产协同艰难、视频生产无奈标准化以及老本投入大等难题,智能媒体生产在本次发布会重磅降级了直播剪辑、云端剪辑、模版工厂、智能工作、虚拟人五大外围能力,重点突出高效化、批量化、场景化、智能化、云端协同五大个性,针对典型生产场景和痛点,助力企业疾速定制生产流程与合作平台,提供高效、批量的视频内容生产能力。 值得一提的是,本次线上发布会采纳了真人主持人+虚拟人串场的公布模式。作为近两年的市场热点,智能媒体生产五大外围能力之一的虚拟人,利用先进的动作捕获算法和精密点位,驱动虚构形象实现唇形、表情、手势及肢体的灵便变动。 将来,智能媒体生产将面向金融、媒体,运营商、MCN、互娱等行业,提供虚构讲解员、虚构主播、数字客服等全新客户体验及可有限复制的服务成果。 作为云端视频生产的翻新工具,智能媒体生产次要被使用于互联网内容平台、营销推广行业、安防监控行业、金融行业等典型场景。 相较于传统制作流程,智能媒体生产将固定软硬件和人工成本降为弹性按量计费,将简略视频制作老本从几十元/分钟降至几毛/分钟,将每日成片量从人工的数百分钟拓展为百万分钟,将单个实例的单倍速合成减速到切片渲染的10倍速以上。 云端剪辑新工具替换惨重、传统、低廉的非编工具,能大大提高内容生产和流传效率,实现老本、效率与性能的均衡。 如何用短短15分钟,变革视频生产流程? 本次降级发布会具体介绍了通过SDK开箱即用的能力将ICE端侧SDK集成到企业的生产零碎中的全流程,带来云端剪辑的全新体验。 智能媒体生产端侧SDK具备高性能、开箱即用、可拓展性和多端一致性的劣势,具体表现在:Web端可能晦涩预览简单的特效转场;3步即可疾速接入运行的WebSDK;依据企业个性化需要进行灵便设计和开发;反对多端协同与视频生产等。 此外,本次发布会还着重展现了批量混剪、多图合成、实时视频生产等高效生产背地的技术原理及先进性,在“视频+”曾经成为企业策略和营销外围的时代,也呈现了需要繁冗、市场跨度极大、所需的接入形态各异的景象。 智能媒体生产以丰盛的功能模块、灵便的交付模式、翻新的程序化工夫线剪辑能力、弱小的倍速渲染速度,满足企业级客户的批量定制需要,助力其创新型视频生产流程的疾速验证和迭代。同时,智能媒体生产将在云端内容生产这个极具想象力的利用场景,不断完善性能、摸索可能、拓展边界。 「智能媒体生产」现已全新降级点击「智能媒体生产」即刻理解「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

April 8, 2022 · 1 min · jiezi

关于音视频:优酷播放黑科技-自由视角技术的全链路策略与落地实践

作者:李晓阳(苏铭) 在《优酷播放黑科技 | 自在视角技术体验优化实际》中咱们提出对自在视角观影体验做了很多优化,为何须要做如此多的体验优化,上面将一一解答。 随着5G时代的到来,视频用户的生产需要降级,沉迷式视频体验正在疾速倒退,视频体验的真实性,可互动性的需要在一直加强。自在视角技术是优酷摩酷实验室自研的沉迷式交互视频技术,通过3D重建与渲染技术,为用户提供6自由度(左右旋转、前后推拉、高低挪动)的视频观看体验,目前整套自在视角技术曾经服务于CBA子弹工夫直播、《这就是街舞》第三季与第四季、冬奥会冰球测试赛等我的项目中。 上面的内容将为大家介绍自在视角技术的整体链路与落地实际。 自在视角工作流图 现场采集自在视角直播视频的采集不同于传统视频,须要更简单的采集零碎。不同于传统拍摄的单个机位,自在视角视频拍摄须要同步控制多个相机(通常是几十到上百个相机),相机的管制以及直播时的数据传输须要通过以太网进行。而为了保证数据和命令的低延时和高可用,通常须要搭建一个局域网。相机的数据通过网络汇总到现场的服务器,由现场服务器通过预处理后将数据发送到云端,云端进行重建后再发送到现场电视转播车上或者终端APP上。 自在视角录播的视频为了取得更高质量的视频源素材,个别采纳录制模式,录制到存储卡中,而后再上传到云端进行重建。 勘场及计划制订与项目组或制作单位沟通需要、我的项目特点,现场实地踏勘,联合现场平面图(舞美图)制订正当的拍摄计划,并对理论输入成果做出预判。踏勘时须要确认现场搭建资源供应形式,操作区地位以及拍摄工夫。最好是在舞美设计阶段把自在视角技术纳入思考范畴,制作方提供高质音频,能够为后续音视频剪辑对齐,为直播计划打下基础。 硬件零碎搭建调试1)依据平面图提前完成制作,赛前在规定的工夫内实现桁架的搭建,相机,交换机,路由器的架设、通电、通网,同步性检测; 2)依据现场舞台与灯光状况,实现相机参数设置与姿势构图调整,应用采集软件进行相机参数计算,依据理论参数实现姿势微调。 以下是2020-2021赛季CBA较量时用于子弹工夫特效直播的零碎图: 通过屡次现场实地验证,可通过模块化搭建,将桁架、相机、路由器进行模块化搭建,实现对场地变动的高容忍性;通过预搭建预调试,将模块化的设施在录制前进行标定与预调试,实现对流程节奏的高容忍性。不仅能够应答赛事稳定性需要,也可满足综艺场景简单的拍摄环境需要,目前CBA与综艺场景物理搭建工夫已缩减至2小时,补录筹备工夫放大至半小时内。 不同的搭建策略: 音视频采集利用6-DOF Studio 采集软件,实现自在视角视频源的采集(为直播子弹工夫,FVV视频生产提供原始的音视频素材)。次要实现现场N个相机音视频的采集、相机参数设置、相机姿势调整、零碎状态监控、零碎容灾备份、数据实时/离线解决等。目前采集制作全链路反对4K分辨率输出源。相机姿势调整也反对本地化操作,不须要将视频素材传输到云端,缩小对云端计算资源与网络依赖,所有相机的参数标定耗时能够管制在秒级。 直播链路方面,单帧子弹工夫制作工夫(含操作到输入给转播车)齐全能够满足讲解、精彩回放等场景。自在视角视频直播最高反对8K视频直播流推送,1080P交互播放能力,目前自在视角视频直播从采集到生产全链路延时能够管制在5s左右。 CBA直播较量子弹工夫: 视频请点击查看:优酷播放黑科技 | 自在视角技术的全链路策略与落地实际冬奥会测试赛子弹工夫: 视频请点击查看:优酷播放黑科技 | 自在视角技术的全链路策略与落地实际云端制作云端服务次要是依据6-DOF Studio 采集到的音视频数据,对N路视频进行三位重建合成自在视角视频,或依据虚构门路实现子弹工夫视频渲染,后续将生产进去的视频挂靠到媒资零碎。 工作流程: 生产服务架构如下: 相机标定服务次要是依据N路相机视频素材的特色点匹配实现相机参数(内参、外参、畸变参数)的求解。进一步能够通过交融多帧特色点,失去更稳固的标定后果,同时能够无效缩小特色点少的场景标定失败问题。最好能反对多参照物门路,绝对繁多参照物门路有更灵便多变的虚构门路,能够应答更简单的现场环境。 图像深度预计服务次要是基于标定好的相机参数实现所有相机视频帧的深度预计。这里点播与直播链路略有不同,点播链路指标在于给到用户能力范畴内最好的后果,能够通过优化算法、生产链路等形式在确保视频深度品质的根底上进步生产效率,目前点播门路上自在视角视频单帧均匀生产耗时为90s;直播深度预计还须要思考实时性的问题,目前咱们采纳深度学习与传统图像处理办法相结合的形式,能够实现270P深度图实时输入,深度学习模型的后果输入小于20ms。 在视频合成生产环节,针对自在视角视频码率高(高分辨率导致)的问题,也做了一些编码方面的优化,次要是利用深度数据优化视频编码参数,在等同主观视频品质下码率升高约20%,整体晦涩度晋升50%以上,用户观影体验能够失去较好保障。音频合入方面,通过AI算法实现音频对齐,解放前期剪辑音视频对齐工作。 终端渲染自在视角视频不同于传统视频,为了让用户能从不同视角进行观看,它的每一帧都须要蕴含拍摄视角的纹理信息和深度信息,且须要用户的交互输出作为变换视角的根据。因而,在客户端须要独立的SDK解决交互、计算和渲染。通过在PC端应用FVV视频剪辑工具,或者在挪动端播放器中接入6DOF SDK,实现FVV视频渲染,或者子弹工夫制作。 FVV视频剪辑工具自在视角视频在拍摄阶段就采集泛滥视角信息,再通过3D重建,能够输入任意视角的视频信息,因而绝对于传统视频来说,自在视角视频不仅能够为用户提供丰盛的视频信息,交互的观影体验,还非常适合做高质量的精美视频剪辑。FreeViewVideoEditor是一款视频编辑软件,以自在视角视频作为输出,能够通过编辑关键帧来设置自在视角视频门路,在预览模式下观看成果,而后在云端生成指标视频。 剪辑工具工作界面: 剪辑后果示例之纯享视频: 视频请点击查看:优酷播放黑科技 | 自在视角技术的全链路策略与落地实际剪辑后果示例之直拍视频: 视频请点击查看:优酷播放黑科技 | 自在视角技术的全链路策略与落地实际目前FVV视频编辑工具可运行于Windows 电脑上,通过编辑工具能够制作直拍视频、纯享视频、子弹工夫视频。视频编辑是通过设置关键帧来操作,编辑实现后能够预览视频查看编辑成果,成果合乎预期后可上传到云端,通过云端计算资源进行渲染实现视频生产。目前编辑工具反对输入视频的分辨率设定,多种静止门路模板抉择,镜头推拉范畴设置,音频同步播放生产等性能,且街舞单个舞蹈的剪辑生成工夫在30min~2h。街舞第四季中每期均有舞蹈由媒资同学应用FVV视频编辑工具剪辑生成纯享版视频,播完率与VV均优于一般纯享版视频。 挪动端6DOF渲染SDK挪动端6DOF渲染SDK是为了让用户在挪动端晦涩体验FVV交互式视频,定制优化的FVV视频渲染SDK,Android端基于OpenGL跟OpenCL语言,IOS端基于Metal语言。渲染的根本流程同服务端算法,只是做定制性的优化与简化,确保大部分的手机能够进行晦涩交互。 渲染流程如下: 目前互动SDK在去年街舞第三季时曾经接入到主客播放器中,最近已实现多轮性能与性能优化。目前SDK反对多种相机模型、切相机兜底模式、输出虚构门路等性能,性能方面中高端手机均能够反对重建模式。街舞第四季DAU全站反对重建机型覆盖率高达63%,切相机兜底机型覆盖率18%,总体覆盖率达到81%。为了进一步升高自在视角视频的卡顿率,进步观看流畅性,互动SDK还配合播放器团队实现切流体验优化,在不同清晰度流切换过程中,SDK切换耗时降到100ms以内,做到用户基本上无感知。 关注【阿里巴巴挪动技术】微信公众号,每周 3 篇挪动技术实际&干货给你思考!

March 30, 2022 · 1 min · jiezi

关于音视频:阿里云-AI-编辑部获-CCBN-创新奖揭秘传媒行业解决方案背后的黑科技

简介:视频云驱动智媒翻新 5 月 27 日,CCBN(第二十八届中国国内广播电视信息网络展览会)在北京隆重召开,在本次的 “CCBN 年度创新奖” 评比中,阿里云视频云凭借 AI 编辑部的传媒行业业余解决方案取得 CCBN 产品翻新卓越奖。 随着技术的倒退,5G、4K、AI 等新技术的翻新及利用,曾经是媒体行业转型的共识。面对 9.86 亿手机网民,充分发挥 5G 网络技术劣势,构建手机小屏和电视大屏交融流传的全媒体散发体系成为媒体行业发展趋势。在新的流传模式下,用户更偏向于个性化的视听需要,这对传媒行业内容制作时效和制作产量带来新的要求与挑战。如何使用人工智能和数据技术晋升视频的制作时效和制作产量,成为 AI 编辑部媒体交融转型的重点工作之一。 生产制作是整个制播流程的外围,它连贯了采集,播放和存储,也只有让制作过程全面云化之后,能力真正晋升交融媒体的效率。在整个交融媒体制播流程当中,新降级的 AI 编辑部 2.0 交融了短视频制作和高码率精编,通过大量应用 AI 技术,实现大小屏的双向互动和交融生产。同时,交融云、端协同生产的形式,减速整个内容生产的效率。 从实际操作层面,AI 编辑部通过真 4K 的云端制作、4K 视频加强、云上融媒短视频制作三个细分方面来实现: 首先,在 4K 云端制作的基础设施方面,AI 编辑部做的次要翻新是引入了 SCC 高性能计算和 CPFS 并行文件系统。针对云端制作的高性能需要,实现计算节点与存储节点之间低延时互联,满足更佳的制作体验,同时防止虚拟化损失,进一步晋升性能。针对云端制作的高存储容量和带宽需要,CPFS 提供随存储节点的线性裁减吞吐能力,单集群最大 300GB/s 吞吐能力。AI 编辑部提供了丰盛的适配于传媒业务的资源,包含 FPGA、GPU 等各类个性化硬件设施,以满足不同业务诉求。此外,AI 编辑部针对 GPU 进行了大量的优化,包含 GPU 的虚拟化,共享以及赤化,可能极大的晋升 GPU 的利用率,升高云端制作的老本。 其次,在 4K 视频加强方面,AI 编辑部次要通过视频超分,视频插帧和色调加强三个核心技术,来全面晋升 1080p 及更低质量视频的画质,在帧率、分辨率以及色调三个方面全副达到超高清视频要求。AI 编辑部提供的 4K 加强能力,既满足业余规范,也就是总局在《4K 超高清电视节目制作技术 施行指南》中的规范定义,也满足行业内业余的技审和监看要求,在满足主观参数规范的同时,在主观视觉体验上有显著晋升,包含细节还原、噪声克制、画面晦涩、视频亮度、色调对比度和明暗细节放弃等。在 AI 视频超分方面,AI 编辑部采纳深度学习的形式,对画面进行无损放大,可能实现分辨率 4 倍晋升,对人像、场景等细节进行修复还原的同时,可能克制块噪声、压缩噪声等画质伤害,使画面更锐利。AI 编辑部翻新的提出了重点部位的加强,以最小代价,做到最有成果,如重点优化人像面部,对人的皮肤纹理、毛发细节等实现更好的修复还原。 ...

March 21, 2022 · 1 min · jiezi

关于音视频:Timing在线自习室快速搭建

通过超低提早的音视频通信技术、视频连麦、弱网传输算法,疾速搭建自习场景,晋升自习效率。 客户简介 氪细胞主打产品Timing,是国内最早推出,也是规模最大的在线自习室,是新一代的教育与社交交融平台,主打高效学习与对等社交,次要场景蕴含结伴学习、互动视频、Timing视频自习室、树洞语音对讲机等。 客户需要超低延时互动学生之间进行低延时连麦学习,老师实时辅导并在线答疑。 多人视频连麦多名学生和老师进行实时视频连麦。 简单的网络环境用户网络条件不一,弱网环境下须要保障通信品质。 解决方案超低提早技术自研音视频通信技术,从采集、编码、传输到解码、渲染都做了深度优化调校,实现端到端延时低至300 ms。 麦上视频连麦互动模式反对16人实时连麦互动,在线观众可上麦进行互动。 外围弱网传输算法自研ARWNT弱网传输算法,音频抗丢包70%,视频抗丢包30%,等同丢包环境,弱网传输效率晋升65%。 客户价值晋升学生自习效率在连麦自习和在线老师辅导的环境下,高效晋升学生自学品质,助力学生进步考试成绩。 助力客户疾速搭建场景作为行业当先的社交学习平台,帮忙客户搭建在线自习室,欠缺产品生态,从文字内容分享到实时视频互动模式逾越,冲破行业倒退瓶颈,实现业务降级。 相干产品音视频通信音视频通信RTC(Real-Time Communication)是阿里云笼罩寰球的实时音视频开发平台,依靠外围音视频编解码、信道传输、网络调度技术,提供高可用、高品质、超低延时的音视频通信服务,让用户疾速搭建多端实时利用,实用于在线教育、视频会议、互动娱乐、音视频社交等场景。 更多对于音视频通信的介绍,请参见音视频通信产品详情页:https://www.aliyun.com/produc...。 原文链接 本文为阿里云原创内容,未经容许不得转载。

March 14, 2022 · 1 min · jiezi

关于音视频:ICASSP-2022-前沿音视频成果分享基于可变形卷积的压缩视频质量增强网络

阿里云视频云视频编码与加强技术团队最新研究成果论文《基于可变形卷积的压缩视频品质加强网络》(Deformable Convolution Dense Network for Compressed Video Quality Enhancement)已被 ICASSP 2022 Image, Video & Multidimensional Signal Processing 主题会议接管,并受邀在往年5月的寰球会议上向工业界和学术界进行计划报告。以下为技术成绩的核心内容分享。 佳芙|作者背景视频压缩算法是一种广泛应用于视频流传和视频存储的技术,它可能帮忙节俭带宽和节约存储空间,但同时也带来了视频品质降落的问题。压缩视频品质加强工作的指标便是缩小由视频压缩带来的 artifacts,晋升视频品质。 近些年来,基于多帧策略的办法成为了压缩视频品质加强工作中的支流,为了交融多帧信息,这些办法大多都重大依赖于光流预计,然而不精确且低效率的光流预计算法限制住了加强算法的性能。为了突破光流预计算法的限度,本文提出了一种联合了可变形卷积的浓密残差连贯网络结构,这个网络结构无需在显式光流预计的帮忙下就能实现从高质量帧到低质量帧的弥补。 利用可变形卷积来实现隐式的静止预计,并通过浓密残差连贯来进步模型对误差的容忍度。具体而言,咱们所提出的网络结构由两个模块组成,别离是利用可变形卷积来实现隐式预计的静止弥补模块,以及应用浓密残差连贯来进步模型误差容忍度和信息保留度的品质加强模块,此外,本文还提出了一个新的边缘增强损失来加强物体边缘构造。在公开数据集上的试验结果表明,该办法显著优于其余 baseline 模型。 办法解析 受到 MFQE[1] 的启发,咱们的办法也应用了 PQF 来作为参考帧。在 MFQE 中,PQF 被定义为品质高于其前后间断帧的视频帧,而在本文中,应用了 I 帧来作为 PQF,高质量的 PQF 能够为低质量的输出帧提供更精确的信息,从而更大限度地晋升视频帧的品质。 图 1 展现了咱们的模型构造,其中\( F_{np} \)示意以后帧,\( F_{p1} \)和\( F_{p2} \)别离代表最近的前后 PQF,MC module 代表静止弥补模块,前方的多个密集残差块和卷积层组成了品质加强模块。 将 PQF( \( F_{p1} \) 或 \( F_{p2} \) )作为参考帧,静止弥补模块中的可变形卷积层可为其预测时序静止信息,并将参考帧弥补为输出帧的内容,此时的弥补帧\( {F}^{c}_{p1} \)、\( {F}^{c}_{p2} \)同时具备和输出帧\( F_{np} \)类似的内容以及和参考帧\( F_{p1} \)、\( F_{p2} \)相近的品质。 ...

March 11, 2022 · 2 min · jiezi

关于音视频:未来的直播技术将会有哪些新的进化形式

近5、6年间,直播简直每一年都在产生着十分大的变动,诞生了不同的玩法、不同的场景,直播状态在继续地丰盛。那么将来,直播技术又会有着什么样的“进化”呢? 近日,火山引擎直播技术负责人周一楠在火山引擎举办的视频云科技原力峰会上发表了《聚焦体验与增长,摸索直播技术的再进化》为题的主题演讲,分享了在新环境状况下,直播体验优化面临的挑战以及直播技术再进化的两个实际方向。周一楠示意冀望能将直播从动态能力变成动静可调配的,把直播技术从根底的“能力”,演进成促成体验、业务增长的“能源”,从而带来更大的价值。 以下为周一楠分享全文: 各位嘉宾大家下午好!我是来自火山引擎直播技术负责人周一楠。明天非常高兴能与大家一起分享对于聚焦体验与增长,直播技术再进化的话题。冀望可能将过往火山引擎反对字节跳动外部以及内部客户的实际和思考,做一些总结,给到大家一些不同的视角与输出。 新环境下直播体验优化的挑战首先讲本人与直播的故事,我置信在座很多嘉宾参加过或者经验过2016年的千播大战。过后直播场景次要是秀场、游戏直播,分辨率还是360P、480P,或者720P。 然而从那之后到当初的5、6年间,咱们会发现直播简直每一年都在产生着十分大的变动,有不同的玩法、不同的场景,比方简单连麦、直播电商、付费直播、全景直播、生存服务等等,大略有几十种。我举的例子不肯定全,但咱们可能看到直播状态在继续的丰盛。 如果把短视频视作关上人与人之间的信赖黑盒子,那么直播便是建设人与人之间的连贯。各个行业中,直播也逐步成为必不可少的根底能力之一。 同时,也正因为直播状态的演进,客户对直播的要求越来越高,更高的清晰度、更低的提早、更少的卡顿。这背地有大量的技术要求。 另外,咱们还能够看到直播用户的浸透在继续晋升。这次要有几个点:在地区上,从一线城市到二线城市,再到下沉城市,从中国到全球化,这间接带来设施的多样性、网络的多样性,无疑给大规模最优直播体验带来很大的挑战。这其中还有很多的细节须要去解决。 接着,咱们再看看技术外部的要害指标。通常咱们关注直播的QoS指标,比方一级指标,包含连贯成功率、卡顿率、提早、首帧等等,这里没有列特地全。再渗透到二级指标,会包含很多,比方回源比、信令成功率不等,不止几十个指标。这其中简单,大量的细节,而且有一些指标还有互斥性。 咱们回顾一下方才提到的,叠加不同业务场景,有些心愿更高的清晰度,有些心愿更高的流畅性,有些心愿更低的提早,再叠加上不同网络状况、不同硬件的差异化等等,这给整个直播体验的技术优化带来十分大的难度。 总结下来,随着直播生态的多样性、渗透率的变动,整个体验优化曾经不再是繁多技术指标能够解决的问题。如果想达到体验继续晋升,业务增长的诉求,复杂度已呈现出指数级晋升。当然,这外面的确也是咱们作为技术同学须要重点解决的问题,这也是技术能够带来的业务价值体现。 直播技术再进化,建设反馈系统与优化地图 前边总结了技术所面临的挑战,那么咱们怎么样在简单错综的变量当中不迷路,找到清晰的优化门路呢?这儿分享一下火山引擎在直播技术上的总结与实际: 第一点,我想介绍建设数据驱动的反馈系统。在火山引擎,咱们始终强调数据领导。为什么?有经典的一句话总结:如果你不能量化它,就无奈优化它。咱们更关注QoE作为指标量化指标,所有优化伎俩聚焦在QoE的变动上。 数据驱动首先聚焦在数据的A/B试验,A/B试验与直播关联。这里也总结了一些通用的方法论,包含实验设计、流量计算、试验分组、试验回收、改良反馈、版本迭代,在配套A/B试验平台,就能够建设数据试验的反馈优化零碎。 有了要害指标,有了办法,有了执行落地的零碎,基于过往实际案例,不论是在参数变动、性能迭代、性能调优,咱们很多工作都最终量化到整个直播体验的数据上。 数据驱动的第二点,我定义成策略零碎。如果把数据试验定义成粗密度的,偏差人工的能力验证,咱们心愿这种能力验证可能积淀下来。 这张图是数据策略的数据流向图,从数据埋点、数据采集、数据挖掘、模型训练、策略下发,到串联A/B试验平台。在不同用户、不同场景中个性化应用,做到更细粒度的优化成果,再配合前后端的策略利用,可能做到数据闭环驱动。 最初,不论是数据试验,还是策略零碎,咱们冀望的是可能将直播从动态能力变成动静可调配,把直播技术从根底的“能力”,演进成促成体验、业务增长的“能源”,给业务带来更大的价值。 直播技术再进化,摸索新技术升级第三个话题,我重点讲一下对于新技术的摸索。这里次要聚焦超低延时直播畛域。 过往,咱们收到过大量一线用户的反馈,比方直播延时大,导致用户反馈、主播反馈特地慢,尤其是粉丝数量不是特地多的直播场景,当然还包含直播电商抢购,倒数321之后,发现商品没了;又比方主播的PK环节,在PK倒计时,因为延时的差别,导致大家产生不偏心的感觉;还有VR直播,在切换视角时,须要最小化延时,来升高用户眩晕感。这都要求咱们推动低延时降级,解决具体的问题。 咱们做了什么呢?整个降级过程当中,咱们做了大量的工作,包含降级UDP传输模式,包含大量的抗弱网丢包拥塞算法、信令的重构,就是为了可能做到极致的首帧体验,还有节点复用,包含上下行,这里不一一赘述了。 最初再看一下咱们核心技术的个性:端到端延时,能够达到大范畴散发的状况下1S内,理论值能够做的更低,比方500ms,同时具备大规模散发能力,尤其是针对UV大的热流,具备多级散发的能力,同时具备多分辨率适配,达到不同的设施、不同的网络,端到端全链路笼罩,让整个业务有更多的抉择,来解决不同的诉求。 这儿回顾一下火山引擎在超低延时直播降级的状态,以后累计笼罩人群有2亿多,笼罩场景有10多种,笼罩的峰值流量是1000G以上,笼罩时长是36亿分钟。 过来从10s到5s到1s内,在电商、互娱方向,GMV、打赏率都获得了十分正向的业务收益。 接下来咱们冀望与行业一起,把火山引擎目前最新的技术与行业赋能,同步降级。在明天,超低延时直播曾经在火山引擎正式上线了,大家能够对接体验整个产品。 说到最初,对于超低延时,还有一个最重要的特色,火山引擎不会去做封闭系统,咱们冀望规范凋谢,直播协定可能互联互通,咱们也十分欢送行业服务商共建,为客户提供更多的抉择与更优的服务。 明天咱们也邀请到了阿里云、腾讯云的同学,三方独特联结发超低延时直播信令规范,共建互通。 这标记着低延时直播在理论业务落地上,从传统的3-5s,正式迈入1s内规模散发的大关。协定交互细节将在火山引擎、阿里云、腾讯云官网凋谢公布。 这次信令协定次要做了如下改良: 第一,从新定义信令交互流程,让信令与媒体能够更加顺畅实现。第二,建设反对疾速连贯的能力,提供极致的首帧渲染工夫,进步播放的秒开率与成功率。第三,提供兼容、反对直播行业特点的媒体个性扩大,保障更多的媒体能够兼容。第四,反对信令平安加强,从直播信令到数据,让直播更加牢靠,更加关注隐衷。这次火山引擎和阿里云、腾讯云的携手,是一次代表着纯正和共创的技术单干。火山引擎自进入云市场,就始终秉持着凋谢互联的倒退理念。此次共建凋谢的协定规范,任何公司和开发者都能够依照规范接入,独特推动视频技术倒退和利用翻新。

March 4, 2022 · 1 min · jiezi

关于音视频:面向体验助推超视频时代新增长

2月25日,火山引擎视频云科技原力峰会顺利召开。 火山引擎视频云是如何倒退起来的?火山引擎要做什么样的视频云?将来视频云又会是什么样的?火山引擎视频云技术负责人浩铭在以《面向体验,助推超视频时代新增长》为主题的演讲中,分享了对视频体验、交互、增长的察看与思考,并介绍了火山引擎视频云的从前、当初,以及将来的技术布局与构想。他示意:置信视频利用会继续朝着三个方向演进,更高清、更交互、更沉迷。 火山引擎视频云技术负责人浩铭以下为浩铭的演讲实录: 大家好,我是来自火山引擎视频的浩铭,很快乐明天能跟大家一起做分享,独特面向体验,助推超视频时代新增长。 火山引擎视频云进化史首先给大家介绍一下火山引擎视频云的进化史,这里列了几个要害的工夫点:起初在2014年,这时候字节跳动还在做图文利用。大家比拟相熟的今日头条,就是这个时候DAU冲破一千万。过后,公司曾经预计到将来是视频的时代,就开始在头条摸索视频的状态,视频架构部门也是在这个工夫点诞生的。下一个工夫点到了2016年,字节跳动推出短视频APP抖音,与直播APP火山直播。随着字节系的产品一直裁减,视频架构在公司的地位也变成了视频中台。咱们作为中台一直地在公司外面孵化更多端到端的解决方案,像图片点播也在这个工夫点成为解决方案,然而那时候咱们的定位是面向性能、解决业务的问题。2018年,字节跳动自身业务飞速发展的一年,对咱们来说也是挑战很大的一年。首先咱们要保障业务的稳定增长,保障业务的扩容是平顺的,同时业务对咱们有了更多的要求,不止性能层面,还要对业务的性能与后果提供更大的帮忙,于是咱们对业务的体验优化做了更多的投入,继续优化端到端的视频体验。这个工夫点,咱们本人开始逐步意识到,“体验”的重要性。到了2020年,咱们开始认真思考ToB的事件。之所以在这个工夫点思考ToB,基于三点思考: 第一点,咱们作为中台反对的字节产品越来越多,如果把中台的服务模式变成ToB的服务模式,置信对业务的反对效率与组织效力上有很大的晋升;第二点,通过几年的业务打磨,曾经具备行业当先性,咱们把曾经积淀好的能力输入进来,应该能够失去更好的商业价值;第三,咱们心愿引入内部的视角,聆听来自行业的声音、用户的声音、客户的声音,让咱们扫视已有的技术,放弃咱们的先进性。基于几点思考,咱们逐步把团队从中台走向ToB,把之前的积淀解决方案革新为对外的解决方案,把本人的服务做成平台化,更加规模化地接内部客户。这时咱们接了第一个内部客户,懂球帝。在2020年之后,这样的演进还在继续产生,比如说火山引擎正式ToB,让视频云在ToB上顺利承接有了更大的投入,在产品的齐备度和服务的规范性上有了大幅的晋升。以及字节跳动收买了Pico之后,咱们开始在沉迷式视频上进行了更多的摸索。 如何搭建品质体验体系从整个视频云的成长史来看,字节跳动的业务“养成”了视频云,而且视频云十分有幸在这个过程当中见证与帮忙字节跳动的成长。咱们心愿明天把积淀下来的能力与教训凋谢给行业的合作伙伴。方才在演讲过程当中,我提到了一点,咱们从能力建设开始面向体验的建设。通过几个直观的问题让大家感受一下到底这两个之间有什么区别。 业务数据不好,是不是因为播放体验有问题?咱们播放体验的劣势是什么?新上线一些新的性能,对业务的奉献到底如何?咱们总说极致体验,体验是什么,以及怎么才算极致?大家可能感觉到画风不一样了,之前咱们谈性能的时候,更多是在谈性能有没有,好不好,有多好。这些会落到能够比照的,相似卡顿这类的指标。但回到体验,更多是业务带着最终后果向咱们提问,到底咱们的能力对业务有什么帮忙,咱们怎么答复这样的问题。首先我感觉每个问题都很难答复。在这儿我想分享一下教训,包含做事形式与思路。 大家看左边这张图,分成外边的一个圆环与外面的矩形。外边的圆形更多是咱们在日常研发外面的做事形式,置信大家都十分相熟。这外面有一个与大家做的不一样的,是线上试验的环节,外面的矩阵更多是内功,外围就是始终在致力建设数据的剖析和归因能力。咱们要做一个事件可能预估它的收益,并且可能及时回收收益。在内外联合、相辅相成的思路与做事形式下,咱们再看方才的几个灵魂拷问是不是能够答复了。对于方才的几个问题咱们能够形象一下,变成一些更实质的问题。 第一个是如何掂量体验?大家应该会有一些共识,体验指标能够分成 QoS(Quality of Service)指标和 QoE(Quality of Experience)指标。QoS 往往是从服务或者性能的视角统计服务质量,包含起播工夫、百秒卡顿、画质指标、延时等。这些是跟研发具体做的动作间接相干的,它们十分重要,而且是研发做的每个动作的直观体现。咱们在实际过程中,逐步从最后的关注QoS指标,过渡到当初以QoE指标为主。因为QoE是从用户视角反映问题,通常是与用户播放时长和频次等相干的聚合指标,以反映用户的应用志愿,也与增长关联更加间接。它比QoS好的一点,QoS是单方面,有可能把咱们的优化领导偏,而不是全局最优,QoE是给了一个最终后果。咱们带着这个最终后果有能力与业务的增长后果做关联。 下一个问题,体验与增长之间是怎么关联的?之前有很屡次的技术分享,大家对字节跳动的A/B试验有理解,它提供了一个让咱们真正成为业务外面的技术参与方,能间接看到咱们的动作与业务增长关联的平台。有了这个平台之后,咱们能够很不便地每个月做几十次线上试验,一直摸索体验指标与业务指标的关联,一点点打消元无知。 最初,如何优化体验,体验须要优化到什么水平?如果咱们打算做一个性能优化,什么时候该做,做到什么时候该停。第一因为咱们有外部劣势,能够快捷地开大量的试验,所以能疾速、不停地迭代尝试出一个经验值,这个经验值能够在具体场景外面复制、积淀,能够推广出更多的业务方应用的。另外一个形式就是应用业务已有的数据,做一些已有数据分析,比如说首帧与弃播之间的关系。咱们找到拐点,因为这个拐点可能就是这个业务的优化空间,如果过了这个拐点,有可能优先级能够放一放。咱们通过这种形式建设决策,去答复体验到底须要优化到什么水平。方才介绍了研发的体系,上面我举几个例子,把这些例子失去的积淀论断分享给大家。 首先是在短视频场景下,方才我也提到了对于首帧的剖析,咱们通过试验与数据分析失去这样的一个论断,就是210ms这个数字。在短视频feed场景下,咱们认为210ms相当于流媒体首帧的满分规范。首帧大于这个值,用户的留存可能就会受到影响。 对于画质来讲,也是一个很直观的指标,大家心愿有很清晰的视频体验,咱们做了十分多的动作,这里举一个例子,特定环境下网络受限的用户,不得不抉择低分辨率的视频去播放,这样终端的成果必定是不好的。咱们有一些伎俩,通过超分辨率的形式,在终端把不好的播放体验从新超分成一个好的视频成果。单单这样的对于受限场景下的优化,对于大盘整个视频播放时长有0.23%的增长。 在直播上,延时也是很敏感的指标,然而的确与业务增长的关系是比拟难量化,咱们在“低提早直播”性能上线之后,也尝试做了反转试验,把曾经3s端到端延时的用户,从新晋升到7s,咱们看了一下后果是什么样。这个工作做了之后,咱们看到用户的看播时长降落1.3%,社交浸透与电商订单都有显著的降落。也是因为有了这样时延的佐证,咱们对于低延时直播的资源投入在继续的增长。 方才提到了一些研发投入深耕的场景,其实对于体验的优化可能不须要那么浅近,有一些简略的Case被大家疏忽掉,一样能够达到很好的后果。举一个看上去很简略的音量平衡例子,大家看直播或者点播的时候有刷视频的动作,刷到下一个视频如果声音忽高忽低,可能会有很差的播放体验,甚至因为声音变大吓一跳。咱们预期音量平衡的计划会拿到正向的后果,实际上做完试验之后后果远超预期,不仅在人均看播时长增长了3%,而且电商直播的GMV超预期晋升4%。其余像这些小的点有很多很多,只有这个思路存在,咱们就有更多可挖的空间。除了技术,还有很多的玩法,能让留存、拉新失去很多晋升。介绍一下“一起看抖音”场景性能,这个场景是在抖音短视频观看时,能够让很多用户同时在看,大家看的进度是一样的,而且看的同时能够做音视频的聊天,以减少趣味性与陪伴感。它在抖音上线曾经靠近一年,月均DAU持续保持30%以上的增长,渗透率曾经晋升10倍。 面向用户打造极致体验,面向企业继续技术创新方才是对体验优化方法论后果的展现,我前面分享一下火山引擎视频云将来的技术布局与构想。正如咱们和IDC一起公布的视频云白皮书中所提到的,咱们置信视频利用会继续朝着三个方向演进,更高清、更交互、更沉迷。上面对这三个方面,我别离谈一下咱们在技术上的储备与布局。 更高清首先更高清。大家都经验了从彩色电视,到数字电视,到后边1080P,以及这次北京冬奥会大家都享受到的8K超高清转播,以及8K VR直播,甚至8K更高分辨率的视频。这样对视频编码与传输,始终都是很大的压力,如果压缩跟不上的话,尽管能够用一些伎俩升高画质实现8K的传输,然而这样成果是“高不清”。 火山引擎多媒体实验室团队,始终在继续地摸索极致的视频压缩和图像增强技术,在受限带宽下继续晋升用户的视觉体验。近期火山引擎落地业界首个H.266端云一体视频解决方案,相比目前支流的265编码方案,能节俭30%-50%的码率,在一些利用场景下最高可节俭70%以上码率,能够大大降低超高清视频利用的门槛,减速推动体验降级的过程。除了方才编码效率的优化,咱们对更高清的谋求,不只是压缩效率更高了就是高清,当用户都感觉清晰了那才是高清。到底怎么掂量、反映用户观看视频的感触呢?除了始终致力于建设画质的端到端整体优化计划之外,咱们还在尝试建设一套和用户感官齐全匹配的评估体系,咱们推出的是VQScore画质评估算法体系。咱们能够把它用在很多不具备参考条件的场景下,比方竞品评测、视频品质监控、基于视频品质的举荐,基于人类主观感触的视频端到端优化、低质视频筛查等。而且VQScore画质评估体系曾经在多媒体畛域的世界级会议拿到第一名的好问题。 更交互下一个发展趋势是更交互。在业务倒退中,新的交互方式往往会带来新的商业冲破,技术的优化,能够让更多的互动玩法与商业场景成为可能。这里咱们看两个极致些的例子。第一个是语音沙龙。语音沙龙是今年年初十分火爆的场景。之前因为技术架构的限度,产品不得不把可能上麦的主播数量管制到20-50个,一旦更多就会很凌乱。火山引擎RTC通过订阅逻辑的革新,让产品逻辑更加灵便,单房间最高反对超过千人上麦,成为国内首家可能提供单房间超过千人上麦的音视频服务。第二个例子是VR场景下的千人Livehouse,这对端上渲染能力有很大的要求。因为咱们有了低时延服务端渲染的能力,云渲染的超低延时架构将简单的渲染计算放到云端做,把计算后产生的音视频画面,用RTC传输到本机。无论多简单的计算,本机只须要播放音视频的性能耗费,从而解放终端的性能限度。 更沉迷最初一点,是更沉迷。前边提到更高清与更交互,是达到更沉迷的先决条件。另外还有两个因素,自由度和虚实交融。咱们始终以来大家观看视频的体验,次要是滑动、切换下一个视频或者是拖拽,其实这时候咱们没有太多的自由度,而更多的视频将来要求咱们提供更多的自由度。比方能够通过VR看到更广大的视线,甚至能够通过多机位达到自由度的成果,独特组合成六自由度的XR体验。 我置信很快会有更多杀手级的XR利用呈现,给视频的出现与体验模式带来代际的更新。咱们一直打磨沉迷式视频体验能力,也一直地积淀在云解决方案当中,心愿能和更多业务合作伙伴一起推动行业的改革。比方,方才提到了超过千人连麦,将来通过VR设施和技术,咱们能够实现千人在一个独特的虚构场景中,实现更多样化、更沉迷的社交活动,比方通过本人的Avatar替身聊天、一起刷抖音、看直播、一起玩游戏等,这种利用场景会波及到点播、直播、RTC、边缘渲染、云游戏等多个视频云解决方案的交融。 面向体验,助推超视频时代新增长更高清、更交互、更沉迷是咱们一直的谋求,心愿帮忙合作伙伴引爆一个又一个新的业务增长点。明天,火山引擎视频云公布产品矩阵——为用户体验而生的视频云服务,咱们心愿打造全新的产品服务体系。 产品矩阵整体划分为三层,别离是外围中台、外围产品及解决方案。 底层是咱们的外围中台,是咱们技术能力的积淀,从生产、解决、传输、生产,笼罩视频内容生产全链路。让更多的互动玩法和商业场景成为可能。中间层是咱们的外围产品,蕴含点播、直播、图片解决、实时音视频等。下层是行业全栈解决方案,蕴含泛互联网游戏、在线教育、金融广电等,咱们置信全栈解决方案是驱动更多商业场景落地的要害变量。火山引擎视频云面向体验,助推超视频时代新增长,心愿能够和更多的业务搭档一起摸索下一代互联网新场景,一起发明更多的价值。明天我的分享就到这儿,谢谢大家!

March 3, 2022 · 1 min · jiezi

关于音视频:火山引擎阿里云腾讯云联合发布超低延时直播技术标准

2月25日,在火山引擎举办的视频云科技原力峰会上,火山引擎与阿里云、腾讯云联结公布一项"超低延时直播协定信令规范"。该规范首次正式定义了直播"客户端-服务器"信令交互流程,将传统直播技术3至6秒的延时缩短到1秒,可广泛应用于赛事直播、在线教育、电商直播等对实时性要求较高的场景,为用户带来超低延时、低卡顿、秒开晦涩的直播体验。 图:火山引擎联结阿里云、腾讯云公布超低延时直播信令规范峰会现场,火山引擎视频云工程师示意,受到传输协定等因素限度,传统直播技术存在显著提早。他举例说,用手机看较量直播,常常会突然听到一阵欢呼,左近的电视观众曾经看到进球,本人过会儿能力在手机上看到。即便网速再快,网络直播总是慢半拍。 为了升高直播提早,视频行业近年来开始应用WebRTC(网页即时通信)技术。但因为WebRTC没有定义信令交互流程,不同使用者都有各自一套客户端与服务器的交互逻辑,成果参差不齐,行业不足标准化的解决方案。 基于本身丰盛的技术实际,火山引擎、阿里云、腾讯云单干共建了"超低延时直播协定信令规范",简化信令交互流程,并对WebRTC技术做了大量优化,晋升扩展性、播放秒开率和成功率,包含反对更多的音视频封装、通信协议,反对疾速建设链接升高首帧渲染工夫,以及反对信令平安加强等个性。 数据显示,新的技术标准使大规模散发的直播延时进入1秒大关,最快可达到500毫秒。 超低延时直播不仅仅让用户更早几秒看到现场实况,还能为商业和文化流传带来更多翻新空间。IDC中国钻研经理魏云峰认为,视频正在成为各类商业和社会活动的根底元素,视频直播的实时能力降级,将极大地拓展信息流传的边界。多家云服务厂商单干推出超低延时直播技术标准,无望为各行各业发明新的营销和服务场景。 对此,火山引擎总经理谭待示意,宽泛的商业场景内容正在从图文走向视频。作为字节跳动旗下的企业服务板块,火山引擎在抖音、西瓜视频、飞书等产品的大规模实际中积淀出很多教训,现已通过火山引擎视频云凋谢给客户,包含视频直播、点播、实时音视频、云游戏和云渲染等全链路产品。 凋谢互联是火山引擎云服务的重要倒退理念。此次火山引擎与阿里云、腾讯云的技术单干是共建凋谢的协定规范,任何公司和开发者都能够依照规范接入,独特推动视频技术倒退和利用翻新。

March 1, 2022 · 1 min · jiezi

关于音视频:火山引擎举办视频云科技原力峰会发布面向体验的全新视频云产品矩阵

2月25日,火山引擎主办的视频云科技原力峰会在北京举办。峰会以"乘云·瞰世界""为主题,火山引擎相干负责人分享了对视频体验、交互、增长的察看与思考,并公布面向体验的视频云全新产品矩阵。 全行业视频化 极致视频体验成业务增长要害据IDC公布的《视频云发展趋势洞察》,数字化时代,从商业活动到社会生存,视频数据曾经成为连贯集体、家庭、社区乃至社会的重要纽带。 IDC中国钻研经理魏云峰示意,随同5G、AI、4K/8K等技术的倒退,车联网、物联网、视联网使音视频利用从传统视频场景,逐步扩大至车载视频、智能家居等全新利用场景,全行业视频化的趋势曾经造成。 在此背景下,终端用户对音视频技术的要求进而开始强调高清化、交互式、沉迷式的全方面体验。 对不同行业来说,打造优质的用户体验也因行业属性的差别而有所不同。广电传媒行业的需要更偏差于自动化的内容生产制作,而批发电商行业则更看重视频的晦涩与互动性,能够说,各行各业对视频体验的需要贯通了视频生产制作、视频存储、视频散发甚至是终端/利用视频流化全流程。 <p align=center>图:火山引擎总经理谭待致辞</p> 火山引擎总经理谭待示意,火山引擎通过抖音、西瓜视频、番茄小说、飞书等产品积淀出优良的能力,包含视频点播、视频直播、实时音视频、边缘计算、veImageX等产品,可能满足客户对视频能力建设的要求。 火山引擎视频云蕴含泛互联网、游戏、金融、广电等场景及解决方案,视频点播、veImageX、实时音视频等外围产品,以及传输网络、智能生产、智能解决等中台撑持服务。 除此之外,火山引擎视频云还反对虚构偶像演唱会、数字替身Avatar、一起看抖音等实用功能。虚构偶像演唱会反对与虚构偶像主播进行实时互动,为观众带来跨次元沟通的全新体验;数字替身Avatar反对设置虚拟人形象在社交平台上互动,可升高创作老本,减少内容吸引力;一起看抖音性能反对房间内的所有用户,观看雷同播放进度的抖音短视频,加强房间趣味性,营造陪伴感。这些趣味翻新玩法,都能够在理论利用中为企业的用户增长助力。 设立量化指标,打造面向体验的视频云"面向体验"是火山引擎视频云的一大特色。火山引擎视频云技术负责人示意,要想评估和进步体验,第一步是要可能量化体验,"咱们须要精确的指标作为指北针,精准反映体验优化与业务数据之间的关系,往对的方向优化,能力一直进步体验。" 火山引擎从播放、画质、互动、性能四个维度,量化和评估视频体验。 在播放体验方面,火山引擎视频云将首帧工夫压缩到100ms以下,用户感觉不到首帧存在。且相干技术有着更高的稳定性,解体率升高到了1/100000以下,如果用户每天刷100个短视频,3年能力遇到一次播放器解体。 画质体验方面,火山引擎BVC1编码器相比H265可能节俭50%的码率,在同样的带宽下BVC1编码器的画质更清晰。据悉,在画质上火山引擎投入了很多的研发资源,在视频编解码寰球顶级赛事MSU2020中,火山引擎研发的BVC系列编码器取得17项评分冠军。而为了量化画质,火山引擎自研的VQScore算法,也在ICME 2021 的"压缩UGC视频品质评估"较量中,取得"无参考视频品质评估(NR-VQA)MOS赛道"第一名。 互动体验方面,火山引擎视频星散成了抖音美颜、特效、滤镜利用的最佳实际,让视频生产更简略,让用户互动更乏味。另外,实时音视频服务(RTC技术)反对百万级用户并发,单房间最高反对超过千人上麦,成为国内首家可能提供单房间超过千人上麦的RTC服务。 性能体验方面,火山引擎视频云可针对业务场景提供SDK参数配置、码率配置的最佳实际,极大进步H265的播放占比;其自研的图像编解码算法成果更优,压缩体积相比行业主流产品能再优化10%-20%;同时,高清低码技术使得片源压缩率可达20%-35%,雷同主观成果下,可节俭码率10%-20%。 现场,火山引擎还联结阿里云、腾讯云对直播技术标准进行降级,公布了超低延时直播协定信令规范,将千万级并发场景下的直播延时缩短到1秒内,解决了传统直播3到6秒延时的问题。该技术可广泛应用于赛事直播、在线教育、电商直播等对实时性要求较高的场景,为用户带来超低延时、低卡顿、秒开晦涩的直播体验。火山引擎与阿里云、腾讯云已凋谢了全副的协定交互细节,不便行业平滑降级直播技术标准,共建凋敝的低延时直播生态。

February 28, 2022 · 1 min · jiezi

关于音视频:人人皆可虚拟直播还能这么玩声网推出-MetaLive-元直播解决方案

视频群聊、在线社交、电商带货、游戏竞技.......越来越多的场景融入了直播这一性能。无可非议,直播能够拉近人与世间的间隔,让彼此间的交换更具象。但传统直播场景更为强调主播集体的体现,用户多以围观、刷弹幕、打赏等模式参加到互动中,身临其境感较弱,工夫长了也容易产生“审美疲劳”之感。 想要 dream 一个更为沉迷式、更具临场感的直播互动模式?声网 MetaLive 元直播解决方案,大家想要的这里都有:捏脸换装自定义专属 Avatar,多种形象模式丝滑切换,虚构直播也能够实现“千人千面”;沉迷式 3D 场景,化身游戏中的 Avatar 与主播一起探险,更有精彩剧情、专属道具期待解锁......诸多花式互动玩法助力开发者与企业拓展更为广大的业务增长空间。 01 直播间花式互动,3 种形象模式任意切换,互动 buff 拉满声网 MetaLive 元直播解决方案反对 AR 模式、虚构形象、实在风貌 3 种形象模式,用户能够依据本身须要在相应直播场景中一键切换出镜形象,还反对通过道具打赏的形式扭转主播出镜形象。在 AR 模式下,用户将会以 3D 头像的模式呈现在镜头前,即便左右转头也不会呈现穿帮。在虚构形象模式下,用户能够 DIY 专属 Avatar,蕴含服饰、五官、肤色等元素,且能够抉择任一喜爱的 2D 背景。以上虚构形象均反对用户自定义捏脸换装,且在直播时可能通过摄像头驱动虚构形象的头部管制和面部表情捕获,做到 Avatar 的表情、声音与用户实在状态下实时同步。当然,如果你是“社牛”,无妨以原汁原味的实在风貌呈现与大家互动,纵情散发你的集体魅力。 ■三种形象模式 借助 Avatar 形象,能够无效升高主播对形象和模样的焦虑,在某些特定直播场景中也能够满足主播对于形象外貌隐衷爱护的诉求,加重观众扫视所带来的压力,大胆体现本人,将直播间的气氛衬托起来,特地适宜那些“只想靠才华不想靠脸吃饭”的主播们。比方在电商带货或是内容类直播场景中,长时间繁多的“说教”会让用户视听觉疲劳,那么主播就能够采纳以上提到的 3D 头像的模式呈现,借助用户打赏就能扭转主播形象的性能,还能起到沉闷直播间氛围、减少互动频率的作用。对于视频群聊、1V1 这类偏社交性能的场景来说,首次相识的用户间接关上摄像头互动须要很大的勇气,而虚构形象就像是为“社恐们”量身定制的“专属面具”,不仅能减速破冰,还能加强视频聊天中的趣味性,无效晋升用户粘性及应用时长。 02 3D 超级直播秀,“跑着玩”有剧情的沉迷式直播直播间生动有趣,互动性强、参与感十足能力短暂拴住用户的心。在当下的直播场景中,很多老手主播受制于短少优质的直播内容及临场应变的技巧,开播后往往会陷入不晓得播什么,只能与用户尬聊的地步。声网 MetaLive 元直播解决方案提供了一种翻新的直播模式:3D 超级直播秀,边玩边直播,观众甚至能够退出主播一起摸索新剧情。目前,3D 超级直播秀反对主播模式和跑图模式两种模式,具体在直播场景中: ■3D 场景,“跑着玩”的沉迷式直播 主播化身 Avatar 在 3D 场景内跑地图实现各种特定线索工作,观众不仅能够跟着主播的视角挪动观看实时跑图状况,还能够捏脸生成自定义 Avatar 连麦退出到以后的 3D 场景中,与主播实时互动,一起摸索地图、解锁新的工作线玩法。在主播模式中,主播的面部表情、声音可能做到与 3D 场景中的 Avatar 实时同步,进而与观众们实现更为活泼地交换。此外,观众还能够通过打赏的模式在 3D 场景中减少指定道具,给主播加 buff。比方主播在进行某一限时工作时须要集齐7颗龙珠号召神龙,但跑遍地图的每一角落就是找不到那最初一颗,眼看着工夫就要到了,工作行将 GG,观众动一动手指,千钧一发之际,一颗金灿灿的龙珠从天而降...... 对于主播来说,"跑着玩"的直播模式升高了内容生产的门槛,主播能够分享跑图时的感触、捡到新道具的欣慰、介绍工作线索实现状况等等,齐全不必放心“无话可说”。对于观众来说,这种由“在线”转向“在场”的直播参加模式,让观众可能以第一人称的视角和主播在同一时空实时互动,极大晋升了临场参与感,能无效晋升用户粘性和直播时长。此外,声网 MetaLive 元直播解决方案还能反对开发者和企业依据本身业务需要设计故事线索、场景道具等,助力其打造更富翻新的直播互动营收模式。 ...

February 26, 2022 · 1 min · jiezi

关于音视频:技术干货-WebRTC-ADM-源码流程分析

导读:本文次要基于 WebRTC release-72 源码及云信音视频团队积攒的相干教训而成,次要剖析以下问题: ADM(Audio Device Manager)的架构如何?ADM(Audio Device Manager)的启动流程如何?ADM(Audio Device Manager)的数据流向如何?本文次要是剖析相干的外围流程,以便于大家有需要时,能疾速地定位到相干的模块。 文|陈稳稳 网易云信资深音视频客户端开发工程师 一、ADM 根本架构ADM 的架构剖析WebRTC 中,ADM(Audio Device Manager)的行为由 AudioDeviceModule 来定义,具体由 AudioDeviceModuleImpl 来实现。 从下面的架构图能够看出 AudioDeviceModule 定义了 ADM 相干的所有行为(上图只列出了局部外围,更具体的请参考源码中的残缺定义)。从 AudioDeviceModule 的定义能够看出 AudioDeviceModule 的主要职责如下: 初始化音频播放/采集设施; 启动音频播放/采集设施; 进行音频播放/采集设施; 在音频播放/采集设施工作时,对其进行操作(例如:Mute , Adjust Volume); 平台内置 3A 开关的调整(次要是针对 Android 平台); 获取以后音频播放/采集设施各种与此相关的状态(类图中未齐全体现,详情参考源码) AudioDeviceModule 具体由 AudioDeviceModuleImpl 实现,二者之间还有一个 AudioDeviceModuleForTest,次要是增加了一些测试接口,对本文的剖析无影响,可间接疏忽。AudioDeviceModuleImpl 中有两个十分重要的成员变量,一个是 audio_device_,它的具体类型是 std::unique_ptr,另一个是 audio_device_buffer_,它的具体类型是 AudioDeviceBuffer。 其中 audio_device_ 是 AudioDeviceGeneric 类型,AudioDeviceGeneric 是各个平台具体音频采集和播放设施的一个形象,由它承当 AudioDeviceModuleImpl 对具体设施的操作。波及到具体设施的操作,AudioDeviceModuleImpl 除了做一些状态的判断具体的操作设施工作都由 AudioDeviceGeneric 来实现。AudioDeviceGeneric 的具体实现由各个平台本人实现,例如对于 iOS 平台具体实现是 AudioDeviceIOS,Android 平台具体实现是 AudioDeviceTemplate。至于各个平台的具体实现,有趣味的能够单个剖析。这里说一下最重要的共同点,从各个平台具体实现的定义中能够发现,他们都有一个 audio_device_buffer 成员变量,而这个变量与后面提到的 AudioDeviceModuleImpl 中的另一个重要成员变量 audio_device_buffer_,其实二者是同一个。AudioDeviceModuleImpl 通过 AttachAudioBuffer() 办法,将本人的 audio_device_buffer_ 对象传给具体的平台实现对象。 ...

February 23, 2022 · 3 min · jiezi

关于音视频:LiveVideoStackCon-面向在线教育业务的流媒体分发演进

几年前,很多人对在线网课还十分生疏。随着挪动设施的遍及和音视频技术的倒退,现在在线教育产品百花齐放。而在线教育产品能服务千万学子离不开流媒体散发技术的撑持。本次LiveVideoStackCon2021 音视频技术大会北京站邀请到了网易有道研发工程师周晓天,为咱们分享网易有道在线教育业务的流媒体散发相干内容。文 | 周晓天整顿 | LiveVideoStack 大家好,我来自网易有道精品课研发团队。现在音视频被各界宽泛关注,“直播+”成为一个热点,大厂也纷纷推出了一系列音视频的相干服务。 网易有道是一家以成就学习者“高效学习”为使命的智能学习公司,依靠弱小的互联网AI等技术手段,围绕学习场景,打造了一系列深受用户喜爱的学习产品和服务。除了面向多种场景的在线教育平台,还有有道词典、有道词典笔等当先市场的软硬件学习工具。 其中在线教育业务就是依靠音视频技术的一直成熟应运而生的一项重要业务。 音视频技术内容广、链条长、每个点又会很深。所以明天分享的内容以有道的在线教育业务为主题,聚焦在有道团队流媒体散发服务端的局部。 明天的内容分为三个局部,别离是有道在线教育业务介绍、散发零碎架构的演进和对散发难点的思考与实际。 1.在线教育业务介绍首先通过在线教育直播业务状态了解需要,明确媒体散发服务端要思考什么。 不同班型对应着不同需要。2013年左右最先呈现的是1V1课程、一般小班课。实质上是借助RTC实时通信模式构建的教育产品。起初游戏直播和娱乐直播被大家相熟,而这个阶段被熟知的在线学习的次要模式是视频点播模式,比方网易公开课。随着音视频畛域技术成熟,以及用户对在线教育需要的降级,直播网课迅速倒退。直播课大概呈现在2014年,在疫情后失去了空前的关注。 传统大班直播课是老师的单向推流,在互动大班课中,学生能够和老师进一步互动,取得更好的上课体验。学生连麦、屏幕/白板、老师视频和互动音讯形成一节课的次要内容。 互动小班进一步优化产品的互动性,晋升学员课堂参与感、学习体验与学习效果。音视频+H5互动组件+灵便的布局需要也带来额定复杂性。 面向业务设计服务,须要了解不同业务的差别再去采取相应的技术。这里提供一种思考的形式:以互动大班课为例,一个老师和一个学生正在连麦,再将连麦的过程分发给其余学生。对于流媒体散发,右侧列出一些思考的因素:须要什么水平的提早和流畅性?多大的规模?须要多高的媒体品质?以后业务线对计划老本的敏感度? 进一步能够用这种形式横向比照不同课程状态,通过它们的区别取得更精密的需要。 比方,比照大班直播课和互动大班课:对于规模为M的会话,大班直播课要把一个人的信息分发给M-1集体,这能够通过基于CDN的视频直播形式做到。如果进一步想要给产品增减少连麦互动性,成为互动大班课。连麦的减少会让简化模型变为两个局部,如何在一个教室内同时满足这两个需要?最简略的思路是在原有CDN散发的根底上,让连麦内容通过RTC形式替换,再将它们的信息通过原有CDN零碎散发,但这么做会带来内容提早和用户切换提早等问题。 比照互动大班和(线上、线下)双师班级,尽管模型相似,但具体到场景中双师班级中的一个“学生端”可能对应一个线下教室的全体学生,这会减少单路散发异样的代价,这样的差别也就要求零碎能对不同场景配置不同策略。 除了在线教育,横向比照的思路同样能够用来剖析其余场景的业务线,例如一般小班和游戏开黑。开黑看似和只发送语音的一般小班课程相似,然而在性能和网络占用方面要求更严格。在尽量不占用游戏带宽的同时,还须要尽量减少CPU的操作,为游戏提供短缺的算力。如果间接用小班课程的RTC接口用于游戏,保障通话质量的同时反而会影响游戏。如果冀望应用一套零碎反对多种业务,那么在零碎设计晚期就要明确业务差别和设计需要。 通过以上的剖析,能够列出了在线教育业务对媒体散发零碎的一些次要需要点。第一要满足散发低提早、上麦低提早。第二点要做大规模散发。绝对一些娱乐场景,要做到高稳固以及高可用。第四点要对老本进行管制。最初,不同学生、不同教室对于上课场景的需要是不同的,所以肯定要反对多端接入。 2.散发架构的演进 当多个业务线同时铺开的过程中,从1v1到小班、到大班直播、再到互动大班以及互动小班等课程,这会影响散发零碎的演进过程。一种思路是随着业务的演变,散发架构逐步简单,一直反对越来越多的个性。有道并没有采纳该思路,而是经验了从基于CDN的散发,到全副业务应用实时通信网络(RTN)的切换,没有架构上的两头过渡状态。 上面咱们简略回顾一些散发架构作为遍及内容。 基于CDN网络的直播内容散发的树状架构非常清晰,架构自身决定数据的路由,同时易于保护、危险和老本可控。当一个用户选定一个边缘接入,媒体数据的散发路由就曾经布局好了。同时它有本身的毛病,比方:只反对单向散发、协定带来的固定提早等。 晚期通过CDN模式部署的直播为了减少互动性和升高提早,在CDN架构的根底上做了两个优化。一方面在边缘拉流节点反对RTC的形式接入(图中也写为RTN边缘节点),从而屏蔽掉媒体封装协定带来的提早、减少IM互动成果,同时还能减少弱网抗性。另一方面为了进一步减少互动性,减少了RTC旁路零碎以反对双向连麦,再将连麦内容转推到CDN网络中实现直播。一些“低延时CDN直播”产品就采纳这样的原理。 刚刚提到用于连麦的旁路RTC零碎须要转推内容到CDN散发网络,那是否能让这个零碎把CDN大规模散发的工作也一起做了呢?于是就有了纯RTN的架构。该架构不再有显明的树状散发构造,而是用一个网状拓扑散发所有内容。任意单向拉流客户端能够随时切换为双向通信,不须要先做零碎的切换。 通过上述的剖析,咱们能够大抵总结出业内直播流媒体散发演进的方向——音视频直播CDN和RTC网络边界含糊,逐渐融为一体。直播CDN厂商逐步从单向大规模散发反对低提早接入、连麦。之前的RTC产品,从面向小型会议的架构逐渐为了可能同时服务千人、万人,也开始将散发网络变简单。所以当初咱们能看到网易的WE-CAN分布式传输网、阿里云GRTN 流媒体总线、以及其它“X-RTN”都是该演进过程的后果。 刚刚提到的架构次要是ToB厂商的产品,在ToC服务的场景中也会有如上图所示的架构,通过一个媒体服务器交融两个散发网络提供服务,特地是对于同时有自研和三方接入时。该构造在带来新的非性能个性的同时,也有很大的危险。有道没有抉择应用相似的架构进行适度,而是间接用RTN散发网络对原有性能进行代替。 该架构能满足多种场景的需要,也反对多种推拉流客户端接入。例如当同学上公开课时,通过微信小程序或者浏览器间接看是最为便捷的。曾经应用课程APP、曾经加入系列课程的用户,应用APP接入以取得最优体验。 相比CDN架构本身的拓扑构造决定了数据散发路由,RTN网状拓扑在带来灵活性的同时也减少复杂性。比方路由无奈从拓扑间接获取,而是须要一个额定的调度核心去计算、布局路由,实现对应转发资源的调度,这也凸显了RTN架构下调度核心的重要性。 图中也有一个CDN旁路的局部,他的次要作用是做一些突发接入量过大的课程的负载平衡,减少零碎的弹性。 有道在设计网络节点拓扑的时候更偏差于灵活性。一方面,散发节点没有分层、分级,采纳扁平拓扑。另一方面,通过配置不同的属性、角色能够实现对网络散发个性的扭转。 3.散发难点思考与实际 对于流媒体散发零碎有以下四个要点——接入问题、网络连通性、路由建设以及转发。除此之外还想分享一下对于分层设计和通道的概念。 解决接入问题的核心理念是“就近”接入——网络品质最好的接入为“最近”的接入。(不同类型的业务可能会有不同思路:有道的教学场景中力求现有每个用户体验尽可能最优,相似于贪婪算法;但在别的业务中,思路可能会是在达到QoS最低限度的状况下抉择全局老本最优的接入、路由形式)最直观的办法是应用基于IP、地位的接入举荐。进一步利用对不同网关网络探测、连贯历史数据优化举荐的后果。除了利用线上、线下数据统计取得的先验的常识进行接入举荐,思考到这样的办法无奈涵盖所有非凡形况,有道还引入人工配置的反对。反对手工热配对局部ToC场景十分无效 右下角是一个大班课老师上行丢包率打点图,能够看到存在有法则的、均匀在9%左右的丢包。该老师长期在固定地点应用固定设备进行直播,而且晚期还有技术支持同学进行过网络查看,网络始终很好。依照之前的算法,他的地位没有变、网络没有变,应用的举荐数据库也变动不大,所以依据算法每次会给出雷同的举荐后果。忽然呈现的有法则丢包揣测是流量行为被运营商辨认、分类,并对其进行了策略限度。 面对这种状况,批改算法是行不通的。通过有道热配置的形式,在发现问题进行上报的同时就能够人工批改配置,下一次老师接入会避开对应接入节点,解决丢包问题。 咱们通过“过滤器”机制实现该操作:如果所有可接入节点形成一个池子,那么最终“过滤”出的后果形成举荐给客户端进行接入的列表。所以把过滤规定的计算过程作为算法写入零碎,将算法执行要应用的参数作为能够热更新的数据写在数据库来实现。 接入只解决了散发网络的入口问题,那么散发网络到底是怎么的拓扑状态呢?这就波及到网络节点的连通性设计问题。有道的网络是一个扁平的拓扑,每个机房都是拓扑中扁平的点。实践上能够给所有节点之间都建设连贯,成为一个mesh网络,那么这样的网络将会无比灵便,任意一条通路都能够被布局进去,齐全依赖算法进行理论路由的抉择。有道并没有采纳这样的形式。 咱们还是引入了一些人工教训,比方依据教训将一些机房的连通性删除,成为非Full mesh的构造。能够认为是借助人工的形式进行了剪枝、组织。除了连通性,在路由计算时还须要解决权重的获取问题,也就须要对节点连贯状况差别进行量化形容。这种量化是基于规律性的QoS探测实现的,相似后面接入抉择的问题,算法可能没法精密地满足所有case或者一些非凡状况,那么在量化差别外,咱们也通过可配置的属性形容定性的差别来减少拓扑的灵活性。 之所以这样进步灵活性、反对人工配置,是为了能满足不同业务的差异化需要。同时也有代价,就是复杂性的进步。所以或者没有最好的架构,只有更适合的架构。 在确定了接入地位(明确了散发的终点和起点)、建设了散发网络的连通性后,要解决的就是路由布局或者说调度问题。这里能够为大家分享的实际和思考有三点:一条路由的布局、多路径还有老本管制。布局单条路由是实现数据散发的根底,咱们依据动静探测、刷新的网络QoS量化品质和基于以后节点情况、节点配置共同完成路由权重的计算。有了无向带权图、有了起点和终点,就能够计布局一条最短散发路由。 解决了接入问题,又实现散发网络连通性定义,当初解决了媒体数据散发路由的布局,看似就能够实现散发工作了。但对于有道的业务要求这还不够,想进一步保障用户体验就须要晋升散发网络对抖动、丢包的抗性。多路径散发是一种保障形式。有道散发网络有三种门路——次要门路、备选门路、实时门路。次要门路间接用于业务散发;备选门路是次要门路的备份,在布局次要门路时生成,当次要门路异样时切换。实时门路是在次要门路之外额定建设的多路冗余散发门路,以提供更加弱小的散发抖动、丢包抗性,这对一些重点工作、大规模散发工作有很高价值。 以图上橙色线路为例。边缘是挪动、联通和电信三个复线机房,除了主门路之外,能够在两个边缘的联通运营商之间建设实时门路,在实现实时备份的状况下升高备份线路老本。 控制中心实现数据散发门路的布局后,就须要沿途节点执行转发工作。这波及到高性能流媒体散发服务器的设计。上图显示了有道的转发服务器线程模型。协定、端口对应不同的线程,从而在无限端口状况下尽可能利用多核资源。 除了每个协定-端口对会绑定一个IO线程,还有一个core线程,实现来自不同接入的数据包路由。比方一个推流用户从协定A端口A1接入(如应用UDP,从3000端口推流),同会话另一个拉流用户采纳协定B端口B1接入(如应用TCP,从4000端口拉流),这两个用户依据IO线程模型不可能调配到同一个线程,所以须要进行跨线程数据转发。此时core线程会依据会话公布订阅的关系,将接管队列的内容向对应IO线程的队列进行转发。 该线程模型的设计和业务类型、比例也是相干的。过后零碎负载以大班课为主,即推流人数大大小于拉流人数。如果业务类型发生变化,例如班型越来越小、课程每个成员都进行推流,而服务器总用户量如果不变,这会让core线程的转发负载绝对大班课大大增加。这也是小班课业务带来的一项挑战,须要架构能随业务变动灵便应答。 除了下面四个关键问题外,借本次机会想额定分享、探讨两个细节:分层设计和通道的概念。 ...

February 17, 2022 · 1 min · jiezi

关于音视频:火山引擎科技原力峰会超视频时代如何提供交互性高清化音视频体验

随着科技的飞速后退,超视频时代步调渐近。咱们逐步发现,用户对音视频的期待从“看什么”进化成为“怎么看”,视频云技术逐步成为掂量视听体验的要害变量。 如何解锁沉迷式、交互性、高清化的用户体验?随着5G、AI、挪动互联网的倒退,更多内容与产业转向视频化场景,点播、直播以及实时通信等次要视频业务,正逐渐兼具娱乐、社交、文化流传、商业化等多属性。 视频云技术已利用到生存的方方面面,在线课堂、视频会议、直播购物、视频聊天……从社交、游戏、电商,到教育、商业、金融、传媒,越来越多的产品与服务与视频云相连接,组合成日益宏大的利用图景。 然而,宽泛的利用背地仍然有待进化的用户体验痛点,如播放过程存在直播音画不同步、加载速度过慢、视频画质模糊不清等多种问题。随着技术的一直深入,用户不再仅仅停留于防止卡顿、含糊等根本需要,而是心愿失去更为沉迷式、交互性与高清化的极致视频体验。 超视频时代的“新认识”,一起“乘云 · 瞰世界”2月25日,火山引擎视频云科技原力峰会将在北京举办。 一方面,本次峰会聚焦视频云行业进化及需要变动,火山引擎将首次零碎分享行业视频化趋势以及外围场景的察看与思考,并正式公布面向体验的视频云全新产品矩阵,联合热门行业顶尖案例实际方法论,与行业搭档共探超视频时代视频云商业场景的将来增长方向。 另一方面,火山引擎将在本次峰会上展现最新视频云产品矩阵动静,着重分享“播放体验、互动体验、画质体验、性能体验”四大方向,解锁超视频时代的“新认识”。并从目前大热利用行业登程,透传性能迭代与亮点,帮忙企业疾速响应市场变动,为用户提供更好的体验。 此外, 火山引擎 视频云 将联结阿里云、腾讯云公布低提早直播 信令 规范,并与国内权威市场钻研机构 IDC 独特公布视频云白皮书,从行业标准与市场剖析两大维度,与各方搭档摸索视频云技术新价值,一起乘云·瞰世界。 当初,扫描下文二维码,即可预约报名,有机会亲临现场,与行业嘉宾共探视频云行业新将来,一起解锁云上视界的新认识。

February 16, 2022 · 1 min · jiezi

关于音视频:声网AI降噪测评系统初探

作者:孟赛斯前言音频品质的优化是一个简单的系统工程,而降噪是这个系统工程中的一个重要环节,传统的降噪技术通过几十年的倒退曾经陷入了瓶颈期,尤其是对非安稳噪声的克制越来越不能满足新场景的需要。而近几年以机器学习/深度学习为代表的AI技术的崛起,为非凡场景下的音频降噪带来了新的解决方案。声网Agora 随同着在线音视频直播服务的倒退逐步造成了本人的积淀,本文是声网Agora 音频技术团队出品的非凡场景下的音频测评系列文章──AI降噪篇。因为业界对于音频的评估规范尚存在不同的意见,因而声网Agora 的实际更并重从有参到无参的工程化落地,在此抛砖引玉、恳请业界同仁多加批评指正。 背景介绍作为开发者,咱们心愿为用户提供高清晰度和晦涩度、高保真音质的实时互动体验,但因为噪声无时无刻的存在,使得人们在通话中受到烦扰。不同场合领有的噪声也是不同的,噪声能够是安稳的也能够是非安稳或者瞬态的,安稳的噪声是不随工夫的变动而变动,比方白噪声;非安稳的噪声随着工夫的变动而变动,比方人说话声、马路噪声等等,瞬态噪声能够归为非安稳噪声,它是持续时间较短的、间歇性噪声,比方敲键盘声、敲桌子、关门等等。在理论互动场景中,当单方应用挪动设施通话时,一方处于饭店、吵闹的街道、地铁或者机场等嘈杂的环境中,另一方就会接管到大量含有噪声的语音信号,当噪声过大时,通话单方无奈听分明对方讲话内容,容易产生焦躁的负面情绪,影响最终用户体验。因而,为了减小噪声对语音信号的烦扰,进步用户通话的愉悦水平,咱们往往会做Noise suppression(NS,噪声克制)解决,目标是从带噪语音信号中滤除掉噪声信号,最大水平的保留语音信号,使得通话单方听到的语音都不受噪声的烦扰,一个现实的NS技术是要在去除噪声的同时保留语音的清晰度、可懂度和舒适度。 降噪的钻研最早开始于上个世纪60年代,通过了几十年的倒退,曾经获得了微小的提高,咱们把降噪算法大抵的分为以下几类。 (1)子空间办法,其根本思维是将含噪语音信号映射到信号子空间和噪声子空间,污浊语音信号能够通过打消噪声子空间成分和保留信号子空间成分的形式进行预计; (2)短时谱减法,该办法假如噪声信号是安稳的且变动迟缓,应用带噪信号的频谱减去预计出的噪声信号的频谱,从而失去降噪后的语音信号;(3)维纳滤波器,算法的基本原理是依据最小均方误差准则,用维纳滤波器预计语音信号,而后从带噪信号中提取出语音信号; (4)基于听觉掩蔽效应的办法,该办法模仿人耳的感知个性,对某一时刻某一频率确定一个人耳可感触到噪声能量的最低阈值进行计算,通过将噪声能量管制在该阈值以下,从而达到最大限度的掩蔽残留噪声和避免语音失真的目标; (5)基于噪声预计的办法,该办法个别是基于噪声和语音个性的不同,通过VAD(Voice Activity Detection,语音端点检测)或语音存在概率对噪声成分和语音成分进行辨别,但当噪声与语音个性相似时,此算法往往不能精确辨别含噪语音中语音和噪声的成分; (6)AI降噪, AI降噪技术能肯定水平上解决传统降噪技术存在的问题,比方在一些瞬态噪声(持续时间短、能量高的噪声,如关门声,敲击声等等)和一些非安稳噪声(随工夫变动快,随机稳定不可预测,如吵闹的街道)的解决上,AI降噪的劣势更显著。 无论是传统NS技术还是AI NS技术,咱们在产品上线时都须要思考包体积和算力影响,以便使用于挪动端和loT设施,即要在保障模型是轻量级的根底上还要最大水平地保障NS性能,这也是理论产品上线最具挑战的中央之一,其中,模型的量级在上线后曾经能够失去保障,那么NS的性能是否可能达标呢?这里咱们把重点放在如何评估NS的性能上,针对NS的调参、NS的重构、新NS算法的提出、不同NS性能的比照,咱们如何站在用户体验角度去评估NS技术的性能呢? 首先,咱们把测评NS的办法分类为主观测试方法和主观测试方法,其中主观测试又分为侵入式(Intrusive)和非侵入式(Non-intrusive),或者叫做有参的和无参的,上面解释一下其含意和优缺点。 形式含意优缺点主观测试主观评估办法以人为主体在某种预设准则的根底上对语音的品质作出主观的等级意见或者作出某种比拟后果,它反映听评者对语音品质好坏的主观印象。个别的,采纳相对等级评估(Absolute Category Rating, ACR),次要是通过均匀意见分(MOS)对音质进行主观评估。这种状况下没有参考语音,听音人只听失真语音,而后对该语音作出1~5分的评估。长处:间接反映用户体验;毛病:人力老本高,测试周期长,可重复性差,受个体主观差别影响。主观测试Intrusive:依附参考语音和测试语音之间某种模式的间隔特色来预测主观均匀得分(MOS)分。如大部分文献及Paper中测评本身NS算法都是利用PESQ、信噪比、分段信噪比、板仓间隔等等。长处:可批量自动化测试,节约人力老本和工夫老本;毛病:(1)不能齐全等同于用户主观体验;(2)大部分主观指标只反对16k采样率;(3)要求参考信号与测试信号之间必须按帧对齐,而实时RTC音频不免受到网络的影响而导致数据无奈按帧对齐,间接影响主观指标的准确性。Non-intrusive:仅根据测试语音自身来预测语音的品质。长处:无需原始参考信号间接预测语音品质,可实时测评RTC音频品质毛病:技术要求高,模型建设有肯定的难度 咱们认为主观测试能够间接反映用户体验,而主观测试后果和主观测试后果统一,则能够证实主观测试的正确性,此时,主观测试也可反映用户体验。上面咱们看看声网是如何评估NS的性能的。 声网NS测评咱们正在搭建一套全方位的、牢靠的、可长期依赖的NS测评零碎,咱们置信它能够应答将来任何带噪场景(目前可笼罩超过70种噪声类型)和任何NS技术,并且咱们不指定特定的测试语料、采样率和无效频谱,任何人的谈话内容都能够作为被测对象。以这个目标作为出发点,咱们对现有的NS测评技术进行了验证,发现它们并不可能笼罩咱们的所有通话场景、也不能齐全笼罩咱们测试的噪声类型、更不能代表主观感触。因而,咱们拟合了新的全参考NS指标,同时用深度学习的算法去做无参考的模型,两种计划同时进行。上面简略论述一下现有的NS测评指标、咱们的验证办法、以及咱们如何去做全参考和无参考的NS测评模型。 1.现有的NS测评指标:通过调研大量文献、权威性Paper和一些开源网站如https://github.com/schmiph2/pysepm,并依据咱们理论的场景需要,咱们开发了一个用于测评NS的主观指标库,其中蕴含像常见的PESQ、语音分段信噪比SegSNR、短时可懂度STOI等,以及参考语音和测试语音之间某种模式的间隔特色,如倒谱间隔(Cepstrum Distance, CD)能反映非线形失真对音质的影响、对数谱间隔(Log Spectral Distance,LSD)用于刻画两个频谱之间的间隔度量、NCM (Normalized Covariance Measure)评估办法是计算污浊语音信号与含噪语音在频域内的包络信号之间的协方差。综合测度Csig、Cbak、Covl别离示意predicted rating [1-5] of speech distortion、predicted rating [1-5] of noise distortion、predicted rating [1-5] of overall quality,是通过联合多个主观测度值造成综合测度,应用综合测度的起因是,不同的主观测度捕获失真信号的不同特色,因而采纳线性或者非线形的形式组合这些测度值可能显著改善相关性。 每个指标对应着NS前后音频的某些特色的变动,每个指标从不同的角度去掂量NS的性能。咱们不禁有个疑难?这些指标是不是能与主观感触画上等号?除了算法上有合理性,咱们怎么确保它跟主观的统一?是不是这些主观指标没问题了,主观测进去就不会有问题?咱们怎么确保这些指标的覆盖性? 2.咱们的验证办法:为了验证咱们建设的主观指标库的准确性及与主观体验的相关性,咱们做了基于众包的主观音频测试,并开发了一款专门用于众包主观标注的APP,整个流程咱们遵循了P808,P835以及借鉴NS挑战赛,对测试数据、时长、环境、设施、测试人员等等都做出了要求。咱们次要关注三个维度,人声清晰度SMOS,噪声舒适度NMOS,整体品质GMOS,范畴都是1~5分,上面给出对应的MOS评分相干形容和APP页面设计。 那么主观标注的后果与之前咱们提到的主观指标库中的指标之间有多大的相关性呢?咱们对主观指标库中所有主观指标进行了统计,这里咱们只给出PESQ与主观标注的PLCC(Pearson linear correlation coefficient): PLCCPESQ主观SMOS0.68主观NMOS0.81主观GMOS0.79这里的主观SMOS、NMOS、GMOS是由200条数据/每条数据32人标注的均值计算得出。 3.如何去做全参考和无参考的NS测评模型:随着主观标注数据量的累积,咱们发现现有的指标精度不足以笼罩咱们的所有场景、噪声类型、更不能代表主观感触。因而咱们拟合了新的综合测度MOS分,用于测评NS的性能。 咱们的计划一是全参考模型,即以主观指标库中的指标作为特色输出,众包标注的后果当作标签训练三个模型,三个模型的输入别离是掂量语音、噪声、整体的分值。 以下是由800条数据组成的数据集,随机抽取70%的数据作为训练集,30%的数据作为测试集;模型选取GBDT(Gradient Boosting Decision Tree)对GMOS的训练和测试状况,下图上半局部是训练集的real GMOS和训练好模型后模型预测训练集的predicted GMOS,下半局部是测试集的real GMOS和训练好模型后模型预测测试集的predicted GMOS,其中测试集的real GMOS和predicted GMOS之间的PLCC可达0.945,SROCC(Spearman rank-order correlation coefficient)可达0.936,RMSE(Root Mean Square Error)为0.26. ...

February 10, 2022 · 1 min · jiezi

关于音视频:音视频技术带你抓住IT人新风口

疫情让音视频技术变得更重要,但机会是留给那些有筹备的人的。 Ⅰ.站在音视频行业风口“站在风口,猪也能飞”。在曾经到来的2022年,音视频行业仍旧是怎么也绕不过来的风口。 一方面,随着各项5G政策的落实,音视频+5G风口,将会深刻开掘音视频产业的有限后劲,减速与云计算、人工智能等畛域的深度交融,一直催生新的业态和新的商业模式。 另一方面,实时音频也在助力在线教育风口,因为疫情,让越来越多的学生、家长、教育者都意识到了在线教育的重要性。音视频技术,无疑是在线教育背地一只弱小的推手。 Ⅱ.提前储备高薪技术力面对音视频风口的重锤出击,你还不理解什么是音视频技术?让咱们一探到底。 四类音视频技术:1、音视频高性能编解码和封装技术(监控相机)2、音视频直播的推流拉流技术(直播技术,5G利用)3、音视频渲染和界面交互技术(短视频)4、各类智能设施的音视频解决(智能硬件,无人机) 学习音视频技术的劣势: [岗位多工资高]:音视频技术广泛应用于视频解决播放、直播、无人机、安防、智能机器人。 Ⅲ.如何把握“音视频”风口一名合格的音视频开发人员,须要把握哪些技能呢?音视频技术该怎么学? 上面是集体整顿的对于音视频开发学习的技术知识点,置信有了这些之后你能更好的把握音视频开发。 音视频系列教学视频24节课五个我的项目实战,别离是:Android音视频编解码我的项目实战、泛娱乐直播系统分析与推流实战、、斗鱼直播我的项目实战、OpenGL ES手写美颜相机APP我的项目实战、穿插编译与CameraX我的项目实战。 《Android音视频开发进阶指南》这份《Android音视频开发入门进阶外围笔记》是博主有幸在杭州某大厂任职时的外部培训文档,在外部论坛播种统一好评。以下是这份开发文档的局部章节: 第1章Android音视频硬解码篇 音视频基础知识音视频硬解码流程:封装根底解码框架音视频播放:音视频同步音视频解封和封装:生成一个MP4 第2章应用OpenGL渲染视频画面篇 初步理解OpenGL ES应用OpenGL渲染视频画面OpenGL渲染多视频,实现画中画深刻理解OpenGL之EGLOpenGL FBO数据缓冲区Android音视频硬编码:生成一个MP4 第3章Android FFmpeg音视频解码篇 1.FFmpeg so库编译2.Android 引入FFmpeg3.Android FFmpeg视频解码播放4.Android FFmpeg +OpenSL ES音频解码播放5.Android FFmpeg +OpenGL ES播放视频6.FFmpeg简略合成MP4:视屏解封与从新封装7.Android FFmpeg 视频编码 第4章直播零碎聊天技术 1.百万在线的美拍直播弹幕零碎的实时推送技术实际之路 2.阿里电商IM音讯平台,在群聊、直播场景下的技术实际 3.微信直播聊天室单房间1500万在线的音讯架构演进之路 4.百度直播的海量用户实时音讯零碎架构演进实际 5.微信小游戏直播在Android端的跨过程渲染推流实际 第5章某里IM技术分享 1.企业级IM王者——钉钉在后端袈构上的过人之处 2.闲鱼IM基于Flutter的挪动端跨端革新实际 3.某鱼亿级IM音讯零碎的架构演进之路 4.闲鱼亿级IM音讯零碎的牢靠投递优化实际 须要完整版《2022年Android音视频开发入门进阶外围笔记》的敌人请点击我的GitHub

February 9, 2022 · 1 min · jiezi

关于音视频:优酷下载的kux格式转mp4

最近婚礼现场拍了视频,婚庆公司上传到优酷让自行观看,好吧。装置客户端就不说了,下载下来竟然是kux的加密格局,这种格局的视频文件只能用优酷客户端播放。网上很多转换网站,根本都用不了。还有些办法是在客户端下载前勾选和设置下载主动解码,这个性能新版客户端间接给屏蔽了!找了半天,原来优酷自带了FFMPEG解码器,ffmpeg.exe在目录"C:\Program Files (x86)\YouKu\YoukuClient\nplayer"下。进入该文件夹,shift+右键,在以后门路关上cmd。输出 .\ffmpeg.exe -y -i "D:\测试.kux" -c:v copy -c:a copy -threads 2 "D:\测试.mp4"即可将kux转为mp4格局。VLC试了下能够失常播放。 这些视频网站,在通用的音视频格局夹带各种私货,人为造成麻烦。这种行为切实是太无耻了。

January 25, 2022 · 1 min · jiezi

关于音视频:云信小课堂|如何实现音视频安全检测

泛娱乐类音视频聊天场景中,充斥着各种不可控的危险因素,例如色情、暴恐和涉政信息等。随着国家监管的日趋严格,各平台须要对平台的音视频内容进行管控,自行处理音视频内容审核须要投入大量人力进行甄别。 交融通信云专家网易云信交融网易易盾的内容审核能力,为开发者提供实时音视频 「平安通」 (内容平安审核)服务,对音视频内容进行无效的判断和筛选,升高人力投入。 本次云信小课堂,咱们为大家带来实时音视频「平安通」的疾速接入指南。 性能解析实时音视频「平安通」(内容平安审核)服务(以下简称「平安通」),是基于实时音视频通话的内容审核及解决性能。咱们默认开发者曾经实现了根底的音视频通话性能(如您还未开始集成,可参考往期《云信小课堂|如何实现音视频通话》)。 「平安通」的根底性能蕴含: 创立「平安通」审核工作查问审核视频截图查问审核音频断句进行「平安通」审核工作接管平安审核后果解决平安审核后果基于实时音视频通话内容,实现全流程的“审-查-禁”服务性能。 性能实现以下内容为大家介绍如何基于网易云信音视频通话 2.0 SDK 及平安通 API 疾速实现音视频通话平安检测性能,根本步骤如下: Step 1 开始筹备1、登录云信控制台创立利用并申请开明音视频 2.0 及「平安通」相干服务。具体操作步骤可参考: 《音视频 2.0 接入流程》: https://doc.yunxin.163.com/do...  《开明「平安通」服务》: https://doc.yunxin.163.com/do... 2、筹备接管音讯抄送的服务器公网地址。审核后果会以音讯抄送的形式发送至您预留的抄送地址,请在开明服务前筹备抄送地址,并保障抄送地址长期有效。配置形式如下图所示: 3、筹备音视频通话开发环境,平安通服务反对音视频 2.0 全终端接入检测,无论您应用的是什么平台,接入流程统一。 4、配置内容检测相干规定,在「平安通」性能页面,进入策略配置页面。在此您能够配置您心愿的平安检测策略。 Step 2 创立音视频通话创立房间(可选) 通过服务端 API 进行音视频通话房间创立 https://doc.yunxin.163.com/do... 传入指定的房间名及用户 id 。在此测试时,咱们定义房间名为 neteasetest ,用户 id 为 12345 。 curl --location --request POST 'https://logic-dev.netease.im/v2/api/room' --header 'AppKey: ***' \ //请应用您利用的appkey--header 'Nonce: ***' \ //随机数,最大长度为 128 个字符。--header 'CurTime: 1639555317' \ //以后 Unix 工夫戳,即从 1970 年 1 月 1 日 0 点 0 分 0 秒开始到当初的秒数。数据类型为 String。--header 'CheckSum: ba193e4d4ba3991987eb72afe692095598552b79' \ //计算形式详见:https://doc.yunxin.163.com/docs/jcyOTA0ODM/TA5MjEzNTM?platformId=50326--header 'Content-Type: application/json' --data-raw '{ "channelName": "neteasetest", "mode": 2, "uid": 12345}'获取对应的申请返回后果: ...

January 21, 2022 · 3 min · jiezi