音视频拼接

关于音视频拼接:视频投屏需要满足什么条件

随着网络在一直倒退当前，在网络让咱们可能学习到很多的货色，甚至在网络上可能解决咱们本人的无聊工夫，当初娱乐类型的视频品种也越来越多了，除了看电视电影以外，那么当初一般的一些视频可能成为了公众特地受欢迎的对象，其实咱们要晓得在平时看视频的过程中，可能大部分的人都次要是通过手机，而手机的屏幕又比拟小，那么当咱们在看那些刺激类型的视频的时候，可能就并不是那么的容易失去满足，毕竟要想有身临其境的感觉，对于屏幕的要求还是比拟高的，乐播投屏无论是对于画面感还是对于网络这些都须要语音俱全才可能让本人看得更爽，视频投屏是当初很多年轻人都比拟喜爱的一种形式，因为能够通过这种形式能够让咱们在看视频的过程中可能变得更加释怀，也能够让咱们在观看的过程中可能失去更好的满足感，所以说咱们在看视频的时候，如果通过这些简略的形式，能够让咱们有一种身临其境的感觉。当初很多的视频在制作过程当中它的画面感都是相当不错的，除了视频的画质比拟清晰以外，那么对于它的一个平面的成果也十分的不错，如果咱们想要在看视频的过程中有一种很好的感觉，其实咱们也齐全能够通过3D画面感的形式可能让咱们间接的走入到视频当中，能够让咱们本人可能有一种身临其境的感觉，这样看视频对咱们本人来说是有着很大帮忙的视频投屏须要满足些什么条件，如果是想要投屏到电视上或者是电脑上，那么首先咱们须要在本人的手机上或者是在本人想要的设施上下载一个无关的APP，可能间接通过软件来进行投屏。不同的软件作用与性能是不同的，咱们在抉择一个软件的时候，肯定要提前去理解一下软件的作用以及软件的正确操作形式，这样才可能让咱们在应用的过程中变得更加不便，那么想要具体理解视频投屏须要满足些什么条件的话，对于大部分的年轻人说想要理解分明这方面的问题其实并不艰难，很多时候咱们都须要具备肯定的条件，也就是咱们在抉择这些方面来进行投屏的时候，肯定要懂得下载一些相干的软件和软件，可能把它的性能更好的利用起来，能够让咱们在投屏这一方面可能更加专业化。乐播投屏视频投大屏能够让咱们在看的过程当中变得更加的不便以及可能失去更好的满足，因为咱们都晓得如果想要可能真正的去投屏的话，那么首先咱们在本人的社会上下载一些相干的软件，可能通过软件间接的去进行连贯或者间接的靠近投屏，这样成果会更加的显著一些，而且在观看的过程中成果也是十分不错的，所以从肯定水平上来讲，如果咱们想要把它更好的利用起来，很多时候思考到更多细节进去也是十分有必要的，毕竟咱们在抉择的过程当中可能理解到它的作用与性能，以及理解到它可能给咱们带来的益处，这才是最重要的一点。

关于音视频拼接:网易云信流媒体首席架构师新一代音视频技术架构如何构建

前言5G 与 AI 时代已来，音视频技术继续迭代降级，网易云信推出了全新一代音视频技术架构。新一代音视频架构有哪些核心技术？各技术在线上场景又有哪些落地实际计划？网易翻新企业大会公布了新一代音视频技术架构，进行了全流程的技术升级，包含新一代音视频交融通信服务端零碎、新一代音视频 SDK 以及新一代音视频引擎。本文整顿自网易云信流媒体首席架构师、多媒体开发专家吴桐的大会现场实录。本次分享将从以下几个方面开展: 音视频发展趋势；新一代音视频架构降级；新一代音视频核心技术；新一代音视频场景落地；总结与瞻望；2020 音视频发展趋势2020 年注定是不平庸的一年，从年初疫情就曾经感触到这个变动，明天可能到场和大家面对面交换也是很不容易的。看到海内人民当初还在生灵涂炭中，咱们要感激祖国的弱小。往年新冠疫情的突发，也让音视频业务失去一个井喷式的倒退，特地是在家办公期间，视频会议成为每个人的刚需，也造就了用户应用视频会议的习惯。当然除了疫情以外，5G 的到来以及其大带宽、低延时、海量连贯等特点也进一步丰盛了音视频的利用场景，不仅在传统的视频会议、娱乐社交、在线教育、金融和 IoT 等场景下持续蓬勃发展，还带动了云面试、云相亲、云游戏等新兴畛域。当然，各场景对音视频体验也提出更多差异化的要求：更低的提早、更高的并发等。视频会议、在线教育和云游戏这几个场景，在将来几年的增幅都十分大，特地是云游戏，在 2023 年会达到千亿的规模，所以我置信将来的音视频行业还将继续高速增长，将来有有限的机会期待音视频行业的从业人员。随着音视频市场的增长，网易云信也在一直晋升本人在音视频畛域的外围竞争力。在 5G 和 AI 技术改革的推动下，网易云信在原有音视频架构的根底上迭代降级，推出了新一代音视频技术架构，对音视频全流程都做了重大降级，次要包含三大架构降级，别离是：新一代音视频交融通信服务端零碎、新一代音视频 SDK 以及新一代音视频引擎。网易云信新一代音视频架构降级新一代音视频交融通信零碎架构首先看一下网易云信在新一代音视频交融通信服务端零碎的整体架构图。 1 流媒体传输与解决服务在这个框架图两头是流媒体传输和解决服务，涵盖了边缘媒体接入、实时传输网、流媒体解决服务以及直播点播服务。在新一代架构中，流媒体零碎能够兼容各类协定，边缘媒体服务器既反对云信 SDK 的接入，也反对规范 Web 端应用 WebRTC 接入；同时，云信自研了 SIP 网关服务器，实现了 SIP、PSTN 的接入；应用通用媒体网关实现了规范 RTMP 推流工具、小程序、RTSP 监控摄像头的接入。在边缘媒体服务零碎收到各协定客户端的媒体数据包当前，它会借助云信自研的实时传输网的边缘节点和路由节点进行寰球的实时媒体数据散发，保障端到端的最优体验。同时利用流媒体解决服务的通用 MCU 和转码服务器，能够将媒体流混合后旁路转推到云信互动直播服务器，再通过云信直播的交融 CDN 零碎进行散发；还能够在云端进行录制后，存储到云信的点播服务零碎中。 2 全局流媒体管制服务器架构图的左侧是全局流媒体管制服务，它包含了：频道与流治理服务、对立媒体调度服务和实时传输网调度服务，它是整个音视频交融通信零碎的大脑，由它来动态控制整个零碎的运行。 3 大数据与配置服务架构图的右侧是云信的大数据与配置服务零碎，其中全局大数据分析和开掘零碎，负责全链路采集的数据处理、告警和品质通明，并利用大数据挖掘的后果领导全链路各模块算法和策略的制订。另一个是咱们智能全局配置管理和下发服务，负责对各类云端参数的下发，包含 QoS 参数、音视频编解码参数以及 A/B Test 的相干开关。这里，咱们对网易云信的新一代音视频交融零碎架构做个总结：首先，新一代音视频交融通信零碎是一个混合了实时媒体边缘服务器、实时传输网以及交融 CDN 的一个混合组网零碎，它能够满足用户对场景和网络实时性的各类需要；第二，咱们将媒体边缘服务器和媒体网关下沉到边缘，大大降低了用户到第一跳接入服务的间隔，也能够更好施展 5G 边缘计算的能力；第三，音视频零碎的管制面和媒体转发面做了从新的形象和隔离，音视频房间和流的治理由管制服务器负责，媒体和实时传输网零碎只负责流媒体数据的散发，具体这么做的目标和劣势，咱们在下文的核心技术局部再做开展。新一代音视频 SDK 技术对于新一代音视频 SDK 技术，咱们做了很清晰的分层设计，将各个模块做了尽可能的解耦，同时也让更多的根底模块能够下沉，让更多下层模块共用代码；在跨平台封装层形象各平台的差别，为 SDK 接口层提供对立调用逻辑。 ...

关于音视频拼接:5G时代音视频开发前景怎么样音视频开发需要掌握哪些技术

前言从历史来看，2G关上了了挪动互联网天下，3G带来了即时通信，诞生了QQ 微信等巨头，4G 带来了短视频衰亡。字节跳动等公司崛起。2 3 4G的呈现促成了挪动互联网10年凋敝。而5G的呈现，也会促成至多10年音视频行业的凋敝。所以，做音视频研发的前景是广大的，对于很早看出音视频前景的同学来说，曾经开始通过各种渠道收集相干的学习材料，及早的投入音视频研发的队伍。作为开发者的咱们到底应不应该上音视频这条船？接下来一起剖析下。行业现状外围竞争力：定义音视频是程序届的皇冠，把握音视频意味着拿到通往将来的船票，不必放心会被其他人代替。音视频是有门槛的。是与其他人拉开差距的分水岭高端人才相干不足：Boss直聘中，北上广深很多年限上50w-70w的音视频岗位，长年还招不到人，月薪2-3万大多是刚从事音视频入门级开发者技术迭代慢：就H264编码从95年成为规范至今，都在应用。比拟偏底层技术，底层技术几十年不会有太大的扭转音视频开发岗位说道薪资待遇什么的，想必是你们比较关心的一件事。我就轻易在Boss直聘搜寻的音视频开发岗位的薪资。从上图能够看出音视频开发岗位的薪资均匀都是在20K以上，然而他们对学历还是有肯定的要求的最低根本都是本科学历。为什么音视频的开发薪资这么高呢？因为是音视频岗位人才稀缺，很少有人会残缺的音视频开发。音视频能够自学吗？说句实话，音视频自学起来困难重重，学习老本十分高，且效率低。音视频人才为什么难得？ 1.音视频常识庞杂，通俗易懂的材料非常少； 2.网上博客，视频充斥着大量的错误信息，使得很多初学者掉到坑里就爬不进去了。我来举个例子，依照传统的音视频学习办法：首先接触大量的音视频开源库，如FFmpeg、MediaCodec，往往这些API就曾经把脑袋弄大了。停留在应用API，不能让你适应一直变动的需要。最开始的方向错了，不论如何致力，都学不好音视频。所以，咱们该如何学习音视频？须要学习那些内容？大家能够参考我的学习路线图进行学习，上面是我学习的路线。 1.首先须要学习的是音视频基础知识有些敌人对音视频学习有些误区，认为须要很多的实践根底才开始去实际，实际上大家只须要懂：视频： YUV格局RGB格局帧率分辨率H264 I P B帧原理音频： PCM采样率采样格局码率1.等这些基础知识即可开启音视频学习的大门。 2.FFmpeg命令实战很多敌人也对FFmpeg的学习有误区，一上来就撸各种ffmpeg api，其实不然，咱们能够先从FFmpeg命令行动手，咱们提供了一个《Windows FFmpeg命令行搭建》的文档。从FFmpeg命令行动手能够让咱们更明确FFmpeg开源我的项目可能做什么。 3.FFmpeg我的项目实战应用FFmpeg能够做一个播放器和录屏器 4.流媒体实战流媒体实战倡议大家学习的程序 RTMP->HLS->HTTP-FLV，有工夫能够再学RTSP，为什么说有工夫再学RTSP，是因为互联网行业用RTSP的极少。 5.WebRTC中级开发 6.WebRTC高级开发 7.WebRTC SFU服务器开发下面这些须要学习的内容大多是音视频开发者们必会的技能，如果您感觉音视频自学难，没有学习的方向，大家能够对照上方的路线进行学习。 - 最初在这里我也给大家分享一下音视频开发的学习材料及学习路线图，大家如果需要的话+602878196（微信同号）获取

音视频入门01认识RGB

音视频入门文章目录 RGB 简介RGB 色彩模式是工业界的一种颜色标准，是通过对红(R)、绿(G)、蓝(B)三个颜色通道的变化以及它们相互之间的叠加来得到各式各样的颜色的，RGB 即是代表红、绿、蓝三个通道的颜色，这个标准几乎包括了人类视力所能感知的所有颜色，是目前运用最广的颜色系统之一。RGB格式RGB16 格式RGB16 数据格式主要有两种：RGB565 和 RGB555。 1. RGB565每个像素用 16 比特位表示，占 2 个字节，RGB 分量分别使用 5 位、6 位、5 位。高字节低字节R R R R R G G G G G G B B B B B得到 RGB565 各分量的值： #define RGB565_MASK_RED 0xF800#define RGB565_MASK_GREEN 0x07E0#define RGB565_MASK_BLUE 0x001FR = (color & RGB565_MASK_RED) >> 11; // 取值范围0-31G = (color & RGB565_MASK_GREEN) >> 5; // 取值范围0-63B = color & RGB565_MASK_BLUE; // 取值范围0-31#define RGB(r,g,b) (unsigned int)( (r|0x08 << 11) | (g|0x08 << 6) | b|0x08 )#define RGB(r,g,b) (unsigned int)( (r|0x08 << 10) | (g|0x08 << 5) | b|0x08 )2. RGB555每个像素用 16 比特位表示，占 2 个字节，RGB 分量都使用 5 位(最高位不用)。高字节低字节X R R R R R G G G G G B B B B B （X表示不用，可以忽略）得到 RGB555 各分量的值： ...

FFmpeg小点记AVDiscard的作用

声明定义AVDiscard 定义在 avcode.h 中。内容如下： /** * @ingroup lavc_decoding */ enum AVDiscard{ /* We leave some space between them for extensions (drop some * keyframes for intra-only or drop just some bidir frames). */ AVDISCARD_NONE =-16, ///< discard nothing AVDISCARD_DEFAULT = 0, ///< discard useless packets like 0 size packets in avi AVDISCARD_NONREF = 8, ///< discard all non reference AVDISCARD_BIDIR = 16, ///< discard all bidirectional frames AVDISCARD_NONINTRA= 24, ///< discard all non intra frames AVDISCARD_NONKEY = 32, ///< discard all frames except keyframes AVDISCARD_ALL = 48, ///< discard all };上述是FFmpeg v4.1 中的定义。简单的中文翻译下： ...

报名中-腾讯技术专家为你揭秘音视频及融合通信技术

| 导语 6月29日，北京东直门亚朵S酒店，云+社区邀您参加《音视频及融合通信技术》沙龙活动，深度探讨音视频及融合通信技术的发展及实践，领略前沿，共创价值。数字多媒体技术的不断发展对音视频及融合通信技术提出了怎样的要求呢？本期沙龙将邀请腾讯技术专家针对腾讯云音视频及融合通信产品的技术全进行面剖析，围绕最新的低延迟技术、全新的商业直播方案等主题为大家带来纯干货的技术分享，带你走进前沿的音视频及融合通信技术落地实践。活动信息活动指南时间 2019-06-29 周六 13:30-18:00 地点北京东直门亚朵S酒店（北京市朝阳区香河园路左家庄15号院）公共交通： 1，乘坐地铁2号线/13号线，东直门地铁站下车，步行约1.2公里 2，乘坐536/131/404/916路等，在左家庄公交站下车，步行约200米报名渠道扫描上方二维码报名现场奖品活动现场设置了抽奖环节大奖将在活动结束后抽出腾讯定制礼品等你来拿！一等奖：1名猫王收音机 MW-R 二等奖：2名索爱（soaiy）T2 蓝牙耳机无线三等奖： 3名罗技（Logitech）K380 键盘鼓励奖：24名当当网提供的技术图书 **我们还为大家准备了腾讯云公仔数量有限，先到先得哦！** 技术交流 **扫描上方二维码添加小助手微信可提前进群与讲师及参会嘉宾互动交流** 直播如您无法参与现场，我们也为您准备了线上直播，直播地址请留意后续的公众号文章，敬请期待~ 往期活动

Xcode中配置FFmpeg环境

一、安装 FFmpeg安装 FFmpeg 可以通过源码安装的方式进行安装。为了方便，这里使用 brew 的方式进行安装。brew install ffmpeg二、创建Xcode项目这里创建的是 Command Line Tool 项目。在下一步中的开发语言我选择了 C++ 三、配置FFmpeg依赖如下图所示，找到 Header Search Path 和 Library Search Path 如果你是用 brew 安装的话，可以通过 brew info ffmpeg 命令，可以查看FFmpeg的安装位置。 brew info ffmpeg# 输出的路径是：/usr/local/Cellar/ffmpeg/4.1.3_1Header Search Path输入：/usr/local/Cellar/ffmpeg/4.1.3_1/includeLibrary Search Path输入：/usr/local/Cellar/ffmpeg/4.1.3_1/libLinked Framework and LibrariesGeneral -> Linked Framework and Libraries Add Others -> Command + Shift + G 赶快胜利，接下来，就是两个人的时间了...

avformat_open_input

声明/** * Open an input stream and read the header. The codecs are not opened. * The stream must be closed with avformat_close_input(). * * @param ps Pointer to user-supplied AVFormatContext (allocated by avformat_alloc_context). * May be a pointer to NULL, in which case an AVFormatContext is allocated by this * function and written into ps. * Note that a user-supplied AVFormatContext will be freed on failure. * @param url URL of the stream to open. * @param fmt If non-NULL, this parameter forces a specific input format. * Otherwise the format is autodetected. * @param options A dictionary filled with AVFormatContext and demuxer-private options. * On return this parameter will be destroyed and replaced with a dict containing * options that were not found. May be NULL. * * @return 0 on success, a negative AVERROR on failure. * * @note If you want to use custom IO, preallocate the format context and set its pb field. */int avformat_open_input(AVFormatContext **ps, const char *url, AVInputFormat *fmt, AVDictionary **options);定义int avformat_open_input(AVFormatContext **ps, const char *filename, AVInputFormat *fmt, AVDictionary **options){ AVFormatContext *s = *ps; int i, ret = 0; AVDictionary *tmp = NULL; ID3v2ExtraMeta *id3v2_extra_meta = NULL; if (!s && !(s = avformat_alloc_context())) return AVERROR(ENOMEM); if (!s->av_class) { av_log(NULL, AV_LOG_ERROR, “Input context has not been properly allocated by avformat_alloc_context() and is not NULL either\n”); return AVERROR(EINVAL); } if (fmt) s->iformat = fmt; if (options) av_dict_copy(&tmp, options, 0); if (s->pb) // must be before any goto fail s->flags |= AVFMT_FLAG_CUSTOM_IO; if ((ret = av_opt_set_dict(s, &tmp)) < 0) goto fail; av_strlcpy(s->filename, filename ? filename : “”, sizeof(s->filename)); if ((ret = init_input(s, filename, &tmp)) < 0) goto fail; s->probe_score = ret; if (!s->protocol_whitelist && s->pb && s->pb->protocol_whitelist) { s->protocol_whitelist = av_strdup(s->pb->protocol_whitelist); if (!s->protocol_whitelist) { ret = AVERROR(ENOMEM); goto fail; } } if (!s->protocol_blacklist && s->pb && s->pb->protocol_blacklist) { s->protocol_blacklist = av_strdup(s->pb->protocol_blacklist); if (!s->protocol_blacklist) { ret = AVERROR(ENOMEM); goto fail; } } if (s->format_whitelist && av_match_list(s->iformat->name, s->format_whitelist, ‘,’) <= 0) { av_log(s, AV_LOG_ERROR, “Format not on whitelist '%s'\n”, s->format_whitelist); ret = AVERROR(EINVAL); goto fail; } avio_skip(s->pb, s->skip_initial_bytes); / Check filename in case an image number is expected. / if (s->iformat->flags & AVFMT_NEEDNUMBER) { if (!av_filename_number_test(filename)) { ret = AVERROR(EINVAL); goto fail; } } s->duration = s->start_time = AV_NOPTS_VALUE; / Allocate private data. */ if (s->iformat->priv_data_size > 0) { if (!(s->priv_data = av_mallocz(s->iformat->priv_data_size))) { ret = AVERROR(ENOMEM); goto fail; } if (s->iformat->priv_class) { *(const AVClass *) s->priv_data = s->iformat->priv_class; av_opt_set_defaults(s->priv_data); if ((ret = av_opt_set_dict(s->priv_data, &tmp)) < 0) goto fail; } } / e.g. AVFMT_NOFILE formats will not have a AVIOContext */ if (s->pb) ff_id3v2_read_dict(s->pb, &s->internal->id3v2_meta, ID3v2_DEFAULT_MAGIC, &id3v2_extra_meta); if (!(s->flags&AVFMT_FLAG_PRIV_OPT) && s->iformat->read_header) if ((ret = s->iformat->read_header(s)) < 0) goto fail; if (!s->metadata) { s->metadata = s->internal->id3v2_meta; s->internal->id3v2_meta = NULL; } else if (s->internal->id3v2_meta) { int level = AV_LOG_WARNING; if (s->error_recognition & AV_EF_COMPLIANT) level = AV_LOG_ERROR; av_log(s, level, “Discarding ID3 tags because more suitable tags were found.\n”); av_dict_free(&s->internal->id3v2_meta); if (s->error_recognition & AV_EF_EXPLODE) return AVERROR_INVALIDDATA; } if (id3v2_extra_meta) { if (!strcmp(s->iformat->name, “mp3”) || !strcmp(s->iformat->name, “aac”) || !strcmp(s->iformat->name, “tta”)) { if ((ret = ff_id3v2_parse_apic(s, &id3v2_extra_meta)) < 0) goto fail; if ((ret = ff_id3v2_parse_chapters(s, &id3v2_extra_meta)) < 0) goto fail; } else av_log(s, AV_LOG_DEBUG, “demuxer does not support additional id3 data, skipping\n”); } ff_id3v2_free_extra_meta(&id3v2_extra_meta); if ((ret = avformat_queue_attached_pictures(s)) < 0) goto fail; if (!(s->flags&AVFMT_FLAG_PRIV_OPT) && s->pb && !s->internal->data_offset) s->internal->data_offset = avio_tell(s->pb); s->internal->raw_packet_buffer_remaining_size = RAW_PACKET_BUFFER_SIZE; update_stream_avctx(s); for (i = 0; i < s->nb_streams; i++) s->streams[i]->internal->orig_codec_id = s->streams[i]->codecpar->codec_id; if (options) { av_dict_free(options); *options = tmp; } *ps = s; return 0;fail: ff_id3v2_free_extra_meta(&id3v2_extra_meta); av_dict_free(&tmp); if (s->pb && !(s->flags & AVFMT_FLAG_CUSTOM_IO)) avio_closep(&s->pb); avformat_free_context(s); *ps = NULL; return ret;} ...

【FFmpeg小点记】AV_DISPOSITION_ATTACHED_PIC

一、原起static int stream_has_enough_packets(AVStream *st, int stream_id, PacketQueue *queue) { return stream_id < 0 || queue->abort_request || (st->disposition & AV_DISPOSITION_ATTACHED_PIC) || queue->nb_packets > MIN_FRAMES && (!queue->duration || av_q2d(st->time_base) * queue->duration > 1.0);}这是 ffplay.c 源码中的一个函数，用于校验是否有必要继续向缓冲区中添加 AVPacket 。可是 “道理我都懂”，但是，st->disposition & AV_DISPOSITION_ATTACHED_PIC 是个什么骚操作，为什么这个操作可以决定是否有必要继续向缓冲区中添加内容？【注：】你可以直接跳过化原过程，直接到最后看结果。二、化原1. 查文档果然，还真有介绍。链接在这：AV_DISPOSITION_ATTACHED_PICThe stream is stored in the file as an attached picture/“cover art” (e.g.APIC frame in ID3v2). The first (usually only) packet associated with it will > be returned among the first few packets read from the file unless seeking > takes place. It can also be accessed at any time in AVStream.attached_pic.好吧，感觉只能意会不能言传。2. 请教大佬它和mp3文件有关，是一个流的标志。 – 大佬3. 绝知此事要躬行找文件从文档和大佬的回复中可以看出它应该和 .mp3 文件有关。然后就找了一个带有封面图片的 .mp3 文件。【注：不打广告哈！我是用手机上的网易云音乐下载的，然后传到电脑里】用工具这里使用了一个媒体文件的分析工具: Synalyze It Pro! 。它可以分析 *.mp3 文件的结构。【注：这个解析带封面的 *.mp3 文件时崩！溃！了！。但是不得不说，它在解析视频文件，如: *.mp4文件真的挺好用的】ffprobe还是乖乖使用 ffprobe 查看文件的 streams 和 packets 信息吧。查看 streams# 使用 ffprobe -show_streams -i quliulang.mp3 可以查看更详细的流信息ffprobe -i quliulang.mp3得到了下面的结果：可以看到，一个 *.mp3 文件也可以有 Video Stream 。是的，还可以看到它的 codec type 是 png 。结合查文档中给出的文档的解释，有没有明白些什么？再来看下 packets。查看 packetsffprobe -show_packets -of json -i quliulang.mp3 > packets.json输出结果如下：三、原落经过上述的分析，可以得到的结果是：AV_DISPOSITION_ATTACHED_PIC 是一个标志。如果一个流中含有这个标志的话，那么就是说这个流是 *.mp3 文件中的一个 Video Stream 。并且该流只有一个 AVPacket ，也就是 attached_pic 。这个 AVPacket 中所存储的内容就是这个 *.mp3 文件的封面图片。因此，也可以很好的解释了文章开头提到的为什么 st->disposition & AV_DISPOSITION_ATTACHED_PIC 这个操作可以决定是否可以继续向缓冲区中添加 AVPacket 。这里可以回答，是因为，如果这个流中包含这个标志的话，说明这个流是 *.mp3 文件中的 Video Stream 。不是传统意义上的视频流。它只存放了封面信息，在播放或者导出时，不需要这个数据。因此我们可以使用这个标志很好的区分这个特殊的 Video Stream 。并且通过判断，屏蔽该流，不对其进行操作。 ...

Get 了滤镜、动画、AR 特效，速来炫出你的短视频开发特技！

在滤镜美颜、搞怪特效、炫酷场景等各种新奇玩法驱动下，短视频开始让人上瘾。12 月 3 日，七牛云联合八大短视频特效平台共同推出了中国短视频开发者创意大赛（China Short Video Contest），面向全国邀请广大开发者，基于大赛提供的 SDK 或使用其他适合的 SDK，进行短视频轻应用的开发设计。为了帮助参赛者开发创作更精彩、更有料的短视频作品，我们提供以下几种应用场景参考：场景一：社交互动功能应用: 美颜、滤镜、贴纸创作来源：Enlight Videoleap在图片及视频中添加艺术滤镜，制作出震撼夸张的大片特效，同时可搭配个性贴纸，在社交互动的场景应用下，全方位秀出自我。场景二：音乐相册功能应用: 文字特效、配音创作来源：乐秀生活中的暖心片段，搭配文字特效及背景音乐，生成一部饱含爱意的温情记录片。场景三：图片转视频功能应用: 动画特效创作来源：Enlight Photoloop原本静态的图片，经过动态特效处理，生成栩栩如生的动态视频，熊熊烈火、浩瀚大海、雄伟瀑布、旋转摩天轮，历史图片也能动态呈现。除此之外，包括当下比较火的模仿秀、配音秀等应用场景大家均可尝试。其中模仿秀可以使用分屏拍摄，上传模仿视频至一边画面，有效增强互动娱乐性，比比谁的演技最精彩！配音秀则可选取漫画、游戏、搞笑、萌宠、美文等多种类型的配音素材，添加电影音效等，让体验者过一把「声优」瘾。另外，×××相结合的 AR 特效，也是一个不错的选择！短视频开发者创意大赛自 12 月启动以来，备受开发小伙伴们青睐，目前我们已经征集到部分参赛作品，近期作品公示、人气评选页面即将上线，欢迎广大用户对参赛作品进行体验并投票，完成最具人气奖的评选。第一波短视频开发作品，我们敬请期待！看到这里，还等什么？只要你有创意有想法有短视频开发功底无论你是什么风格什么派系什么套路什么脑洞只要提交有效参赛作品，即可获得七牛云抵用券 500 元，一等奖可得 30000 元现金大奖。同时，邀请好友参赛，一旦好友参赛获奖，邀请者可获得 1000 元天猫券。收下这份诚意满满的短视频开发者大赛创作指南，万元现金大奖、六大王者荣冠、百万流量宣传、事业快速通道等你来。火速下载短视频 SDK，创作你的短视频大片吧！长按扫码立即报名

快速探索，音视频技术不再神秘

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~本文由goo发表于云+社区专栏与生活紧密相连的音视频，为何有那么多格式？直播、点播以及即时视频其中又有怎样的机制支撑？面对纷繁复杂的音视频知识，应该如何学起？快速探索，音视频技术不再神秘。前言面对一门技术，我们熟悉而陌生，我们能够熟练的基于平台的API完成各种各样的需求，掌握平台特性、框架与原理。但随着技术点不断深入，却发现自己存在基础性与深度性的知识盲区。局限于平台API开发，并不能使我们走的很远。突破技术成长必经的瓶颈期，关键在于技术沉淀与对业务方向相结合，需要我们对知识积累与深入。本文分享了笔者对音视频技术知识网络的探索路径，希望能给大家带来帮助。一、采集 - 数据从哪里来？1.1 采样原理定义：对连续变化图像在空间坐标上做离散化处理，将模拟信号转变成数字信号的过程，即为图像进行采样。通俗来说：采集就是将看到的东西转成二进制流的过程。1.2 基础概念1.2.1 图像「图像」是个集合的概念，帧、顶场、底场都可以称为图像。帧一帧通常是一幅完整图像，当采用逐行扫描方式扫描，每次扫描得到的信号就是一帧。顶场与底场采集视频信号时，扫描方式分为逐行扫描与隔行扫描。如果采用逐行扫描，得到的则是一幅完整的图像；而采用隔行扫描（奇、偶数行），则扫描下来的一帧图像就被分为了两个部分，这每一部分就称为「场」，根据次序分为：「顶场」和「底场」隔行扫描每一帧被分割为两场画面交替显示。每一帧被分割为顶场与底场，通常是先扫描奇数行得到第一场，然后扫描偶数行得到第二场。由于视觉暂留效应，人眼将会看到平滑的运动而不是闪动的半帧半帧的图像。但是这时会有闪烁出现，尽管不容易被察觉，但会使得人眼容易疲劳。当屏幕的内容是横条纹时，这种闪烁特别容易被注意到，并且会有锯齿瑕疵。逐行扫描则是将每帧的所有画面同时显示。每次都显示整个扫描帧，如果逐行扫描的帧率和隔行扫描的场率相同，人眼将看到比隔行扫描更平滑的图像，相对于隔行扫描来说闪烁较小。每一帧图像均是由电子束顺序地一行接着一行连续扫描而成，这种扫描方式称为逐行扫描。两者区别举个栗子，25fps 100行帧图像，那么隔行扫描需要一秒扫描50次，但每次只需要扫描50行。而逐行扫描则只需要扫描25次，但每次需要扫描100行。结论：隔行扫描扫描频率为逐行扫描双倍，信道带宽为逐行扫描的一半。在图像体验降低不多的情况下，信道带宽减少了一半，使得设备成本减少，因此，早期大多数显示器都采用隔行扫描。传送门：逐行扫描、隔行扫描详细讲解逐行扫描与隔行扫描顶场与底场，隔行扫描锯齿瑕疵1.2.2 颜色模型RGB颜色模型RGB模型RGB分别代表红绿蓝，每种颜色需要用3个数字表示，一个数字占用1字节，一种颜色则需要3字节，24位。更高效的颜色模型？YUVYCbCr颜色模型YCbCr颜色模型是YUV家族的一员，关键特点在于它亮度信号Y与色度信号U、V相互分离。当缺失U、V，仅有Y信号时，也能够表示出黑白图像。Y = kr*R + kg*G + kb*BY 即「亮度」，kr、kg、kb 即 R、G、B 的权重值。Cr = R – Y; Cg = G – Y; Cb = B – Y;疑问：对比RGB模型，YCbCr模型每个像素也需要3个信号表示，为什么说该模型更高效？优化思路人眼对亮度分辨率敏感度高于色彩敏感度。视觉特性基于人眼视觉特性，很明显，我们需要从颜色方面入手，于是提出“色度取样”，使颜色存储减半或者更多。容易实现，编码压力较小，收益较高。色度取样优化实现我们知道显示器扫描原理分为逐行扫描与隔行扫描，每条扫描线被扫描时，色度数值传送频率会比亮度低，颜色取样方式有多种，取样方式通常基于亮度值，以4:X:Y的形式描述，X和Y是每两个色度通道中的数值的相对数量：显示器扫描显示原理继续举个栗子：YCbCr像素点我们有这样一幅图片，上面有像素阵列：原始像素阵列YCbCr 4:4:4会有以下几种采样优化方式：4:2:2优化后像素阵列4:2:2取样方式4:2:0优化后像素阵列4:2:0取样方式上图可以很直观的看出：采用YCbCr颜色模型后，并不需要每个像素都存有3个分量，颜色分量通过“色度取样”后，有效的减少了颜色分量的存储。1.3 图像感知与获取<center><img src=“https://ask.qcloudimg.com/draft/2557878/yjqoq9qlhg.png"width="70" />成像传感器</center>通过电功率和对特殊类型检测能源敏感的传感器材料组合。将输入的光照能量变为特殊的电压波形。波形的幅度和空间特性都与感知的物理现象有关。为了产生数字图像，接下来需要进行取样与量化处理。1.4 取样与量化举个栗子，对于黑白图像图(a)为连续图像，如果需要转换成数字形式，需要几步主要操作：取样与量化取样：(a)图上沿AB线段等间隔对该图像取样，得到灰度级曲线(b)量化：(c)图右侧将灰度分为8个灰度级，再横向每一取样的连续灰度值，量化为8个灰度之一，最终得到(d)图，感知器输出的量化完成流产生数字图像的过程。 a. 图像投影至传感器阵列 b. 图像取样与量化结果二、渲染 - 数据如何展现？2.1 播放器原理播放器播放从互联网上播放视频，需要经过：解协议、解封装、解码、音视频同步这几个核心步骤。<center>互联网播放视频流程解协议：将流媒体协议数据，解析为标准封装格式数据。流媒体协议传输音视频数据同时，也会传输一些信令数据，其中包括：播放控制、网络状态描述等。常见流媒体协议如HTTP、RTMP或MMS等。解封装：将解协议得到的标准封装格式数据，分离为音频流压缩编码数据与视频流压缩编码数据。封装格式也称为容器，即是将已经编码压缩好的视频轨与音频轨按照一定格式放到一个文件中。需要注意的是：就算是同一个封装格式，其编码方式并不一定一样，我们可以从后缀名中直观的看到视频文件到封装格式。常见封装格式：avi，rmvb，mp4，flv，mkv等。解码：就是将音视频压缩编码数据，解码成为非压缩的音视频原始数据。音频编码标准有AAC，MP3，AC-3等；视频编码标准包含H.264，MPEG2，VC-1等。编解码是整个流程最核心与最复杂的环节。音视频同步：根据解封装过程获取的参数信息，将解码出来的音视频数据进行同步对其，最终将数据传送到系统，由系统调用硬件进行播放。2.2 视频编码方式视频编解码过程是数字视频压缩与解压缩的过程。选取音视频编码方案时，需要考虑：视频的质量、码率、编码算法和解码算法的复杂度、针对数据丢失和错误的鲁棒性（Robustness）、编辑的方便性、随机访问、编码算法设计的完美性、端到端的延时以及其它一些因素。2.2.1 H.26X系列概述H.26X 系列，由国际电传视讯联盟远程通信标准化组织(ITU-T)主导，包括 H.261、H.262、H.263、H.264、H.265。H.261，主要用于老的视频会议和视频电话系统。是第一个使用的数字视频压缩标准。实质上说，之后的所有的标准视频编解码器都是基于它设计的。H.262，等同于 MPEG-2 第二部分，使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。H.263，主要用于视频会议、视频电话和网络视频相关产品。在对逐行扫描的视频源进行压缩的方面，H.263 比它之前的视频编码标准在性能上有了较大的提升。尤其是在低码率端，它可以在保证一定质量的前提下大大的节约码率。H.264，等同于 MPEG-4 第十部分，也被称为高级视频编码(Advanced Video Coding，简称 AVC)，是一种视频压缩标准，一种被广泛使用的高精度视频的录制、压缩和发布格式。该标准引入了一系列新的能够大大提高压缩性能的技术，并能够同时在高码率端和低码率端大大超越以前的诸标准。H.265，被称为高效率视频编码(High Efficiency Video Coding，简称 HEVC)是一种视频压缩标准，是 H.264 的继任者。HEVC 被认为不仅提升图像质量，同时也能达到 H.264 两倍的压缩率（等同于同样画面质量下比特率减少了 50%），可支持 4K 分辨率甚至到超高画质电视，最高分辨率可达到 8192×4320（8K 分辨率），这是目前发展的趋势。详解待整理另外文章2.2.2 MPEG系列概述MPEG 系列，由国际标准组织机构(ISO)下属的运动图象专家组(MPEG)开发。MPEG-1 第二部分，主要使用在 VCD 上，有些在线视频也使用这种格式。该编解码器的质量大致上和原有的 VHS 录像带相当。MPEG-2 第二部分，等同于 H.262，使用在 DVD、SVCD 和大多数数字视频广播系统和有线分布系统中。MPEG-4 第二部分，可以使用在网络传输、广播和媒体存储上。比起 MPEG-2 第二部分和第一版的 H.263，它的压缩性能有所提高。MPEG-4 第十部分，等同于 H.264，是这两个编码组织合作诞生的标准。详解待整理另外文章2.3 音频编解码方式除了视频，音频当然也需要编码，而音频常用编码格式：AAC，英文全称 Advanced Audio Coding，是由 Fraunhofer IIS、杜比实验室、AT&T、Sony等公司共同开发，在 1997 年推出的基于 MPEG-2 的音频编码技术。2000 年，MPEG-4 标准出现后，AAC 重新集成了其特性，加入了 SBR 技术和 PS 技术，为了区别于传统的 MPEG-2 AAC 又称为 MPEG-4 AAC。（AAC详解待整理另外文章）MP3，英文全称 MPEG-1 or MPEG-2 Audio Layer III，是当曾经非常流行的一种数字音频编码和有损压缩格式，它被设计来大幅降低音频数据量。它是在 1991 年，由位于德国埃尔朗根的研究组织 Fraunhofer-Gesellschaft 的一组工程师发明和标准化的。MP3 的普及，曾对音乐产业造成极大的冲击与影响。WMA，英文全称 Windows Media Audio，由微软公司开发的一种数字音频压缩格式，本身包括有损和无损压缩格式。三、处理 - 数据怎么加工？音视频加工处理，是业务的核心需求，对开发者自由度最大的一个环节，通过音视频处理，可以实现各种各样炫酷的特效。图像、视频常见处理方式：美化、裁剪、缩放、旋转、叠加、编解码等。音频常见处理方式：重采样、去噪，回声消除，混音、编解码等常见框架：图像处理：OpenGL，OpenCV，libyuv，ffmpeg 等；视频编解码：x264，OpenH264，ffmpeg 等；音频处理：speexdsp，ffmpeg 等；音频编解码：libfaac，opus，speex，ffmpeg 等。（传送门：音视频开发开源码工程汇总）四、传输 - 数据如何传输？4.1 流媒体协议流媒体，指通过互联网以流式传输方式的媒体。流媒体协议，则是服务器与客户端之间通信遵循但规定。说到音视频传输，我们不得不提流媒体协议，常见流媒体协议有：协议概述特点应用场景RTP（Real-time Transport Protocol）一种网络传输协议，RTP协议详细说明了在互联网上传递音频和视频的标准数据包格式。基于UDP 协议实现RTP协议常用于流媒体系统（配合 RTSP 协议）RTCP（Real-time Transport Control Protoco）实时传输协议（RTP）的一个姐妹协议。RTCP为RTP媒体流提供信道外（out-of-band）控制。RTCP 本身并不传输数据，但和 RTP 一起协作将多媒体数据打包和发送。RTCP 定期在流多媒体会话参加者之间传输控制数据。为 RTP 所提供的服务质量（Quality of Service）提供反馈。RTSP（Real Time Streaming Protocol）定义了一对多应用程序如何有效地通过 IP 网络传送多媒体数据。RTSP 在体系结构上位于 RTP 和 RTCP 之上，使用 TCP 或 UDP 完成数据传输使用 RTSP 时，客户机和服务器都可以发出请求，即 RTSP 可以是双向的。RTMP（Real Time Messaging Protocol）Adobe Systems 公司为 Flash 播放器和服务器之间音频、视频和数据传输开发的开放协议。协议基于 TCP，是一个协议族，包括 RTMP 基本协议及 RTMPT/RTMPS/RTMPE 等多种变种。一种设计用来进行实时数据通信的网络协议，主要用来在 Flash/AIR 平台和支持RTMP协议的流媒体/交互服务器之间进行音视频和数据通信。RTMFP（Real Time Media Flow0 Protoco）Adobe 公司开发的一套新的通信协议，全称 Real Time Media Flow Protocol协议基于 UDP，支持 C/S 模式和 P2P 模式，即该协议可以让使用 Adobe Flash Player 的终端用户之间进行直接通信Adobe Flash Player 的终端用户之间进行直接通信HTTP（HyperText Transfer Protoco）运行在 TCP 之上这个协议是大家非常熟悉的，它也可以用到视频业务中来。HLS（HTTP Live Streaming）是苹果公司实现的基于 HTTP 的流媒体传输协议，全称，可支持流媒体的直播和点播短时长的媒体文件（MPEG-TS 格式），客户端不断的下载并播放这些小文件。由于数据通过 HTTP 协议传输，所以完全不用考虑防火墙或者代理的问题，而且分段文件的时长很短，客户端可以很快的选择和切换码率，以适应不同带宽条件下的播放 HLS 的这种技术特点，决定了它的延迟一般总是会高于普通的流媒体直播协议主要应用在 iOS 系统，为 iOS 设备（如 iPhone、iPad）提供音视频直播和点播方案。4.2 网络视频点播业务公司协议封装视频编码音频编码播放器CNTVHTTPMP4H.264AACFlashCNTV（部分）RTMPFLVH.264AACFlash华数 TVHTTPMP4H.264AACFlash优酷网HTTPFLVH.264AACFlash土豆网HTTPF4VH.264AACFlash56网HTTPFLVH.264AACFlash音悦台HTTPMP4H.264AACFlash乐视网HTTPFLVH.264AACFlash新浪视频HTTPFLVH.264AACFlash网络视频点播业务采用 HTTP 有两方面优势：HTTP 是基于 TCP 协议的应用层协议，媒体传输过程中不会出现丢包等现象，从而保证了视频的质量。HTTP 是绝大部分的 Web 服务器支持的协议，因而流媒体服务机构不必投资购买额外的流媒体服务器，从而节约了开支。对于封装格式：MP4，FLV，F4V 几者只是容器，带来的差异不大，而关键的是音视频解码方式：H.264与AAC，这两种编码标准目前仍被最广泛的应用。4.3 网络视频直播业务公司协议封装视频编码音频编码播放器华数TVRTMPFLVH.264AACFlash六间房RTMPFLVH.264AACFlash中国教育电视台RTMPFLVH.264AACFlash北广传媒移动电视RTMPFLVH.264AACFlash上海IPTVRTSP+RTPTSH.264MP2机顶盒网络视频直播服务采用 RTMP 作为直播协议的好处是可以直接被 Flash 播放器支持，而 Flash 播放器在 PC 时代有着极高的普及率，并且与浏览器结合的很好。因此这种流媒体直播平台基本上可以实现了「无插件直播」，极大降低了用户使用成本。封装格式、视频编码、音频编码、播放器方面几乎全部采用了 FLV、H.264、AAC、Flash。FLV、RTMP、Flash 都是 Adobe 公司的产品，天生有着良好的结合性。4.4 总结以上为PC时代旧数据，现移动互联网已爆发，H5 以及客户端应用的普及，行业中对视频业务技术方案的选择也逐渐在发生着变化，而我们则需要结合眼下的实际情况和技术发展的趋势去做出合适的技术选型。结语音视频技术道路很长，本文旨在搭建音视频知识知识网，许多知识未能深入，后续仍需要我们不断学习与实践，抱着追求极致的精神去探索发现，加油，我们共同快速成长！相关阅读【每日课程推荐】机器学习实战！快速入门在线广告业务及CTR相应知识 ...