关于音视频:音视频基础概念

声波三要素：频率、振幅和波形。频率代表音阶的高下，振幅代表响度，波形代表音色。

采样、量化和编码

奈奎斯特定理（采样定理）：按比声音最高频率高2倍以上的频率对声音进行采样（也称为AD转换）。人耳能听到的频率范畴是20Hz~20kHz，所以采样频率个别为44.1kHz（1秒采样44100次）。

通常所说的音频的祼数据格式就是脉冲编码调制（Pulse Code Modulation, PCM）数据。形容 PCM 需用到的概念：量化格局（sampleFormat）、采样率（sampleRate）、声道数（channel）。

比特率（以 CD 音质为例，量化格局或称位深度为16比特、采样率为44100，声道数为2），CD的数据比特率

44100 16 2 = 1378.125kbps

1分钟内所占的存储空间：

1378.125 * 60 / 8 / 1024 = 10.09MB

分贝

N= 10 ＊ lg（A1 / A0）

其中A0是基准量（或参考量）, A1是被量度量

压缩编码的根本指标之一就是压缩比，压缩算法包含有损压缩和无损压缩。压缩编码算法，如PCM、WAV（多媒体开发的两头文件、保留音乐和音效素材）、AAC（128Kbit/s以下的音频编码，多用于视频中音频轨的编码）、MP3（高比特率下对兼容性有要求的音乐欣赏）、Ogg（比MP3更小的码率实现比MP3更好的音质，实用语音聊天的音频音讯场景）等。压缩编码的原理是压缩掉冗余信号（耳听觉范围之外的音频信号以及被掩蔽掉的音频信号等），掩蔽掉的音频信号则次要是因为人耳的掩蔽效应，次要体现为频域掩蔽效应与时域掩蔽效应。

三原色光：红光（R）、绿光（G）、蓝光（B）。子像素示意形式

浮点示意：取值范畴为0.0～1.0，比方，在OpenGL ES中对每一个子像素点的示意应用的就是这种表达方式。
整数示意：取值范畴为0～255或者00～FF,8个比特示意一个子像素，32个比特示意一个像素，这就是相似于某些平台上示意图像格式的RGBA_8888数据格式。比方，Android平台上RGB_565的示意办法为16比特模式示意一个像素，R用5个比特来示意，G用6个比特来示意，B用5个比特来示意。

1280×720的RGBA_8888图像的大小：1280 ＊ 720 ＊ 4 / 1024 / 1024 = 3.516MB

YUV数据格式，其中“Y”示意亮堂度（Luminance或Luma），也称灰阶值；而“U”和“V”示意的则是色度（Chrominance或Chroma）。Y的取值范畴都是16～235, UV的取值范畴都是16～240。YUV最罕用的采样格局是4:2:0，即如果某一行是4:2:0（4Y-2U-0V），那么其下一行就是4:0:2（4Y-0U-2V）...对非压缩的8比特量化的视频来说，8×4的一张图片须要占用48字节的内存:

1280×720的视频帧，用YUV420P的格局来示意，数据量的大小：

(1280 ＊ 720 ＊ 1 + 1280 ＊ 720 ＊ 0.5) / 1024 / 1024 = 1.318MB

1.318MB ＊ 24fps ＊ 90min ＊ 60s = 166.8GB

YUV转换到RGB的公式

视频压缩应用帧间编码技术能够去除工夫上的冗余信息

静止弥补
静止示意
静止预计

ISO规范：Motion JPEG即MPEG，次要版本：Mpeg1（用于VCD）、Mpeg2（用于DVD）、Mpeg4 AVC（以后大多流媒体应用）。

ITU-T规范：H.261、H.262、H.263、H.264

编码概念

IPB帧
- I帧：帧内编码帧（intra picture）
- P帧：前向预测编码帧（predictive-frame）
- B帧：双向预测内插编码帧（bi-directional interpolated prediction frame）
- H264中有一个帧称为IDR帧，IDR的英文全称instantaneous decoding refresh picture
PTS与DTS
- DTS次要用于视频的解码，英文全称是Decoding Time Stamp
- PTS次要用于在解码阶段进行视频的同步和输入，全称是Presentation Time Stamp
GOP（Group Of Picture）两个I帧之间造成的一组图片

通常I的压缩率是7（与JPG差不多）, P是20, B能够达到50