关于编码:Ampere-Altra-Max-提供可持续的高分辨率-H265-编码

作者：Ravi Malhotra 2022年5月3日

用于在更大、更高分辨率设施上播放的高清视频内容的增长，推动了对 H.265 等更高效视频编解码器的需要。尽管带宽效率是较旧的 H.264 编解码器的两倍，但 H.265 须要耗费更高的计算资源来提供这种效率。管制老本（例如，带宽应用）当初是视频开发人员提到的头等挑战[1]，这使得 H.265 具备吸引力。然而，如果较低的带宽老本被较高的计算和电力老本所取代，视频开发人员相当于在原地踏步。他们须要的是一个解决方案，该解决方案能够提供 H.265 效率，而仅仅破费较少的计算和电力代价。本博客认为基于 Arm Neoverse 的 Ampere Altra Max 服务器正是视频开发人员编码 H.265 视频流所需的解决方案。

背景介绍

在过来的几年里，因为更好的相机和更大、更高分辨率的设施，高分辨率视频内容的产生和生产都在稳步增长。与 H.264 等传统编解码器相比，H.265/HEVC、VP9 或 AV1 等更先进的编解码器在压缩更高分辨率内容方面的效率晋升超过 50%。最近的市场钻研表明，这种增长转化为这些编解码器的使用量的显著减少，其中 H.265 处于当先的地位。

图 1:Bitmovin 2021 对于生产畛域应用的视频编解码器报告（2020 年与 2021）

Netflix 和 Amazon Prime 等流媒体服务的风行也推动了对高分辨率视频内容的需要。吸引和留住客户只会减少这种需要。因而，视频上传和接管（带宽需要）以及视频转码和解决（计算需要）在视频解决平台中占据最大份额也就难能可贵了[2]。

图 2：2020 年按利用划分的视频解决平台市场份额

H.265 的改良压缩带来了更高计算复杂度，这可能比 H.264 高出一个数量级（10 倍）。尽管基于云的编码的应用正在增长，但大多数视频编码依然是一项预处理工作[1]。因而，H.265 编码减少的计算需要（资本收入老本）和功耗（经营老本）对大多数视频开发人员来说是一个挑战。因而，在性能更高、能效更高的服务器上进行编码是很重要的。

技术媒体曾经在 SPECrate®2017 Integer 等通用基准上验证了 Ampere Altra Max 绝对于传统架构的性能和能效劣势[3]。Ampere Altra Max 领有128 个 Arm Neoverse N1 内核 @3.0Ghz，性能优于英特尔至强“Ice-Lake”和 AMD EPYC“Milan”CPU，后者的功耗（TDP）要高得多。在这个博客中，咱们展现了 Ampere Altra Max 的这些性能和能效劣势也扩大到了 H.265 等视频编码利用中。

为了阐明这一点，咱们对 H.265 进行编码，并测量零碎满载时的理论性能和功耗。咱们介绍了开源 libx265 编码器最近的一些优化工作，以便在 64 位 Arm 体系结构上应用 Neon SIMD 引擎。这些优化使性能显著晋升了 1.5 倍到 2.2 倍[4]。

性能测试后果

咱们在相似的基于 Arm 和 x86 的服务器上对 libx265 开源编解码器的最新快照（https://bitbucket.org/multico…）进行了基准测试。所有零碎上的 x265 版本为 3.5+20-17839cc0d。配置局部显示了基于 Arm Neoverse N1 内核的 Ampere Altra Max 服务器和基于英特尔“Ice-Lake”和 AMD“Milan”架构的 x86 零碎的零碎详细信息。“配置”局部列出了输出视频。咱们应用各种分辨率和编码预设来查看不同场景下性能的影响。

性能比拟–扩大到残缺的套接字级别

为了测试残缺的套接字性能，咱们启动了与零碎中虚构核数量一样多的 H.265 编码工作，并测量每秒累积帧数（FPS）。咱们在 Altra Max 和 AMD 7763 CPU 上运行 128 个工作，在 Xeon 8380 CPU 上运行 80 个工作。咱们察看到，Altra Max 的全插槽性能比 AMD EPYC 7763 好 10% 到 35%，在各种视频分辨率和编码预设方面比 Intel Xeon 8380 好 2 倍多。

图 3:Ampere Altra Max、AMD EPYC 和英特尔至强之间的 x265 绝对性能

值得注意的是，基于 SMT 架构的 x86 CPU 与 Altra Max 的单线程外围架构之间的性能扩大差别。应用 Altra Max，性能与零碎中的编码工作数呈线性扩大。在 AMD EPYC 7763 和 Intel Xeon 8380 上，性能扩大是非线性的，一旦应用虚构内核，性能就会显著降落。

图 4:x265 按作业数进行的性能扩大：Ampere Altra Max

图 5:x265 按作业数进行的性能扩大：AMD EPYC 7763

图 6:x265 按作业数进行的性能扩大：英特尔至强 8380

耗电比拟–扩大到残缺的套接字级别

平台的功率效率是通过其在特定功率预算内编码的帧数来掂量的。为了掂量这一点，咱们在所有平台上齐全加载了一个套接字，最大数量的 H.265 编码工作。而后测量其的功耗，并计算每瓦 FPS。

咱们发现，在不同的视频分辨率和编码预设下，Altra Max 的均匀效率比 AMD EPYC 7763 高 40-70%，比 Intel Xeon 8380 高出 3 倍。

图 7:Ampere Altra Max、AMD EPYC 和英特尔至强之间的 x265 绝对每瓦性能

论断

随着高分辨率流媒体的增长，云中的视频流利用须要应用更高压缩率的编解码器，如 H.265。这种压缩带来了更高的计算成本和更高的功耗。在零碎层面，基于 Arm Neoverse 的 Ampere Altra Max 服务器提供了更好的可扩展性和高达 2 倍的性能，同时与 Intel“Ice-Lake”服务器平台相比，工作负载能效高达 3 倍。Altra Max 服务器的性能比 AMD “Milan”服务器高 35%，工作负载能效高 70%。最近针对 Arm 架构的 x265 优化创始了节能编码的新纪元，性能卓越，咱们激励读者评估 Ampere Altra 和 Altra Max 零碎的 x265 视频编码。

最初，咱们必须意识到，进步计算效率不是视频编码的挑战，而是个别的解决挑战。Arm Neoverse 等新架构和 Ampere Altra Max 等 cloud first CPU 设计有助于缩小计算对 on-prem 和云碳端排放的影响。无关 Neoverse 和 Ampere Altra Max 的可持续性劣势的更多信息，咱们激励您浏览咱们的 2022 年地球日博客（https://www.arm.com/blogs/blu…）。

输出视频文件:

https://storage.googleapis.co…
https://storage.googleapis.co…
https://storage.googleapis.co…

参考资料：

Bitmovin Video Developer Report 2021 https://go.bitmovin.com/video…
Research and Markets Global Video Processing Platform Market report 2021
https://www.anandtech.com/sho…
Save on H.265 encoding using AWS Graviton2

关于编码:Ampere-Altra-Max-提供可持续的高分辨率-H265-编码

背景介绍

性能测试后果

性能比拟–扩大到残缺的套接字级别

耗电比拟–扩大到残缺的套接字级别

论断

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于编码:Ampere-Altra-Max-提供可持续的高分辨率-H265-编码

背景介绍

性能测试后果

性能比拟–扩大到残缺的套接字级别

耗电比拟–扩大到残缺的套接字级别

论断

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复