关于边缘计算:边缘计算时代以来如何用好异构计算

从云而上，以边缘为终。
计算反对的层面上云计算、雾计算、边缘计算等相继而起，从场景层面上，智能家居、工业制作、交通政务、环境勘测等各自芳香。咱们能看到的算力状态已开始百花争艳，而在咱们看不到的中央，仍然有着旺盛的算力需要。
随着“十四五”打算的一直落地，放慢数字化倒退，大力发展数字经济，打造具备国内竞争力的数字产业集群，全面实施智能制作行动计划，业已成为我国以后倒退的重点之一。而企业想要从中怀才不遇，如何冲破算力的迷局，找到更加高效的算力状态，就变得至关重要。据英特尔预测，寰球的算力需要预计到 2025 年将晋升 1000 倍。那么算力需要如此旺盛，哪里能力失去这样的算力呢? 算力的状态如此丰盛，最终的答案到底是什么? 是 CPU?GPU?ASIC? 还是 FPGA? 近年来，咱们看到了一个更加牢靠的答案，那就是：“我全都要。”
异构计算：不仅仅是多面手
“我全都要”并非一种贪婪，而是一种趋势。数字化建设的本源在数据，也在智能。而各行业日趋简单的大数据和 AI 应用环境下，算力需要爆发式增长，这不仅是量在减少，状态也在变动。然而，作为一家企业，算力与架构及零碎的绑定关系使得他们不可能频繁更换底层，因而，当算力的供应增长无奈跟上算力需要的脚步，多元化算力的概念就被人开始提起。
异构计算是多元算力的典型。逾越标量 (CPU)、矢量(GPU)、矩阵(ASIC)、空间(FPGA) 的异构计算，现在曾经成为企业推动 IT 基础设施重构的重要力量。其可能将不同架构的运算单元整合到一起进行并行计算，以最适宜的专用硬件去做最适宜的事如密集计算或外设治理等，从而达到性能和老本的最优化。因而很多企业开始尝试应用异构计算来化解算力瓶颈，开掘和实现算力增长。
多元算力的利用场景正在变得越发宽泛，以快手为例，其在内容生产、内容了解、内容散发、内容生产等过程中都多元算力有着大量需要。尤其是在举荐零碎方面，快手采纳了计算与存储拆散的架构模式，举荐零碎中的存储型服务次要是用来存储和实时更新上亿规模的用户画像、数十亿规模的短视频特色、以及千亿规模的排序模型参数。其中参数服务器是一个容量和带宽受限的零碎，须要撑持每秒数亿次的 KV 申请; 参数服务器的 KV 申请也高达每秒数亿次，大规模查表会耗费大量 CPU 资源，成为其性能的次要瓶颈。
异构计算正是快手与英特尔联手给出的答案，通过将负载卸载到专门优化的芯片上，将有助于打消性能瓶颈，在吞吐量与延时方面实现显著改善。

快手 LaoFe NDP 异构计算架构
快手可提供异构减速选项的 LaoFe NDP 架构在计算层采纳英特尔 CPU、FPGA、PMEM 等器件，实现了基于 LaoFeNDP 架构的 FPGA based KVS 实际落地，进一步晋升快手在举荐、搜寻、广告、风控等各种场景的利用性能。同时，其通过计算体系结构翻新、软硬一体化、畛域专用加速器设计，通过网络存、存储、计算三重减速来提供低提早、高并发、高吞吐、低总体领有老本 (TCO) 的根底资源。
三重减速，正是异构计算独有的魅力所在。

快手 LaoFe NDP 架构图
●网络方面，LaoFe NDP 架构将 CPU 收发网络数据操作，卸载到 FPGA 上。Client 发送的申请包间接发送给 FPGA。相比 gRPC 基于 TCP/IP，性能过于简单，性能和延时计划无奈保障。而应用基于 FPGA 实现了一套 SD-RDMA 协定，通过应用层增加字段的形式，保障了相似 gRPC 的可靠性传输，这大大降低了申请时延。
●存储方面，LaoFe NDP 架构将 CPU 存储操作也卸载到 FPGA 上。为了能够最大水平施展 FPGA 的能力，快手基于通用 KV 存储场景定制了一套易于 FPGA 拜访的 KV(Key-Value) 引擎。同时，其反对 SSD/ 英特尔® 傲腾™ 长久内存 /DRAM 内存、基于 hash 的 Key-Value 存储引擎，可能无效减速存储性能。通过实战测验，应用 KV 查表的吞吐相比 CPU 计划晋升了足足 5 倍以上。
●计算方面，LaoFe NDP 架构通过 DSA 的形式将计算操作卸载到 FPGA 上，实现了一个畛域专用处理器。畛域专用处理器是一类针对特定畛域量身定制的处理器。它针对特定畛域可编程，同时在特定畛域问题解决上能带来显著的性能和效率的晋升。再加上英特尔® 至强® 可扩大处理器、英特尔® FPGA 等设施，能够帮忙快手将 LaoFe NDP 架构劣势施展到极致。

网络、存储、计算减速后示意图
异构计算背地，一场性能的变局
事实上，异构计算并非新的概念，其早在上世纪 80 年代中期就曾经被踢出，过后便被认为有着计算能力强、可扩展性好、资源利用率低等特点。然而，为什么异构计算时至今日，才再次施展出巨大作用呢?
咱们晓得技术是倒退的，很多在以往无奈实现的构思，可能在若干年后发光发热。就比方 1956 年提出的人工智能技术，在半个世纪后才发展壮大并成为了社会生存必不可缺的一部分。撑持起其变动的一方面是数据处理技术的成熟，另一方面就是算力本身的倒退。异构计算也是如此，英特尔在其倒退的过程中起到的关键作用。
在快手的 LaoFe NDP 架构中，英特尔® Stratix® 10 FPGA 体现非常出众。全新的英特尔 Hyperflex™ FPGA 架构相比前一代时钟频率进步了 2 倍，功耗升高了 70%。此外，更快的时钟频率减小了总线宽度和常识产 (IP) 的规模，开释了更多分 FPGA 资源，以增加更弱小的性能。同时它采纳了超感知设计工具，缩小了布线拥塞和设计迭代，进步了设计工作的效率。
一只蝴蝶都可能引发一场风暴，更何况是产品效力的全面晋升。当英特尔® Stratix® 10 FPGA 在 LaoFe NDP 每个环节中频繁呈现，其带来的影响是微小的。

通过将负载从 CPU 卸载到 FPGA 中，并采纳 Hash 表查找优化、随机访存、读写拆散等形式，快手将单节点参数服务器的吞吐性能晋升了 5-6 倍，整体申请延时则升高 70%-80%，这有助于晋升下层利用的实时性，提供更佳的用户交互体验。
因为 FPGA based KVS 计划可能在单节点服务器中提供远超传统计划的吞吐性能，因而仅须要部署大量的服务器就可能满足特定的性能指标要求(代替比可达 1:5)，从而升高参数服务器的 TCO。
通过应用 FPGA 来进行查表，可能无效地降 CPU 因为高频率更新而产生的性能抖动。总结一下，英特尔® Stratix® 10 FPGA 为快手 LaoFe NDP 架构提供了富于弹性的可编程硬件能力，缩小延时，实现准确管制，而且其单位算力功耗低、片上内存大，可能实用于延时要求高、批处理 (Batch) 比拟小、并发性和重复性强的利用场景。
FPGA based KVS 计划与传统计划性能比照
英特尔® 至强® 可扩大处理器针对泛滥工作负载类型和性能等级而优化的均衡架构，其对于 LaoFe NDP 十分重要，可能为之提供内置的人工智能减速和高级平安性能，可提供无缝性能根底，帮忙从边缘到云放慢数据的变革性影响。除此以外它横跨计算、网络、存储的平台翻新和硬件加强虚拟化，均反对新型内存翻新，促成以经济实惠、灵便、可扩大的形式实现边缘到云的传输，从而统一地提供杰出的企业对企业 (B2B) 和企业对消费者 (B2C) 体验。同时英特尔硬件加强的安全性有助于抵挡歹意攻打，同时放弃工作负载的完整性和性能。
英特尔® 傲腾™ 长久内存集高速、高性价比、大容量、持久数据爱护和高级加密等劣势于一体，在其推出之时便引发了微小反应。它可能为 LaoFe NDP 减少全新的内存和存储层级，放大内存和存储档次架构之间的要害差距，从而实现更智能、更灵便的架构。其能实现每台服务器的内存容量翻倍，且每台虚拟机的老本升高达 25%，在进行实时剖析和 AI 工作负载等须要解决大量数据集的服务，性能晋升可高达 2 倍。除此以外它还提供了内存模式 (Memory Mode) 和利用间接拜访模式 (App Direct Mode) 两种模式。在内存模式下，英特尔® 傲腾™ 长久内存可作为经济高效的 DRAM 替代品。CPU 内存控制器会把长久内存视作易失性的零碎内存，体现与 DRAM 相似，同时 CPU 内存控制器会将 DRAM 内存用作长久内存的高速缓存。该模式可能提供更大的内存容量，这对于异构计算的晋升成果是微小的。
软硬并进，异构即兼容
你见，或者不见，算力就在那里。异构计算衍生倒退数十年，其就像一座矿山，期待用户的去挖掘。宝剑赠英雄，开发者们如何充沛开掘现有异构硬件的性能，取得最优性价比的 IT 资源才是要害。
“软硬兼施”能力更好的应答异构计算的需要。
在硬件层面，英特尔提出 XPU 策略，欠缺在 CPU、GPU、ASIC、FPGA 畛域的产品线。不仅通过性能外围和能效外围策略，使 CPU 中不同外围负责不同工作负载，实现 CPU 集群本身的异构，同时通过 AMX、SSE、AVX、AVX-512 等指令集扩大，大幅度晋升 CPU 的 AI 运算性能。在全新的第四代英特尔®至强®可扩大处理器中，退出了更多异构减速引擎，比方减速内存拷贝的 DSA，减速网络解决的 DLB，减速大数据分析的 IAA，减速数据加解密、压缩解压缩的 QAT，使 CPU 弹性进一步晋升，轻松应答多种工作负载的性能减速需要。
除了 CPU，英特尔还提供面向云游戏、视频解决、虚构桌面和 AI 推理的 Flex 系列 GPU，面向 HPC 和 AI 训练 / 推理的 GPU Ponte Vecchio。而针对特定的 AI 减速，英特尔还打造了面向 AI 训练和推理的专用人工智能处理器 Habana，丰盛 ASIC AI 芯片的生态系统。
针对数据中心部署和利用中的数据流解决、计算减速和存储减速等问题，英特尔® Stratix® 10 和最新的 Agilex™ FPGA 芯片，以编程的灵活性、高并发、高吞吐性能和低提早个性，被宽泛应用在各大云计算公司的数据中心中。值得一提的是，为了帮忙云服务提供商转移基础设施性能工作，最大化 CPU 资源，取得更多支出，英特尔还提供可能清晰隔离基础设施性能和租户工作负载的，且基于 FPGA 和 ASIC 的 IPU，以满足用户的多样化需要。
在软件层面，英特尔也在继续发力，最大化硬件性能。其重磅推出的 oneAPI，作为对立的软件编程架构，能够反对多种异构计算单元，为下层的软件开发者提供一套利用开发接口，以解决将来利用性能在 CPU、GPU 等因为散布或是硬件降级后须要重写软件代码的问题。OneAPI 不局限于反对英特尔硬件，也反对其余厂商的硬件。同时提供基于 API 的各种高性能库，能够在多种异构平台上运行并提供极高的性能，其中很多库将开源，英特尔激励生态合作翻新，独特推动异构计算的倒退与演进。
咱们不难发现，异构计算的网，正在铺成智能时代的路。英特尔对于异构计算架构在软硬件层面一直进行调优与反对，软硬兼备，帮忙开发者更加高效地进行数据的存储与解决，推动智能化倒退过程。LaoFeNDP 架构就是英特尔与快手的一次胜利尝试，其证实了通过异构计算来减速不同的负载，可能显著晋升在举荐等场景下的零碎吞吐与延时体现。
面向未来，为构建高性能、低成本、灵便高效的异构计算平台，须要更多的技术协同利用，独特推动数据中心降级。能够预感，PCIe 5.0、DDR5、Scalable IOV、虚拟内存共享技术 SVM、CXL 等技术都将发光发热。当 CPU、XPU、共享内存、共享存储等技术将通过智能网络架构和 IPU 互联，更加弱小的异构计算能力和数据中心必将为数字化的世界提供源源不断的算力撑持。
观看英特尔联结国内学术期刊《迷信》独特推出的“架构师成长打算”第六期《异构计算数据中心“芯”改革》精彩回放点击链接：https://bizwebcast.intel.cn/p…