2022 年 8 月 2 日,TPC 事务处理性能委员会官网正式公布了星环科技在 3TB 数据量下的 TPCx-AI 测试后果,Sophon Discover 3.0 以 AIUCpm 2,740.05 分的优异体现,成为该数据量下寰球首个胜利通过测试及官网审计的产品,也是截至目前该 AI 基准测试最大的数据量级。
TPCx-AI,贴合理论人工智能应用场景的 Benchmark
TPC(Transaction Processing Performance Council)全称为事务处理性能委员会,是寰球最出名的数据管理系统测评基准标准化组织。TPCx-AI 是 TPC 组织定义的一种端到端 AI 基准测试规范,用于掂量机器学习或数据迷信平台的在 AI 端到端流水线中的性能。该 AI 基准测试对于数据处理量级、运行便捷性、性价比、宽泛适应性、ML&DL 性能均做出要求,并需通过官网审计。TPCx-AI 规范要求测试厂商领有人工智能畛域的技术能力,还须要提供残缺的软硬件解决方案和一站式的人工智能平台,并在 AI 前沿畛域具备突破性钻研。
TPCx-AI 测试规范共提供 10 个机器学习和深度学习测试用例,涵盖客户分类、客户对话转录、销售预测、垃圾邮件检测、价格预测、分类和欺诈检测等利用场景。每个用例都蕴含:数据生成、数据管理、模型训练、模型评分和模型推理阶段。区别于其余 AI 基准,TPCx-AI 应用多模态的数据集(蕴含结构化和非结构化的图像、音频等多模态数据格式),并可扩大到 TB 级别;数据管理阶段蕴含数据荡涤、数据摸索和预处理等过程,理论模仿了商业生产环境的数据处理流程。最初应用数据集进行模型训练、模型推理和模型评估。
AI 测试用例的端到端流程
秉持研发翻新技术初心,星环科技朝 TPCx-AI 进发
作为长期从事大数据和人工智能根底平台研发的企业,一方面星环科技放弃凋谢的心态与业界共同进步,因而有责任和 TPC 一起,欠缺 TPCx-AI 这项在靠近企业生产环境中的人工智能(含机器学习)产品和计划的基准测试,为机器学习平台行业提供基线;另一方面,星环科技始终谋求技术自主性和先进性,一直测验本身产品体系和框架在以后业界支流人工智能场景中的线性扩展性、高性能、高性价比和宽泛适应性;此外,TPCx-AI 作为首个端到端大数据 + 人工智能的数据迷信 Benchmark,有对场景了解、大数据技术、AI 迷信与技术的多重挑战,这和公司谋求的“把自主研发的当先翻新技术赋能全世界各行各业,促成社会可继续倒退,通过科技让人类的生存更美妙”的主旨也是高度符合的。
“简单计算环境”、“AI 全流程”、“多模态”——大数据与 AI 交融的基准测试所带来的一系列挑战
简单的计算环境
TPCx-AI 是规范的大数据和 AI 软件异构混合计算环境,其中大数据相干的装置软件包含:Hadoop、Spark、Yarn、HDFS、Horovod 等,AI 相干的装置软件包含:Tensorflow、Keras、Sklearn、XGBoost、Pandas 等;同时也是规范的硬件异构混合计算环境,同时蕴含 CPU 减速和 GPU 减速,以及单机减速和分布式集群减速。一方面较为考验平台对于大数据和 AI 异构混合计算环境的适应性,另一方面对于不同品种硬件的异构运算,也提出了能力要求。
AI 全流程的测试场景
TPCx-AI 的测试场景蕴含数据生成、数据管理、模型训练、模型推理、模型评估、吞吐量并发测试,蕴含了端到端的数据迷信全流程,须要平台具备 AI 全生命周期的能力。
丰盛的测试用例
TPCx-AI 共提供 10 个测试用例,蕴含 7 个机器学习模型和 3 个深度学习模型,模型波及有监督学习和无监督学习。其中,用例 9 应用的是混合模型(模型构造为:embedding 神经网络 +LogisticRegression)。对于平台而言,须要解决性能优化瓶颈,并且无效解决 CPU/GPU 密集型计算、IO 密集型计算、内存密集型计算等多样的计算类型。
多模态的数据类型
区别于其余 AI 基准,TPCx-AI 应用的是多模态的数据集,蕴含结构化和非结构化(图像、音频等)多种数据格式,对于平台多源异构的数据处理及剖析能力提出了要求。该测试集可扩大到 TB 级别,是将大数据与人工智能技术进行交融测试的场景。
“更快”、“更少”、“更极致”——一直摸索软件的可能性
为了应答上述挑战,星环科技对软件做了大量的优化工作,从而实现了内存占用更少、计算更快、产品更加极致的指标,具体优化工作如下:
- Spark 参数优化 / UseCase 参数优化:深刻理解每个 UseCase 的逻辑,剖析执行细节,确定优化方向;通过监控系统资源应用状况以及监控 JVM 中 GC 状况,对每个 UseCase 的 Spark 参数进行优化。针对不同 UseCase 的性能瓶颈:计算、IO、内存、通信,在 TPCx-AI 官网要求精度范畴内以及可批改参数范畴内,对 UseCase 自带参数进行调试最优化;
- 联合 RDMA、GPUDirect 根底技术尝试晋升节点与集群的整体计算和通信性能;
- 对模型训练及推理过程尝试编译级别优化,充分发挥 CPU 向量计算、GPU 并行计算性能;
- 应用混精、剪枝、蒸馏等技术尝试优化模型,内存占用更少,计算更快。
一款自主研发的数据迷信平台,终在国内基准测试中获亮眼体现
至此,星环科技正式向 TPCx-AI 发动挑战。历经前后半年工夫,星环科技的数据迷信平台 Sophon Discover 别离进行了 TPCx-AI scale factors 为 100GB、1TB、3TB 的测试。其中,1TB 数据的性能体现为 1696,比 4 月 TTA 公布的性能后果高出超出 491 分,比 8 月 DELL 公布性能后果仍然超出 218 分。当然,咱们不满足于 1TB 数据的性能测试后果,向着 3TB 数据规模发动挑战,最终成为寰球首个通过 TPCx-AI scale factors 为 3000 基准测试及官网审计的厂商,且性能达到了 2740.05。与同数据量下的其余后果相比,Sophon Discover 每节点可奉献 456.68 的性能得分,优于 CDP 每节点奉献 390.19 的性能得分。
从颁布的测试后果不难看出,Sophon 不管从数据量级、性能体现、性价比及自主性方面均达到了最优的问题。
值得一提的是,在所有颁布的测试后果当中,只有星环科技应用的是齐全自主研发的国产数据迷信平台。除了能够保障用户的平台应用平安外,此次基于数据迷信平台 Sophon Discover 3.0 的测试后果,也是真正意义上可理论商用的 AI 测试后果,其配置合乎企业理论落地 AI 利用时,应用分布式集群的商用配置。
建言献策,为国内基准测试奉献中国技术力量
在进行产品测试的过程中,咱们也发现了多处 BUG 并帮忙 TPC 欠缺了 TPCx-AI 套件的代码逻辑,使得测试环境更加稳固。此外,星环科技向 TPC 组织提出了 TPCx-AI@Sophon 测试计划,最终该计划通过了委员会审核,成为被官网认可的国内基准测试框架。今后,其余厂商能够在他们的硬件下面运行基于 Sophon 的 TPCx-AI 测试套件,用于掂量硬件的性能。
至此,星环科技也成为了 TPCx-AI 的技术贡献者之一,为国内基准测试奉献了来自中国的技术力量。
作为寰球首家通过 3TB TPCx-AI 国内基准测试及官网审计的企业,星环科技为企业 AI 利用的商用落地摸索出了一条可行路线。将来,星环科技也将秉持“自主原创,当先一代”的技术倒退策略,为用户提供更强性能和更高性价比的人工智能框架和平台,在数字化转型之路上,以技术之力帮忙用户解决 AI 落地难题,更深刻地洞察数据价值。