2022年8月2日, TPC事务处理性能委员会官网正式公布了星环科技在3TB数据量下的TPCx-AI测试后果,Sophon Discover 3.0以AIUCpm 2,740.05分的优异体现,成为该数据量下寰球首个胜利通过测试及官网审计的产品,也是截至目前该AI基准测试最大的数据量级。

TPCx-AI,贴合理论人工智能应用场景的Benchmark

TPC(Transaction Processing Performance Council)全称为事务处理性能委员会,是寰球最出名的数据管理系统测评基准标准化组织。TPCx-AI是TPC组织定义的一种端到端AI基准测试规范,用于掂量机器学习或数据迷信平台的在AI端到端流水线中的性能。该AI基准测试对于数据处理量级、运行便捷性、性价比、宽泛适应性、ML&DL性能均做出要求,并需通过官网审计。TPCx-AI规范要求测试厂商领有人工智能畛域的技术能力,还须要提供残缺的软硬件解决方案和一站式的人工智能平台,并在AI前沿畛域具备突破性钻研。

TPCx-AI测试规范共提供10个机器学习和深度学习测试用例,涵盖客户分类、客户对话转录、销售预测、垃圾邮件检测、价格预测、分类和欺诈检测等利用场景。每个用例都蕴含:数据生成、数据管理、模型训练、模型评分和模型推理阶段。区别于其余AI基准,TPCx-AI应用多模态的数据集(蕴含结构化和非结构化的图像、音频等多模态数据格式),并可扩大到TB级别;数据管理阶段蕴含数据荡涤、数据摸索和预处理等过程,理论模仿了商业生产环境的数据处理流程。最初应用数据集进行模型训练、模型推理和模型评估。

AI测试用例的端到端流程

秉持研发翻新技术初心,星环科技朝TPCx-AI进发

作为长期从事大数据和人工智能根底平台研发的企业,一方面星环科技放弃凋谢的心态与业界共同进步,因而有责任和TPC一起,欠缺TPCx-AI这项在靠近企业生产环境中的人工智能(含机器学习)产品和计划的基准测试,为机器学习平台行业提供基线;另一方面,星环科技始终谋求技术自主性和先进性,一直测验本身产品体系和框架在以后业界支流人工智能场景中的线性扩展性、高性能、高性价比和宽泛适应性;此外,TPCx-AI作为首个端到端大数据+人工智能的数据迷信Benchmark,有对场景了解、大数据技术、AI迷信与技术的多重挑战,这和公司谋求的“把自主研发的当先翻新技术赋能全世界各行各业,促成社会可继续倒退,通过科技让人类的生存更美妙”的主旨也是高度符合的。

“简单计算环境”、“AI全流程”、“多模态”——大数据与AI交融的基准测试所带来的一系列挑战

简单的计算环境

TPCx-AI是规范的大数据和AI软件异构混合计算环境,其中大数据相干的装置软件包含:Hadoop、Spark、Yarn、HDFS、Horovod等,AI相干的装置软件包含:Tensorflow、Keras、Sklearn、XGBoost、Pandas等;同时也是规范的硬件异构混合计算环境,同时蕴含CPU减速和GPU减速,以及单机减速和分布式集群减速。一方面较为考验平台对于大数据和AI异构混合计算环境的适应性,另一方面对于不同品种硬件的异构运算,也提出了能力要求。

AI全流程的测试场景

TPCx-AI的测试场景蕴含数据生成、数据管理、模型训练、模型推理、模型评估、吞吐量并发测试,蕴含了端到端的数据迷信全流程,须要平台具备AI全生命周期的能力。

丰盛的测试用例

TPCx-AI共提供10个测试用例,蕴含7个机器学习模型和3个深度学习模型,模型波及有监督学习和无监督学习。其中,用例9应用的是混合模型(模型构造为:embedding神经网络+LogisticRegression)。对于平台而言,须要解决性能优化瓶颈,并且无效解决CPU/GPU密集型计算、IO密集型计算、内存密集型计算等多样的计算类型。

多模态的数据类型

区别于其余AI基准,TPCx-AI应用的是多模态的数据集,蕴含结构化和非结构化(图像、音频等)多种数据格式,对于平台多源异构的数据处理及剖析能力提出了要求。该测试集可扩大到TB级别,是将大数据与人工智能技术进行交融测试的场景。

“更快”、“更少”、“更极致”——一直摸索软件的可能性

为了应答上述挑战,星环科技对软件做了大量的优化工作,从而实现了内存占用更少、计算更快、产品更加极致的指标,具体优化工作如下:

  • Spark参数优化/ UseCase参数优化:深刻理解每个UseCase的逻辑,剖析执行细节,确定优化方向;通过监控系统资源应用状况以及监控JVM中GC状况,对每个UseCase的Spark参数进行优化。针对不同UseCase的性能瓶颈:计算、IO、内存、通信,在TPCx-AI官网要求精度范畴内以及可批改参数范畴内,对UseCase自带参数进行调试最优化;
  • 联合RDMA、GPUDirect根底技术尝试晋升节点与集群的整体计算和通信性能;
  • 对模型训练及推理过程尝试编译级别优化,充分发挥CPU向量计算、GPU并行计算性能;
  • 应用混精、剪枝、蒸馏等技术尝试优化模型,内存占用更少,计算更快。

一款自主研发的数据迷信平台,终在国内基准测试中获亮眼体现

至此,星环科技正式向TPCx-AI发动挑战。历经前后半年工夫,星环科技的数据迷信平台Sophon Discover别离进行了TPCx-AI scale factors为100GB、1TB、3TB的测试。其中,1TB数据的性能体现为1696,比4月TTA公布的性能后果高出超出491分,比8月DELL公布性能后果仍然超出218分。当然,咱们不满足于1TB数据的性能测试后果,向着3TB数据规模发动挑战,最终成为寰球首个通过TPCx-AI scale factors为3000基准测试及官网审计的厂商,且性能达到了2740.05。与同数据量下的其余后果相比,Sophon Discover每节点可奉献456.68的性能得分,优于CDP每节点奉献390.19的性能得分。

从颁布的测试后果不难看出,Sophon不管从数据量级、性能体现、性价比及自主性方面均达到了最优的问题。

值得一提的是,在所有颁布的测试后果当中,只有星环科技应用的是齐全自主研发的国产数据迷信平台。除了能够保障用户的平台应用平安外,此次基于数据迷信平台Sophon Discover 3.0的测试后果,也是真正意义上可理论商用的AI测试后果,其配置合乎企业理论落地AI利用时,应用分布式集群的商用配置。

建言献策,为国内基准测试奉献中国技术力量

在进行产品测试的过程中,咱们也发现了多处BUG并帮忙TPC欠缺了TPCx-AI套件的代码逻辑,使得测试环境更加稳固。此外,星环科技向TPC组织提出了TPCx-AI@Sophon测试计划,最终该计划通过了委员会审核,成为被官网认可的国内基准测试框架。今后,其余厂商能够在他们的硬件下面运行基于Sophon 的TPCx-AI测试套件,用于掂量硬件的性能。

至此,星环科技也成为了TPCx-AI的技术贡献者之一,为国内基准测试奉献了来自中国的技术力量。

作为寰球首家通过3TB TPCx-AI国内基准测试及官网审计的企业,星环科技为企业AI利用的商用落地摸索出了一条可行路线。将来,星环科技也将秉持“自主原创,当先一代”的技术倒退策略,为用户提供更强性能和更高性价比的人工智能框架和平台,在数字化转型之路上,以技术之力帮忙用户解决AI落地难题,更深刻地洞察数据价值。