关于前端:openEuler创新项目探索一个Java端的向量化BLAS库VectorBLAS

VectorBLAS简介

VectorBLAS是一个应用Java语言实现的向量化BLAS高性能库，目前已在openEuler社区开源。

VectorBLAS通过循环展开、矩阵分块和内存布局优化等算法优化，对BLAS函数进行了深度优化，并利用VectorAPI JDK提供的多种向量化API实现。

能够了解为：VectorBLAS = VectorAPI + BLAS。

BLAS简介：

BLAS（Basic Linear Algebra Subprograms）是进行向量和矩阵等根本线性代数操作的数值库，是LAPACK(Linear Algebra Package)的一部分。

在高性能计算畛域中被广泛应用，由此衍生出大量优化版本，如OpenBLAS、Intel的Intel MKL等优化版本。

次要反对三个级别的运算：别离反对向量与向量、向量与矩阵、矩阵与矩阵的相干操作。

VectorAPI简介：

VectorAPI是Java端为实现SIMD向量化性能提供的一个形象层，从JDK16开始公布，目前已孵化到第六代(JDK21)。

VectorAPI提供的能力包含：

定义更清晰及精确的向量化API，使用户更间接的实现向量化；
与平台无关：反对AArch64和x86等平台，反对NEON、SVE、AVX等多种向量化指令，一份代码多处可用；

利用场景：

目前BLAS库在大数据、HPC和机器学习等高性能计算中被宽泛应用。例如大数据组件Spark中的多种机器学习算法（如：KMeans、 LDA、 PCA、 Bayes、 GMM、 SVM等）都用到了BLAS函数接口gemm、 gemv、 axpy、 dot、 spr等。

次要优化办法

1. VectorAPI向量化

BLAS库中的函数分为矢量-矢量、矢量-矩阵、矩阵-矩阵的计算，其中少数场景为对数组、矩阵进行计算，因而应用向量化进行优化，一次解决多个数据，晋升效率，上面以daxpy函数为例：

daxpy => y = alpha * x + y, 其中alpha为常数，x和y为一维向量，数据类型均为double；

原生奢侈实现：对x和y中的元素一一计算；

向量化实现：以256位宽的寄存器为例，一次能够解决2个double类型，即一次对alpha、x和y做两次乘加操作；

能够看出，向量化操作能够成倍的晋升解决效率，目前的向量化寄存器有128、256、512等大小的位宽，SVE等指令集甚至最高可反对2048位。

2. 循环展开

循环展开是一种循环转换技术，通过缩小或打消控制程序循环的指令，来缩小计算开销，这种开销包含减少指向数组中下一个索引或者指令的指针算数等，还能够缩小循环的次数，每次循环内的计算也能够利用CPU的流水线晋升效率；

JDK中的JIT即时编译器也有针对循环进行主动优化，尤其是应用int, short, 或者char变量作为计数器的计数循环（counted loops）

VectorBLAS次要剖析函数个性，通过把循环革新为counted loop，或手动对要害循环进行开展，以此进步执行效率；

3. 矩阵分块

矩阵分块是一种cache优化伎俩，当数组、矩阵的规模较大的时候，在N层循环中的跨度太大时，无奈fit in the cache，数据则会被清出了缓存，造成较高的cache miss率；
通过矩阵分块，能够将小块数据锁在L1/L2 Cache中，进步cache命中，升高cache miss率。

4. Packing

Packing优化又称为内存布局优化，因矩阵在数组中个别是按列存储或者按行存储，若计算时不是依照整行整列的程序进行，那么就须要跨列或跨行读取数据。

Packing指的是在内存中新开一块空间，在这块空间内从新排布数据，使得数据的读取能够变得间断，缩小cache miss，晋升读取速度，Packing个别与矩阵分块搭配应用。

性能数据

现有版本基于鲲鹏服务器测试验证，性能相较于业界同类库F2jBLAS/ludovic.netlib都有晋升，如下图所示：

后续布局

本我的项目已开源在openEuler社区，以后版本实现了BLAS库中的次要接口，后续布局如下：

反对Level1、Level2、Level3中更多的函数接口；
补充欠缺UT和Benchmark；
对于不同平台/指令集的调优；

4.联合Spark MLlib等机器学习算法库进行性能优化。

欢送感兴趣的敌人们参加进来，代码地址：https://gitee.com/openeuler/vectorBlas