关于人工智能:分布式学习和联邦学习简介

在这篇文章中，咱们将探讨分布式学习和联邦学习的次要原理以及它们是如何工作的。首先，咱们从一个简略的单机示例开始，而后将其倒退为分布式随机梯度降落（D-SGD），最初是联邦学习（FL）。

一个最简略的例子，咱们想学习人的身高和体重之间的线性关系，并且咱们领有 100 人的体重和身高数据，想训练一种线性模型，该模型应用身高预测人们的体重，线性回归 W = [a，b]如下：

咱们怎么找到 w? 为了求 w，应用梯度降落法(GD)，从一个随机的 w 开始，而后通过沿误差的相同方向在 100 个数据点上最小化模型的误差。

设置 A = 0 和 B = 2，并为每个数据点计算咱们的模型，如下所示：

下面的方程必定是不成立的，因为 2 * 1.70 + 0 不等于 72。咱们的指标是找到一个 a 和 b 使这个等式成立。所以须要计算该模型对于所有 100 人的数据点的误差:

指标是找到使所有数据点的误差为零的模型，咱们假设负误差与正误差相等。因而将总误差定义为所有数据点平方误差的平均值，如下所示:

强调一下这个总误差或者说损失函数的关键点是对所有数据点的平均值，也就是说每个数据点对总误差的奉献是相等的。损失函数是通过均匀所有数据点的误差来计算的，每个数据点对损失函数的奉献是相等的。

为了用梯度降落法求出 a 和 b 的最优值，须要计算 b 在初始 b 点的梯度，并按如下形式更新值:

Lambda 是学习率，持续看下图

要计算 F 的梯度，首先须要以残缺的模式编写 F。

当初，筹备计算 F 绝对于 B 的梯度：

到梯度是每个数据点谬误梯度的平均值！应用下面定义的符号，咱们能够按以下形式实现梯度降落更新规定：

通过均匀每个数据点的误差来计算损失函数的实在梯度，而后将新 B 替换为上一个 B，直到咱们的总谬误足够小。这是一个迭代过程，通过屡次宠物能够找到 A 和 B 的最佳价值。

咱们通过在 100 个数据点的所有梯度上均匀来计算 F 的梯度。如果咱们仅应用 20 个数据点进行预计，该怎么办？

这被为小批量的随机梯度降落，仅利用数据子集来计算梯度。

让咱们看一下从另一个角度计算的梯度。

如果咱们依照下面的公式重写梯度并将其分为 2 局部求和时，每个和式都有其意义。第一局部实际上是前 50 个点数据的均匀梯度，第二局部是数据集后 50 个点数据的均匀梯度。

这意味着咱们不须要将所有的 100 个数据点放在一个中央（同一台服务器）! 咱们能够将数据分成两局部而后别离计算每个局部的梯度，而后对这两个梯度求平均值，来计算整个数据的梯度。这就是 D -SGD 的次要思维。

当初，咱们有两个客户机的分布式 SGD。

如上所示，在 D -SGD 中两个客户端都从雷同的 b 点开始，而后各自用 50 个数据点计算每个客户端的梯度。而后将部分梯度发送到充当协调器的服务器上。该协调器会对两个梯度求平均值，而后计算整个数据的梯度或叫全局梯度。服务器返回这个全局梯度给两个客户端，客户端应用这个全局梯度来更新他们的 b 值或他们的模型。b 的新值对每个客户端都是一样的，因为全局梯度是一样的，计算出来的新 b 也应该是一样的。这个过程如下图所示。

从 1(计算部分梯度)到 4(下载全局梯度)的步骤一直迭代，直到达到预约义的误差程度。在这个示例中，咱们只应用了两个客户端，然而它能够扩大到许多客户端。

须要阐明的是，咱们是用部分梯度来预计全局梯度!

如果咱们利用每个客户端的部分梯度来计算每个部分模型，或者在咱们的例子中，b 如下所示，会产生什么?

在这个场景中，会以每个客户端不同的 b 值完结，如上图所示，咱们称之为本地模型。

如果咱们这样做，每个部分模型都会进行参数 b 的更新，这意味着不须要发送部分梯度。而是将部分模型的参数或者两头后果发送到服务器进行均匀，而后失去全局模型。这是联邦学习的次要思维。

FL 零碎通过反复以下过程来优化全局机器学习 (ML) 模型:

i)每个客户端设施对其数据进行本地计算以最小化全局模型 w。

ii)而后将其本地更新的模型发送到 FL 服务器进行聚合;

iii) FL 服务器对接管到的部分模型进行聚合，生成改良的全局模型;

Iv)，服务器将更新后的全局模型发送给客户端设施，客户端设施应用新的全局模型进行下一次的计算。

这个过程会一直迭代，直到模型达到预约义的精度程度。这个过程如下图所示。

在 FL 中应用模型权重，但在 D -SGD 中只应用梯度。在咱们探讨的例子中，在发送更新之前只进行了梯度降落的一个部分步骤。在这种状况下，FL 相当于分布式 sgd。如果要进行多个步骤，须要应用 FL 发送模型权重。个别模式的 FL 的收敛剖析 (多个部分步骤) 不同于咱们所做的分布式 - sgd 剖析。然而原理都是差不多的。

咱们在本文中形容的 D -SGD 算法 (中心化 D -SGD) 和 FL 算法 (FEDAVG) 只是 D -SGD 和 FL 的泛滥算法之一。

咱们须要 FL 的次要起因是因为隐衷。咱们不心愿将私人原始数据泄露给任何用于训练机器学习模型的服务器。所以须要一种不须要从客户端设施发送原始数据就能够训练机器学习算法，这就是联邦学习的作用。例如，谷歌利用 FL 来改良它的键盘应用程序(Gboard)。FL 在不同的利用中有用还有其余起因。例如 FL 使零碎可能利用挪动设施等本地计算，以加重服务器的压力。

咱们能够将 FL 面临的挑战分为两类。第一类是在运行 FL 流程之前的数据筹备流程流程。这个的关键问题是，不能拜访原始数据，甚至不能拜访 FL 零碎的设施。咱们须要晓得如何在不拜访设施的状况下设计模型或评估数据?

第二类的挑战是运行 FL 流程时呈现的问题。须要思考到参加 FL 零碎的客户端资源是受限的，他们在发送或解决 ML 模型方面的能力无限，例如在本文的例子中，咱们的参数只有 b，传输残缺的参数是可行的，然而如果模型很大，例如 BERT，那么咱们不可能在客户端和服务器之间传输几个 G 的数据，这是不可能的。

联邦学习是一个建设在分布式学习框架上的新兴主题，它试图解决事实应用程序中训练 ML 模型的隐衷问题。在本文中，咱们只涉及了这些零碎的外表，如果你想深刻理解这方面的常识能够本人搜素相干的文章或者期待咱们后续的相干文章。

https://avoid.overfit.cn/post/ea6d50f42f904c97b4fa299be0c389b5

作者：Mahdi Beitollahi

关于人工智能:分布式学习和联邦学习简介

集中学习（单机）

随机梯度降落（SGD）

分布式随机梯度降落（D-SGD）

联邦学习(FL)

联邦学习 vs 分布式 SGD

为什么联邦学习是有用的?

联邦学习的挑战

总结