Discord-CTO-谈如何支撑500W并发用户的应用Programming-in-Elixir

共计 4396 个字符，预计需要花费 11 分钟才能阅读完成。

从一开始，Discord 就是 Elixir 的早期使用者。Erlang VM 是我们打算构建的高并发、实时系统的完美候选者。我们用 Elixir 开发了 Discord 的原型，这成为我们现在的基础设施的基础。Elixir 的承诺很简单：通过更加现代化和用户友好的语言和工具集，使用 Erlang VM 的强大功能。

两年多的发展，我们的系统有近 500 万并发用户和每秒数百万个事件。虽然我们对选择的基础设施没有任何遗憾，但我们需要做大量的研究和实验才能达到这种程序。Elixir 是一个全新的生态系统，Erlang 的生态系统缺乏在生产环境中的使用信息（尽管 erlang in anger 非常棒）。我们为 Discord 工作的过程中吸取了一系列的经验教训和创造了一系列的 libs。

虽然 Discord 功能丰富，但大多数功能都归结为发布 / 订阅。用户连接 WebSocket 并启动一个会话 process（一个 GenServer），然后会话 process 与包含公会 process（内部称为“Discord Server”，也是一个 GenServer）的远程 Erlang 节点进行通信。当公会中发布任何内容时，它会被展示到每个与其相关的会话中。

当用户上线时，他们会连接到公会，并且公会会向所有连接的会话发布状态。公会在幕后有很多其他逻辑，但这是一个简化的例子：

def handle_call({:publish, message}, _from, %{sessions: sessions}=state) do
  Enum.each(sessions, &send(&1.pid, message))
  {:reply, :ok, state}
end

我们找到一个好方法。我们最初将 Discord 构建成只能创建少于 25 成员的公会。当人们开始将 Discord 用于大型公会时，我们很幸运能够出现“问题”。最终，用户创建了许多像守望先锋这样的 Discord 服公会，最多可以有 30,000 个并发用户。在高峰时段，我们开始看到这些 process 无法跟上其消息队列。在某个时刻，我们必须手动干预并关闭生成消息的功能以应对高负载。在达到超负载之前，我们必须弄清楚问题所在。

我们首先在公会 process 中对热门路径进行基准测试，并迅速发现了一个明显的问题。在 Erlang process 之间发送消息并不像我们预期的那么高效，并且 reduction(用于进程调度的 Erlang 工作单元)也非常高。我们发现单次 send/2 调用的运行时间可能在 30μs 到 70us 之间。这意味着在高峰时段，从大型公会 (3W 人) 发布活动可能需要 900 毫秒到 2.1 秒！Erlang process 实际上是单线程的，并行工作的唯一方法是对它们进行分片。这本来是一项艰巨的任务。

我们必须以某种方式分发发布消息的工作。由于 Erlang 中创建 process 很廉价，我们的第一个猜测就是创建另一个 process 来处理每次发布。但是，每次发布的时间安排不同，Discord 客户端依赖于事件的原子一致性(linearizability)。该解决方案也不能很好地扩展，因为公会服务本身的压力并没有减轻。

受一篇关于提高节点之间消息传递性能的博客文章的启发，Manifold 诞生了。Manifold 将消息的发送工作分配给 PID 的远程节点（Erlang 进程标识符），这保证了发送进程最多只调用 send / 2 等于所涉及的远程节点的数量。Manifold 通过首先按其远程节点对 PID 进行分组，然后在每个节点上发送给 Manifold.Partitioner 来实现此目的。然后，分区程序使用：erlang.phash2 / 2 一致地散列 PID，按核心数分组，并将它们发送给子工作者。最后，这些工作人员将消息发送到实际进程。这可以确保分区器不会过载，并且仍然提供 send / 2 保证的线性化。这个解决方案实际上是 send / 2 的替代品：

受到一篇《Boost message passing between Erlang nodes》博客文章的启发，Manifold 诞生了。Manifold 将消息的发送工作分配给的远程分区节点(一系列 PID)，这保证了发送 process 调用 send/ 2 的次数最多等于远程分区节点的数量。Manifold 首先对会话 process PID 进行分组，然后发送给每个远程分区节点的 Manifold.Partitioner。然后 Partitioner 使用 erlang.phash2/2 对会话 process PID 进行一致性哈希，分成 N 组，并将消息发送给子 workers(process)。最后，这些子 workers 将消息发送到会话 process。这可以确保 Partitioner 不会过载，并且通过 send/2 保证原子一致性。这个解决方案实际上是 send/2 的替代品：

Manifold.send([self(), self()], :hello)

Manifold 的作用是不仅可以分散消息发布的 CPU 成本，还可以减少节点之间的网络流量：

Discord 是通过一致性哈希实现的分布式系统。使用此方法需要我们创建可用于查找特定实体的节点的环数据结构。我们希望这很高效，所以我们使用 Erlang C port（负责与 C 代码连接的 process）并选择了 Chris Moos 写的 lib。它对我们很有用，但随着 Discord 的发展壮大，当我们有大量用户重连时，我们开始发现性能问题。负责处理环数据的 Erlang 进程将开始变得繁忙以至于处理跟不上请求，并且整个系统将变得过载。最初的解决方案似乎很明显：运行多个 process 处理环数据，以更好地利用 cpu 的所有核来响应请求。但是，我们注意到这是一条热门路径。我们可以做得更好吗？

让我们分解这条热门道路的消耗：

用户可以加入任意数量的公会，但普通用户是 5 个。
负责会话的 Erlang VM 最多可以有 500,000 个实时会话。
当会话连接时，必须为它加入的每个公会查找远程节点。
使用 request/reply 与另一个 Erlang 进程通信的成本约为 12μs。

如果会话服务器崩溃并重新启动，则需要大约 30 秒 (500000512μs) 的时间来查找环数据。这甚至没有计算 Erlang 为其他 process 工作而取消环数据 process 调度的时间。我们可以取消这笔花销吗？

当他们想要加速数据访问时，人们在 Elixir 中做的第一件事就是引入 ETS。ETS 是一个用 C 实现的快速、可变的字典; 我们不能马上将环数据搬进 ETS，因为我们使用 C port 来控制环数据，所以我们将代码转换为纯 Elixir。在 Elixir 实现中，我们会有一个 process，其工作是持有环数据并不断将其 copy 到 ETS 中，以便其他 process 可以直接从 ETS 读取。这显著改善了性能，ETS 读取时间约为 7μs(很快)，但我们仍然花费 17.5 秒来查找环中的值。环数据结构实际上相当大，并且将其 copy 进和 copy 出 ETS 是很大的花费。我们很失望，在任何其他编程语言中，我们可以轻松地拥有一个可以安全读的共享值。在 Erlang 中必须造轮子！

在做了一些研究后，我们找到了 mochiglobal，一个利用 VM 功能的 module：如果 Erlang 发现一个总是返回相同常量的函数，它会将该数据放入一个只读的共享堆，process 可以访问而无需复制。mochiglobal 的实现原理是通过在运行时创建一个带有一个函数的 Erlang module 并对其进行编译。由于数据永远不会被 copy，查询成本降低到 0.3us，总时间缩短到 750ms(0.3us5500000)！天下没有免费午餐，在运行时使用环数据(数据量大) 构建 module 的时间可能需要一秒钟。好消息是我们很少改变环数据，所以这是我们愿意接受的惩罚。

我们决定将 mochiglobal 移植到 Elixir 并添加一些功能以避免创建 atoms。我们的版本名为 FastGlobal。

在解决了节点查找热路径的性能之后，我们注意到负责处理公会节点上的 guild_pid 查找的 process 变慢了。先前的节点查找很慢时，保护了这些 process，新问题是近 5,000,000 个会话 process 试图冲击 10 个 process（每个公会节点上有一个 process）。使这条路径跑得更快并不能解决问题，潜在的问题是会话 process 对公会注册表的 request 可能会超时并将请求留在公会注册表的 queue 中。然后 request 会在退避后重试，但会永久堆积 request 并最终进入不可恢复状态。会话将阻塞在这些 request 直到接收到来自其他服务的消息时引发超时，最终导致会话撑爆消息队列并 OOM，最终整个 Erlang VM 级联服务中断。

我们需要使会话 process 更加智能; 理想情况下，如果调用失败是不可避免的，他们甚至不会尝试对公会注册表进行调用。我们不想使用断路器(circuit breaker)，因为我们不希望超时导致暂时状态。我们知道如何用其他编程语言解决这个问题，但我们如何在 Elixir 中解决它？

在大多数其他编程语言中，如果失败数量过高，我们可以使用原子计数器来跟踪未完成的请求并提前释放，事实上就是实现信号量。Erlang VM 是围绕协调 process 之间通信而构建的，但是我们知道我们不想超载负责进行协调的 process。经过一些研究，我们偶然发现：ets.update_counter/4，它的功能是对 ETS 的键值执行原子递增操作。其实我们也可以在 write_concurrency 模式下运行 ETS，但是 ets.update_counter/4 会返回更新结果值，为我们创建 semaphore 库提供了基础。它非常易于使用，并且在高吞吐量下表现非常出色：

semaphore_name = :my_sempahore
semaphore_max = 10
case Semaphore.call(semaphore_name, semaphore_max, fn -> :ok end) do
  :ok ->
    IO.puts "success"
  {:error, :max} ->
    IO.puts "too many callers"
end

事实证明，该库有助于保护我们的 Elixir 基础设施。与上述级联中断类似的情况发生在上周，但这次可以自动恢复服务。我们的在线服务 (管理长连的服务) 由于某些原因而崩溃，但会话服务甚至没有影响，并且在线服务能够在重新启动后的几分钟内重建：

在线服务中的实时在线状态

session 服务的 cpu 使用情况

选择使用和熟悉 Erlang 和 Elixir 已被证明是一种很棒的体验。如果我们不得不重新开始，我们肯定会做出相同的选择。我们希望分享我们的经验和工具，并且能帮助其他 Elixir 和 Erlang 开发人员。希望在我们的旅程中继续分享、解决问题并在此过程中学习。

消息发布

高速访问共享数据

极限并发

总结

Just My Socks（注册教程内含优惠码）

Discord-CTO-谈如何支撑500W并发用户的应用Programming-in-Elixir

消息发布

高速访问共享数据

极限并发

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）