关于后端:分布式系统设计-从1千到10亿用户的跨越

随着用户增长，分布式系统的架构也须要随之演进。本文介绍了在用户从 1 千增长到 10 亿的过程中，零碎架构须要采纳的技术以及随之做出的扭转。原文: Distributed System Design — Scaling from 1K -10K, 10K-100K, 100K-1M, 1M to 100M and 10M to 1B users.

构建分布式系统最具挑战性的方面之一是扩大零碎以解决不同级别的用户流量，本文将探讨分布式系统的用户数量从 1 千扩大到 10 亿时所波及的罕用技术和架构衡量，还将针对每种规模提供进一步阐明剖析。

用户数量从 1 千扩大到 1 万：

这种规模的零碎绝对简略，只需一台服务器或小型服务器集群即可解决。次要挑战有:

确保服务器可用性 (非高可用性) 和可靠性，现阶段能够只用一台服务器。
在这个阶段，只须要一个中型到大型的 Azure/AWS/GCP VM 就足够了。
优化服务器性能和提早。
根本平安和认证机制。

能够在这种规模上应用的一些技术是:

应用数据库来存储和检索数据。
应用 SSL/TLS 对客户端和服务端之间的通信进行加密。
应用 OAuth 或 JWT 对用户进行身份验证并受权其操作。

用户数量从 1 万扩大到 10 万：

在这种规模下，零碎开始面临更多挑战，须要更多资源，也更加简单。次要挑战有:

解决多个用户的并发申请和连贯。
扩大数据库以解决更多的数据和查问。
应用负载均衡器在服务器之间调配接管到的申请。
解决系统故障和谬误。
监控和记录零碎行为和性能。

在这种规模下能够应用的一些技术包含:

应用缓存来缩小服务器负载并缩短响应工夫。
应用程度扩大来增加更多服务器，以解决更多申请和连贯。
应用分片或分区在多个数据库服务器或群集之间宰割数据。
应用复制或备份确保故障状况下的数据一致性和可用性。
应用音讯队列或 Pub/Sub 子系统来解耦零碎组件并解决异步事件。
应用应用程序性能监控 (APM) 工具或日志框架来收集和剖析零碎指标和日志。

用户数量从 10 万扩大到 100 万：

在这种规模下，零碎变得更加简单，须要进行更多的优化和调整。次要挑战有:

管理系统分布式组件之间的网络提早和带宽。
均衡服务器和数据库之间的负载。
解决零碎热点和瓶颈问题。
确保分布式环境中的数据完整性和安全性。

在这种规模下能够应用的技术包含:

采纳 CDN(content delivery network)形式，使动态内容更贴近用户，升高网络时延。
应用具备健康检查和主动伸缩性能的负载均衡器，依据负载动静调整服务器数量。
应用一致性哈希或 DHT(distributed hash table)，依据哈希函数在服务器或数据库之间散布数据。
应用速率限度或节流来管制每个用户或每个工夫距离的申请或操作数量。
应用加密或哈希来爱护传输或静止的敏感数据。

在这种规模下，零碎变得更加简单，须要更多翻新和试验。次要挑战有:

实现零碎跨多个地区或区域的高可扩展性和可用性。
优化系统资源的老本和效率。
解决边缘状况和零碎行为或数据异样。
在实在环境中测试和调试零碎。

用户数量从 100 万扩大到 1 亿：

现阶段的次要挑战是:

大规模保护零碎的高质量和可靠性。适应一直变动的用户需要和冀望。
随着新技术和新趋势一直倒退。
与市场上的其余零碎竞争。

在这种规模下能够应用的一些技术包含:

应用天文复制或多区域部署，在不同地理位置复制或部署零碎，以进步性能和可用性。
应用微服务或无服务器架构，将零碎合成为更小、独立和可扩大的性能单元。
应用机器学习或异样检测，辨认并解决零碎或数据中的异样模式或事件。
应用混沌工程或故障注入，模拟系统中的故障或中断，并测试其恢复能力。

用户数量从 1 亿扩大到 10 亿：

在这种规模下，零碎变得十分先进和简单，必定须要更多的研发。

在这种规模下能够应用的一些技术包含:

应用自动化或调度工具来治理、部署和更新零碎，尽量减少人工干预。
应用 A/B 测试或试验来测试和比拟实在用户应用零碎的不同版本或性能，并掂量其影响。
应用大数据或数据分析来收集和解决大量数据，并生成见解和倡议。
应用人工智能或深度学习来加强零碎性能和用户体验。
服务发现和负载平衡机制。可能须要应用 Istio 或 Linkerd 等服务网格来治理微服务之间的通信和路由。服务网格能够提供服务发现、负载平衡、容错、平安和可察看性等性能。
数据存储和缓存策略。可能须要应用 Couchbase 或 Cassandra 等分布式数据库来跨多个节点存储和查问数据。分布式数据库可提供可扩展性、可用性、一致性和性能等性能。可能还须要应用 Redis 或 Memcached 等分布式缓存来存储频繁拜访的数据，并缩小数据库负载。
监控和日志记录工具。可能须要应用 Prometheus 或 Grafana 等监控工具来收集和可视化微服务的指标，如 CPU、内存、提早和吞吐量。可能还须要应用 Fluentd 或 Logstash 等日志工具来收集和剖析微服务的日志，如谬误、正告和事件。
测试和部署工具。可能须要应用 JMeter 或 Gatling 等测试工具来模仿和测量微服务在不同负载状况下的性能。可能还须要应用 Jenkins 或 Spinnaker 等部署工具来主动协调微服务在不同环境中的部署。
零碎和数据的安全性和可靠性。可能须要应用 Vault 或 Keycloak 等平安工具来治理微服务和用户的身份验证和受权。平安工具能够提供加密、令牌治理和身份联结等性能。可能还须要应用 Chaos Monkey 或 Gremlin 等可靠性工具来注入故障并测试微服务的弹性。可靠性工具能够帮忙辨认并修复零碎的潜在问题和破绽。
零碎与微服务的集成和通信。可能须要应用 Kafka 或 RabbitMQ 等集成工具来实现微服务之间的异步和事件驱动通信。集成工具能够提供可扩展性、耐用性和容错等性能。可能还须要应用 gRPC 或 GraphQL 等通信工具来实现微服务与客户端之间高效灵便的通信。通信工具能够提供性能、互操作性和模式验证等性能。

论断

本文探讨了将分布式系统从 1 千用户扩大到 10 亿用户所波及的罕用技术和衡量，还针对每种规模提供了分步阐明。扩大分布式系统不是一个放之四海而皆准的问题，而是一直学习、调整和改良的过程。心愿这篇文章能为读者提供有用的见解和技巧，帮忙读者设计和扩大本人的分布式系统。

你好，我是俞凡，在 Motorola 做过研发，当初在 Mavenir 做技术工作，对通信、网络、后端架构、云原生、DevOps、CICD、区块链、AI 等技术始终保持着浓重的趣味，平时喜爱浏览、思考，置信继续学习、一生成长，欢送一起交流学习。为了不便大家当前能第一工夫看到文章，请敌人们关注公众号 ”DeepNoMind”，并设个星标吧，如果能一键三连(转发、点赞、在看)，则能给我带来更多的反对和能源，激励我继续写下去，和大家独特成长提高！

本文由 mdnice 多平台公布