乐趣区

关于github:GitHub-近期频繁宕机官方解释MySQL-负载过重

在过来的几周里,因为数据库的问题,GitHub 经验了多起宕机事件,导致平台的服务降级,影响了许多用户的应用。

GitHub 对宕机事件非常重视,在解决问题的同时,也于本月 23 日颁布了这些事件的详细情况。

工夫线

  • 3 月 16 日 14:09 UTC(继续 5 小时 36 分钟)
  • 3 月 17 日 13:46 UTC(继续 2 小时 28 分钟)
  • 3 月 22 日 15:53 UTC(继续 2 小时 53 分钟)
  • 3 月 23 日 14:49 UTC(继续 2 小时 51 分钟)

据理解,过来几周导致 GitHub 频繁宕机的次要起因是其 mysql1 集群的资源抢夺,这在负载顶峰期间影响了 GitHub 的大量服务和性能性能。

在过来的几年里,GitHub 曾经进行了许多优化,例如增加集群以反对平台的增长、对主数据库进行分区等,但这些改良工作并不能一劳永逸,始终到当初他们仍在踊跃地解决这个问题。

为了避免未来产生此类事件,GitHub 已开始在顶峰时段对该特定数据库的负载模式进行审计,并依据这些审计进行一系列性能修复。作为其中的一部分,他们正在将流量转移到其余数据库,以缩小负载并放慢故障转移工夫,并审查其变更管理程序,特地是与生产中高负载期间相干的监控和变更。

随着平台的一直倒退,GitHub 将始终致力扩大基础设施,包含对数据库进行分片和扩大硬件。

退出移动版