关于数据:数据架构变革进行时现代化应用需要怎样的数据策略

现有数据架构难以撑持现代化利用的实现。

随着云计算产业的疾速崛起，带动着各行各业开始本人的基于云的业务翻新和信息架构现代化，云计算的可靠性、灵活性、按需计费的高性价比等劣势曾经让很多企业把“云”业务列入到将来倒退战略规划中。现代化利用是现有应用程序的再降级，也是基于新技术新模式开发的新利用。现代化利用能够帮忙企业面对更加简单的业务竞争，并在这样的竞争中凭借模型的先进、数据的洞察、利用的翻新实现当先。因而，许多企业心愿通过采纳古代利用程序开发的模式，转变应用程序的设计、构建和治理形式，从而进步敏捷性，并放慢本身的翻新过程。以云原生、容器、微服务、Serverless 等为根底的现代化利用开发衰亡之际，各行业都把关注的眼光瞄准到了数据架构上。毕竟微服务、Serverless 构建的利用就像是引擎，而数据才是真正的能源。

现代化利用对规模、可用性和性能都提出了更高的要求。

对于现代化利用来说，不仅要应答剧增的用户数量，还要撑持一直增长的利用负载品种和数量。这是现代化利用开发面对的第一个难题——更强的可扩展性。

以游戏的场景为例，目前排名靠前的国民级游戏日活用户曾经超过 1 亿多人，将来百万以上用户量将成为应用程序的常态，咱们畅想一下最近大火的元宇宙场景，如果是一个寰球级别的元宇宙利用，其用户数量会是这个数据的数倍，甚至数十倍，媲美亚马逊黑色星期五大促销的高并发状况将成为日常。所有人都在一个元宇宙进行交互的场景，对应的后端系统响应并发的要求是极高的。这不是在推测，而是基于事实和现状，对将来的正当预测。因而首先须要解决的，就是更大规模并发问题。

现代化利用开发面对的第二个问题，是如何存储海量数据，以及存储海量数据之后，如何对这些数据进行实时化和智能化解决。

以后数据已呈现出“二八定律”：结构化数据占 20%，非结构化数据占 80%。《微软航行模拟器》模仿实在的山脉、路线、云朵，产生了超过 2.5PB（2.5 x 10^6 GB）的结构化数据，终极元宇宙所需数据量至多比此高出多个数量级。

依据 IDC 的最新报告，现有数据中非结构化数据占比已超过 90%。随着新型软件的增多，非结构化数据占比将越来越高。不同格局、不同规范的非结构化数据在技术上比结构化数据更难存储和剖析。传统数据架构应答这样的海量数据将会很吃力。

另外，现代化利用还须要思考性能和提早的问题。将来，新的现代化利用都会以遍布寰球的用户为指标，这就对提早有极高的要求。在游戏中，10ms 的提早都是不可承受的，有些游戏甚至须要内存级别的提早。超强的带宽、超快的传输速度等的实现，须要遍布寰球的通信基础设施建设。

须要留神的是，在思考高并发和低提早的同时，还须要兼顾思考总体品质和老本。建设、运行和保护这么大规模的利用须要消耗的人力和物力，个别企业可能难以承受。所以除了品质，老本也是须要思考的问题。

总结来看，现代化利用至多要解决 TB 级、PB 级的结构化数据和数倍于此的非结构化数据，反对散布在寰球的数百万用户，并以极低的提早每秒解决数百万个申请。

对于非结构化数据，现在很多企业开始基于 Amazon S3 这类具备 EB 级扩大能力的云存储构建云上数据湖，并通过云原生数据分析解决工具对这些数据进行解决剖析。而对于结构化数据，还须要补救以下缺点：

企业被传统商业数据库解放，而难以发展翻新。传统商业数据库不仅价格昂贵，还有专有技术及许可条款，须要常常进行审计。尽管越来越多的企业转向了 MySQL 和 PostgreSQL 等开源数据库，但他们仍须要商用数据库的性能。
无奈满足特定场景需要。随着利用场景的一直减少，不同应用程序有了本人特定的需要。当初，开发人员越来越多地应用微服务架构来构建应用程序，并且抉择新一代的关系型和非关系型数据库。但关系型数据库的构造数据耦合性大，不利于扩大分布式部署。非关系型数据库没有事务处理，简单查问方面稍微欠缺。
传统数据库运维模式仍旧须要消耗精力和老本。运维耗时但价值输入较低，但企业又不得不在这方面消耗精力和老本。

既然现有数据架构难以撑持现代化利用的实现，一场数据架构改革势在必行。这个新型数据架构要可能解决上述提到的问题，即须要领有更高的扩展性、可能适应多样化的数据状态、有更高的数据处理能力和更低的提早，当然还要有实现的门路和工具。

当下，IT 界的最佳技术组合可能就是“云计算 + 人工智能”。云计算解决了扩展性、数据存储、性能等问题，而人工智能技术则大大提高了数据分析和解决效率。

云计算能够为现代化利用的峰值需要“有限续杯”与安稳运行时的“最佳能耗”。作为云计算模型之一的 Serverless，在实践上能够主动适配利用从零到无穷大的需要峰值，更加善于解决扩展性的问题。

Serverless 架构的益处在于能够按需加载，这样利用便不会继续占用资源，只有在申请达到或有事件产生时才会被部署和启动，防止了老本节约。同时，Serverless 利用原生反对高可用，能够更好地应答突发的高访问量。当数据库也 Serverless 化，就能够实现高度扩展性及容量主动伸缩，做到按量付费、升高收入老本，进一步解放数据库的治理和运维。2012 年亚马逊公司推出的 Amazon DynamoDB 就是 Serverless 数据库。

2007 年，亚马逊公司发表的对于 Key-value 存储的划时代论文《Dynamo: Amazon’s Highly Available Key-value Store》解决的外围诉求就是满足“永远在线”的用户体验，晋升其数据库的可用性、扩展性和性能，被认为是 NoSQL 的开山之作，之后催生了一系列 NoSQL 分布式数据库。而 Amazon DynamoDB 就是 Dynamo 理念的正统实现，它正在驱动那些传统数据库难以承载的新一代高性能、互联网规模利用。

以 Serverless 数据库为代表，云数据库正在迅速倒退成熟，并带来更好的可拜访性和高可用性，还有高扩展性与可迁移性。此外，云数据库也升高了部署的难度和老本，不会给企业造成特地大的累赘。

面对大规模数据，传统数据库组件还存在业务类型不敏感、主动运维能力弱等问题，机器学习算法能够剖析大量数据记录，标记异样值和异样模式，还能够在零碎运行时主动、间断、无人工干预地执行修补、调优、备份和降级操作，尽可能减少人为谬误或歹意行为，确保数据库安全、高效运行。而亚马逊云科技在 re:Invent 上最新公布的 Amazon DevOps Guru for RDS 就能够帮忙检测数据库问题、执行根本原因剖析和举荐更改倡议，甚至可能主动修复数据库问题。

现代化利用最终是面向寰球的，当初很多企业也在做全球化布局。在这个过程中，寰球分布式应用零碎成为企业首选。分布式系统中各个节点通过一个通信网络互联在一起，不仅不便通信还能够实现资源共享，也放慢了计算速度。不过，这也让企业的运维压力变大，同时存在肯定的数据传输平安问题。所以，自动化的、平安的部署十分重要。

技术的抉择永远随同着肯定性能的就义，很难有一个产品可能在性能、性能和可用性等方方面面都做到极致。传统数据库厂商“一个数据库打天下”的做法曾经无奈满足需要。依照不同的目标、应用场景构建不同类型的数据库产品，做到“专库专用”则是新数据架构的外围。专库专用能够适配各种不同规模的应用程序，优先提供应用程序最须要的性能，可用性大大提高。

架构的艰深了解就是，企业能够应用古代的数据架构来解脱传统数据库的解放，并有专用工具来实现基础设施的现代化。当然这并不容易，很大水平上取决于厂商的能力。

依据 Gartner 2020 寰球云数据库魔力象限报告，亚马逊云科技持续保持翻新与当先。因而，咱们以亚马逊云科技为例，看看其是如何为企业数字驱动转型助力的。

首先，亚马逊云科技创始了 Serverless 数据库，来实现数据库的弹性伸缩，进一步简化企业创立、保护和扩大数据库的操作。

亚马逊云科技旗下有五大 Serverless 数据库：Amazon Aurora、Amazon DynamoDB、Amazon Timestream（一种工夫序列数据库服务）、Amazon Keyspaces（兼容 Apache Cassandra 的托管数据库服务）和 Amazon QLDB（一种全托管的分类账数据库）。其中，Amazon Aurora 曾经进化到 v2 版本，能够在一秒内将数据库工作负载从数百个事务扩大到数十万个事务，与为峰值负载配置容量的老本相比，最多可节俭 90%。

那么，Serverless 数据库的体现如何呢？华米科技衰弱云能够算得上是一个典型案例。截至 2021 年 2 月 2 日，华米科技智能可穿戴设施记录的累计步数为 151 万亿步，累计睡眠记录 128 亿晚，心率记录总时长 1,208 亿小时。华米科技衰弱云每天须要实现 TB 级数据的收集和存储，不仅须要存储的数据量微小，同时还必须保障极高的数据安全性、稳定性和低提早响应。为了解决这些难题，华米科技衰弱云应用 Amazon DynamoDB 作为外围数据库，存储用户的衰弱及与静止相干的数据。而 Amazon DynamoDB 在任何规模下都能提供提早不超过 10 毫秒的统一响应工夫，反对构建具备有限吞吐量和存储空间的应用程序，满足了华米衰弱云的数据存储需要。此外，Amazon DynamoDB 的无服务器架构使用户无需预置、修补和治理任何服务器，也无需装置、保护或运行任何软件。

目前，华米科技曾经全面引入了亚马逊云科技。华米科技大数据及云平台副总裁张稷示意，“华米科技衰弱云在数据存储和解决方面的特点是冷热数据分层显著，数据拜访的波峰波谷也很显著，亚马逊云科技丰盛的性能使咱们能够选用不同的服务来应答不同的需要以均衡性能与老本。”当初，华米科技应用 Amazon DynamoDB 存储外围数据；用 Amazon Simple Storage Service (Amazon S3) 存储冷数据、日志以及备份数据；用 Amazon Simple Queue Service (SQS)、Amazon Simple Notification Service (Amazon SNS) 和 Amazon Managed Streaming for Apache Kafka (Amazon MSK) 进行数据同步；用 Amazon Lambda 进行数据迁徙和转存；用 Amazon Kinesis 和 Amazon EMR 进行大数据分析。与切换到亚马逊云科技之前相比，现在华米科技衰弱云的 P0 和 P1 级别故障数量大概缩小了 20%，故障复原时长缩小了约 30%，总体服务可用性晋升了 0.25%，零碎的可用性指标达到 99.99%。

此外，九州通也应用 Amazon Aurora 替换了传统 MySQL 数据库，整体数据库性能晋升了 5 倍，TCO 升高了 50%。

其次，为实现专库专用，亚马逊云科技当初已有十多种专门构建的数据库服务，囊括了关系、键值、文档、内存、图、工夫序列、宽列和分类账八大数据类型。这些数据库产品各有劣势，别离实用于不同的利用场景。

其中，Amazon MemoryDB for Redis 是一个与 Redis 兼容的、长久的内存数据库服务。它是为具备微服务体系结构的古代应用程序专门构建的, 能够用作微服务应用程序的高性能主数据库，企业不须要再别离治理缓存和长久数据库。

Amazon DocumentDB 则是一项疾速、可扩大、高度可用且齐全托管式文档数据库服务，反对 MongoDB 工作负载。作为一个文档数据库，Amazon DocumentDB 能够简化存储、查问和索引 JSON 数据。开发人员能够应用与明天雷同的 MongoDB 利用程序代码、驱动程序和工具，来运行、治理和扩大 Amazon DocumentDB 上的工作负载，享受改良后的性能、可扩展性和可用性，而无需放心底层基础设施的治理。

Amazon DynamoDB 是为海量数据、大型混合工作负载而生的键值数据库服务，依据官网介绍，Amazon DynamoDB 能够构建吞吐量和存储空间简直有限的应用程序，在任意规模环境中提供统一的个位数毫秒响应工夫，极其适宜游戏、广告技术、挪动互联以及其它须要任何规模的低提早数据拜访的应用程序。虎牙曾经通过 Amazon DynamoDB 主动扩容来应答 10 倍以上的流量突增。

家喻户晓，NoSQL 很多时候是在做“鼎力出奇观”的事件，即通过大量的冗余存储 + 索引实现快速访问，然而这也有可能造成存储空间的节约。而在亚马逊云科技 re:Invent 大会上正式公布的 Amazon DynamoDB Standard-Infrequent Access (DynamoDB Standard-IA)，在放弃同样性能、耐用性和伸缩性的同时，最高还能够为使用者节俭 60% 的存储空间。

再者，亚马逊云科技的数据库服务与人工智能技术深度集成。亚马逊云科技的 Amazon Aurora ML、Amazon Neptune ML 等服务，反对数据库开发者在不具备机器学习专业知识状况下，只需应用相熟的数据库查询语言（比方 SQL）即可进行机器学习操作。

咱们不得不谈的是云数据库在提供数据存储服务于利用之后的价值，实现对立剖析和利用机器学习进行业务翻新，助力企业数据驱动的业务转型。像亚马逊云科技提出的“智能湖仓架构”实现的是通过一系列的服务，容许数据库，数据仓库以及各种剖析工具之间的数据无缝流动，同时在数据库内提供间接开始机器学习的能力，让 DBA、数据库工程师也能很快利用机器学习来进行业务翻新而不是关注技术学习，这都是云数据库的劣势。人工智能平台公司启元世界应用了“智能湖仓”进行云上翻新，实现了数据的交融和对立治理，放慢了其全生命周期产品矩阵理念的落地和规模倒退。同时，对流数据处理系统实现了分钟级部署，并可能轻松承载百万 QPS（每秒查问率）流数据，还将批处理运行工夫缩小 80%，经营总成本降落 50%。

另外，为反对企业的寰球分布式应用零碎，亚马逊云科技推出了 Amazon Aurora Global Database（寰球数据库）、Amazon DynamoDB Global Tables（全局表）、Amazon ElastiCache for Redis Global Datastore（全局数据存储）、Amazon DocumentDB Global Clusters（全局集群）等性能，企业能够一键配置现有集群，本地写入数据寰球可读，并享有亚毫秒级提早能力。

依据 CAIDA 统计，亚马逊云科技也是寰球大的互联网带宽拥有者之一。亚马逊云科技寰球所有的区域、可用区和边缘节点之间，均通过逾越大洲和大洋的高带宽冗余光缆连贯，并 100% 加密。据悉，亚马逊云科技的基础设施遍布寰球 25 个天文区域的 81 个可用区（AZ）。

最初，制订迁徙打算对企业来说可能是一项挑战。为此，亚马逊云科技研发了多种迁徙工具，如 Amazon Schema Conversion Tool 可用于转换数据库模式、Amazon Database Migration Service（Amazon DMS）用于迁徙数据，还有往年新公布的 Amazon DMS Fleet Advisor，能够用来收集剖析数据库模式和对象，包含对于性能元数据、模式对象和应用状况指标的信息，并且容许企业通过确定将源数据库迁徙到亚马逊云科技中指标服务的复杂性来构建定制的迁徙打算。此外，刚刚在寰球上线的 Babelfish for Amazon Aurora PostgreSQL 还能够帮忙企业迁徙到 SQL Server 应用程序。据悉，目前寰球已有超过 45 万个数据库迁徙至亚马逊云科技。

值得注意的是，亚马逊云科技曾经成为元宇宙公司 Meta 的策略云服务提供商。Meta 将应用更多亚马逊云科技的计算、存储、数据库和平安服务，并将在亚马逊云科技上运行第三方单干利用，同时 Meta 将应用亚马逊云科技的计算服务来进行包含人工智能我的项目在内的相干研发工作。

此外，当下非常风行、在寰球曾经领有超过 3.5 亿用户的元宇宙游戏“堡垒之夜”，其工作负载，如 3D 图像建模、实时渲染等也简直全副都运行在亚马逊云科技的产品之上。英雄联盟的开发商 Riot 也将游戏的基础设施部署在亚马逊云科技之上。全球化经营的三七互娱也曾经将一部分数据迁徙到亚马逊云科技服务上，基础设施方面的压力得以大大加重，此外，三七互娱还在亚马逊云科技的帮忙下疾速构建出了寰球同服的云架构，使寰球各地玩家都能取得简直统一的顺畅体验。

对于这些正在构建现代化利用的企业来说，亚马逊云科技曾经成为不可或缺的撑持平台。

Serverless、AI 赋能、专门构建、寰球部署和平滑迁徙这五大理念，正是亚马逊云科技“古代端到端数据策略 – 架构现代化”的外延。

亚马逊云科技的古代端到端数据策略是一种面向未来利用的策略思考，也是一种可交付的架构，旨在为企业倒退提供源源不断的动能。古代端到端数据策略次要包含三个因素：

首先是咱们前文所述的数据架构现代化。架构现代化是所有翻新的基石，其最重要的理念是“The right tool for the job”，即在不同的场景应用专门构建的工具，而专门的工具须要业余的现代化托管平台，这些都能够大量节俭企业的工夫、金钱和精力。

另外还有两大部分内容咱们在本文没有扩大：

对立剖析数据。对立剖析数据则是通过云上专门工具实现数据有机整合与对立，将所有数据连贯到一个平安且治理良好的连贯零碎中，使企业领有灵便扩大与极致性能。企业在取得实时反馈和数据后，能够很快地扩充服务规模。
基于数据进行业务翻新。“蓬勃发展的公司与艰巨求生的公司之间的要害区别在于是否将创立一个数据驱动型组织视为事不宜迟。”Amazon 机器学习副总裁 Swami Sivasubramanian 在亚马逊云科技 re:Invent 寰球大会上说道。企业植根于本身业务的翻新诉求是翻新的原动力，其中训练与调优、模型部署与治理都波及到了基础设施层面的翻新。

以后企业次要面临着重大的基础设施老旧、自动化水平低和专用工具不足的问题，同时沉重的资本收入也妨碍了企业后退。因而，企业要做出扭转的信心是很大的。Gartner 预测，到 2024 年，企业为成为数据驱动和数字化企业，将在数据和剖析上减少 40% 的投入。

将来，亚马逊云科技的产品布局将进一步扩充。在现有产品根底上，亚马逊云科技将依据客户须要研发各种新产品，包含面向金融、电信、医疗和汽车等特定行业。这些都将成为企业数字驱动转型的重要利器，也会是现代化利用建设的重要基础设施。

对于技术圈而言，这一年中，各种技术与畛域的倒退，既站顶峰，也历跌宕。在 2021 年最初时刻，咱们也想凝听来自云计算畛域开发者的声音，为此，云计算开发者有奖调研正式开启，诚邀各位搭档参加，多重好礼等你来领！

关于数据:数据架构变革进行时现代化应用需要怎样的数据策略

现代化利用开发之难亦是数据架构翻新之难

现代化利用须要什么样的数据架构作为撑持？

相干技术计划与翻新

如何实现架构现代化?

三大重要个性，两大重要反对

结束语