乐趣区

关于人工智能:面向大规模数据的云端管理百度沧海存储产品解析

导读:本文整顿自同名《云智公开课》系列分享,具体介绍百度桑田·存储如何进行大规模数据,流转上云、智能分级存储、平安治理、多业务利用。。

全文 5657 字,预计浏览工夫 20 分钟。

01 ABC 时代下存储面临的四大挑战

咱们称以后这个时代为 ABC 时代。A 指的是咱们正处于人工智能的时代;B 指的是咱们正处于大数据的时代;C 指的是咱们正处于一个万物皆可上云的时代。

存储系统在很多年前就曾经呈现了,在当下存储又会面临着哪些新的挑战呢?

挑战的第一个关键词:海量。对于企业而言,以前可能只是寄存一些互联网上的利用数据,最多就再有一些文本数据,备份数据。但当初,咱们看到更多是以视频、音频等为载体,数据量呈现出一个爆炸式增长的态势。在这个背景之下,云服务商面临的是如何解决海量数据的上云和存储问题。换句话说,咱们的物理容量如何更好地去承载数据的爆炸式增长。

挑战的第二个关键词:性价比。在这个时代当中,咱们将数据视为是有价值的资产。既然数据有价值,那就要求云服务商如何在保证数据不删的前提下,如何帮忙客户花小钱办小事,这个是客户以及咱们都比较关心的。举个例子,十年前客户的数据是 10 PB,10 年之后它的数据倒退到 50 PB,数据量是原来的 5 倍。那是否意味着客户的存储老本也是原来的 5 倍?这是不肯定的,因为咱们要千方百计地帮忙客户去尽量减少数据存储的老本。

挑战的第三个关键词:稳定性。当分布式系统承载数以万计的客户业务时,咱们如履薄冰,因为这要求咱们必须去保证系统的稳定性。同时,咱们的存储产品还要去帮忙客户去实现肯定的容灾能力,和肯定的备份能力。

挑战的第四个关键词:多样性。多样性它其实体现在很多方面,最次要的一个体现是客户的业务场景日趋多样性。比如说很多年之前,客户的场景更多是数据存进去之后,在须要的时候可能把数据读出来就能够了。当下数据不只是存储,还呈现了不同的场景,比方大数据分析,AI 训练,混合云平台搭建等涌现,须要应用不同的存储产品和组合来满足业务须要。

针对这四个挑战,明天我次要通过五个局部和大家来分享。

02 百度桑田·存储的产品体系概览

首先给大家介绍一下百度桑田·存储。他保障了百度外围业务高效牢靠地运行。比如说像咱们大家熟知的百度搜寻、百度网盘、百度贴吧、百家号、百度地图、百度寰球当先的 AI 业务等等。

桑田的产品体系是一个矩阵式的构造。包含对象存储 BOS、块存储 CDS、文件存储 CFS、并行文件存储 PFS 等等。

另外咱们也会有一些特定场景下的产品,比如说数据湖存储减速 RapidFS,它的目标是减速对象存储数据在大数据或者 AI 场景下的拜访。另外包含边缘存储,以及面向传统客户的混合云存储 ABC Storage 等。

除此之外,咱们还有一些工具型产品,比如说数据流转平台 CloudFlow,它解决了数据上云和流转的一些问题。另外还有像针对 IDC 企业上云的场景,咱们推出月光宝盒这个产品,它能够实现数据的拷贝和物理搬迁。另外针对混合云场景,咱们也提供存储网关的能力。比方一个用户的计算节点在本地,他在云端购买了对象存储,那么他能够通过存储网关来把本地和云端进行交融,对本地的资源空间在云端进行拓展。

以上是桑田的产品体系。产品体系上面是咱们整体的一个技术平台。咱们强调三个点,一个是存算协同,另外一个是软硬交融,还有一个是云边一体。

产品体系的下层,是咱们的解决方案。咱们曾经服务了数万家客户,在这个过程中咱们积淀了很多解决方案,比如说云相册解决方案。大家都晓得当初手机都有云相册性能,并在相册中集成一些能力,如对人脸进行分类而造成人脸相册等等。基于此咱们也提供针对手机厂商的云相册解决方案。

还有像互联网的存储散发计划。比如说一部电视剧,一部电影,一段短视频,都须要散发到寰球各地的终端,因而咱们也推出了互联网存储散发解决方案。另外针对客户会把数据存在不同的云厂商中存储,咱们也提供多云的解决方案。

另外咱们也提供归档备份的计划。有些数据长期不必,但又偶然会有拜访,因而咱们提供一个低成本的归档备份计划。另外,咱们针对不同的行业或者说不同的场景,也会有不同的解决方案,比如说游戏存储、主动驾驶、合规存储,还有像医疗影像存储等。

03 百度桑田·存储如何解决四大挑战

3.1 数据流转全景计划,高效上云

对于上云而言,咱们个别会先辨别数据源端,包含:企业自有 IDC、其它云服务商(如 AWS、腾讯云或者阿里云等)。对于企业自有 IDC 这类客户而言,客户往往心愿本地数据可能上到咱们云端对象存储 BOS 当中。

咱们提供三种形式,比如说磁盘阵列混合云,还有像方才提到月光宝盒。它就像一个大 U 盘,这个大 U 盘把数据从本地拷贝实现后,通过物流的形式寄送到百度智能云的机房,由咱们的业余操作人员帮客户实现数据的上传。

另外,可能有些客户的数据量比拟大,此时也能够通过咱们的专线服务来进行迁徙。如在客户的 IDC 和百度智能云机房之间拉一条专线,这样能够走内网去把数据高效地传输到 BOS 当中。

对于曾经上到其余云的客户,他的迁徙就波及到跨云的迁徙,用户能够用数据流转平台 CloudFlow 进行可视化的、一键式地去发动数据的迁徙和同步。用户只有填写一下源端信息、目标端信息,同时填写一下对性能或者对存储门路等的要求,点击确认后,就能够主动开始迁徙工作了。

另外,针对一些非凡的场景,如用户心愿将其余云的增量数据迁徙到 BOS 中,此时能够开启镜像回源的性能。当数据被拜访的时候,能够间接从其它源端把数据主动地同步到 BOS,帮忙用户实现业务的连续性。

除了跨云迁徙之外,咱们还能够实现跨云的同步。

跨云同步,个别咱们是指增量数据的跨云迁徙。用户能够在 CloudFlow 中配置一个基于事件告诉的性能,来实现定时扫的工作。比如说距离一小时或者距离一天去扫描一下源端是否又新写入了一些数据,我能够精准地把这些增量的数据迁徙到 BOS 中来。

3.2 智能生命周期治理,存储最优

用户对存储的老本是比较关心的。对于对象存储 BOS 而言,它曾经倒退到了 EB 级别的物理空间,数万台的物理服务器,数万亿级别的文件数量,这个规模在国内是十分大的。

随着工夫的推移,比如说可能在通过这个半年或者说一年、三年之后,数据可能就没有什么人拜访了,但用户还必须存储。

因而针对这样的一个诉求,咱们推出了分级存储,包含规范存储多 AZ、规范存储、低频存储多 AZ、低频存储,或者说冷存储还有归档存储。

不同的存储类型从左往右,它所对应的这个数据的拜访频率是逐步降落的。对于频繁应用的热数据,个别应用规范存储。随着它的拜访频率升高,能够逐步沉降低频存储、冷存储或者归档存储。尤其像归档存储,它更多针对三年拜访一次的场景。比方有些数据须要长期保留,像基因数据,电商直播数据,一些为应答查看而必须保留的合规性数据等等。

对于优化老本而言,对象存储还提供了“生命周期沉降”这样的一个性能。

比如说数据最开始是热数据,即存储在规范存储中。咱们能够设置一个生命周期规定,比如说在上传之后的 30 天从规范存储沉降为低频存储,再过 60 天后进一步沉降到归档存储。用户能够提前去设置这样一个规定,当沉降日期到来时,数据会主动进行沉降。具体的价格方面,咱们最冷的一级归档存储只有规范存储单价的 18%,所以说通过沉降来降老本的成果是非常明显的。

除了沉降之外,咱们还反对生命周期上浮。比如说当初可能有一个文件,它是一个冷存储的文件。一般而言,冷存储文件的拜访频率是比拟低的,然而也不排除会有一种状况,即这个文件在一段时间之内它的拜访频率变得十分高。

这种状况下,用户能够设置一个生命周期上浮的规定,通过 BOS 的自动化监测,当冷数据被频繁拜访时,上浮到下层存储类型如低频存储、规范存储。因而,生命周期治理的应用形式是非常灵活的,用户齐全能够依据本人的需要去抉择适合的存储类型,同时去设置适合的沉降规定。

一个典型的案例,比方爱奇艺的长视频,包含像电影、电视剧等都存在 BOS 外面。这个数据一开始可能是热数据,应用了规范存储。但当这个数据长期没有人拜访之后,它能够主动沉降到冷存储,这个规定帮忙爱奇艺节俭了大量的应用老本。

与此同时,爱奇艺又通过咱们的 CDN 节点来进行数据散发,来保证数据能够散发到寰球各地的终端。

3.3 数据存储多级容灾,安全可靠

客户在应用云端存储的时候,如何保证数据的安全可靠呢。这里咱们要讲云存储的两个指标。

第一个咱们称之为可靠性。对象存储 BOS 外承诺的可靠性是 12 个 9,也就是 99.9999999999%,这是一个十分高的程度,数据失落的概率是千亿分之一。咱们是如何实现高牢靠的呢?BOS 建设了超大规模的纠删码集群,把数据平衡地散布到多个 AZ,也就是说咱们能够冗余 N 台交换机的故障,冗余单 AZ 的故障。

另外一个指标,咱们称之为可用性。对于可用性而言,单 AZ 存储类型的可用性是 99.95%,多 AZ 是 99.99%。但长期教训来看,咱们实在的可用性在 99.9995%,是一个十分高的程度。

咱们是如何保障这个可用性?BOS 应用了四层负载平衡,集群模式无单点。而数据 EC 编码也保障了多冗余读取。而且接入拜访层能够程度拓展,也进一步提高了产品的可用性。

咱们提供了多个级别的容灾能力。

首先,BOS 具备物理机级别的容灾。BOS 底层采纳分布式存储架构,并采纳 EC 编码技术。如果某一台物理机因为网络起因或其余起因导致长期宕机时,业务能够主动切换,而用户基本感知不到物理机宕机的状况。

其次,咱们推出了多 AZ 存储类型 比如说像方才提到的规范存储多 AZ,低频存储多 AZ,咱们把数据是在多个机房同时存储。当某一个机房忽然间因为自然灾害等起因导致机房不可用时,BOS 能够实现机房级别的容灾切换。另外,咱们也能够实现跨地区的备份和容灾。咱们在北京、苏州、广州、保定等区域都提供服务,用户能够提前把数据同步到其余区域。

最初,咱们提供数据镜像回源的能力。当数据在主源站中不存在时,会主动到备源站中去捞取数据。

3.4 多产品数据流联动,简略易用

最初一个局部,给大家介绍一下后面提到的利用多样化。繁多产品越来越无奈满足客户的需要,须要提供多个产品来造成一整套的解决方案,进而帮忙用户去解决问题。

这里明天重点给大家介绍这个三种解决方案。第一个是大数据场景下的数据湖减速计划,另一个是混合云存储场景下的计划,第三个是 AI 场景下的 HPC 存储。

首先第一个是大数据场景下的数据湖减速计划。咱们数据湖减速是以 BOS 作为整个数据湖的底座,同时咱们会有一个数据湖存储减速产品叫做 RapidFS,买通大数据场景上面计算和存储间的数据高速公路。

不论是 MapReduce 这样的大数据场景,还是 AI 场景,底层其实都能够选择对象存储 BOS 来承接海量数据的存储能力。对于大数据场景而言,常见的场景包含离线计算场景和线计算场景。

离线计算场景中,典型的像网站内容举荐。用户在一个网站下面的浏览行为会造成很多浏览数据。对于网站厂商而言,往往会在早晨对用户这些行为进行剖析,从而当用户下一次浏览网站时,为其做内容举荐。咱们称之为是一个离线训练的场景。

还有就是在线计算场景。典型的比如说咱们在用一些 APP,或者说用一些网页的时候,咱们点了一个搜寻框心愿搜寻某些货色,网站 /APP 会在线的对用户的一系列行为进行在线计算,优化搜寻后果。

离线场景往往对计算的提早要求较低,因而举荐应用 BOS 的原生层级 Namespace 架构。相比采纳平坦 Namespace 的 S3 存储,采纳层级 Namespace 的对象存储,其 prefix 具备操作的原子性,对大量小文件的频繁拜访会更加敌对。同时,能够通过 RapidFS,在近计算节点做热数据缓存,进一步达到数据拜访减速的能力。

对于在线计算的场景,客户能够在 VPC 内装置 RapidFS 组件。除了进行缓存之外,也能够开启 VPC 内的层级 Namespace。因为层级 Namespace 部署到了 VPC 内,因而相比下图右边的计划,左边计划的减速成果会更好,对于大数据场景下常见的 rename、list、delete 等操作,拜访性能会有较大的晋升。

另外一个是咱们的混合云存储。比如说像这个客户会有本人的 IDC。因为本地的容量是无限的,所以客户心愿将老旧的冷数据,通过某种形式同步到云端。这样做的话,既能够节俭本人本地的一些空间,又能够在云上应用 BOS 的分级存储和生命周期能力,升高存储的老本。

在这个场景下,咱们提供存储网关 BSG 这样一款产品。用户能够把 BSG 部署到本人本地的 IDC 当中,一键买通本地和云端。比如说,BSG 部署在 IDC 后,用户能够通过 BSG 来挂载 BOS 的一个存储桶,这样用户在往本地 IDC 写数据的时候,他看到的可能是写到本人本地 IDC 的一个门路,但其实曾经把这个数据写到了云端。咱们能够做到不同协定的兼容,在不扭转用户应用习惯的前提下,帮忙用户去建设混合云存储。

最初一个场景,咱们专门针对 AI 场景。在这个场景中,咱们也是举荐应用对象存储 BOS 作为数据底座,同时在下层搭配并行文件系统 PFS。AI 场景下,更多操作以读数据为主,比方 AI 训练时会有很多读数据集的操作。

具体而言,这个计划会有三个特点。首先,咱们蕴含兼容 POSIX 接口的减速层,基于本地盘和全闪硬件的 PFS;另外,咱们能够实现资源和数据集的筹备自动化,和调度器深度交融,升高应用的复杂度;第三,在训练数据时,反对配置不同的数据加载策略,比如说预加载、首次拜访时加载等等。

——————————END——————————

举荐浏览:

加强剖析在百度统计的实际

基于 TLS 1.3 的百度平安通信协议 bdtls 介绍

百度用户产品流批一体的实时数仓实际

如何治理资源节约?百度云原生老本优化最佳实际

面向大数据存算拆散场景的数据湖减速计划

百度 APP Android 包体积优化实际(三)资源优化

ffplay 视频播放原理剖析

退出移动版