关于pulsar:译文|简明指南Apache-Pulsar-的分层存储

3次阅读

共计 2071 个字符,预计需要花费 6 分钟才能阅读完成。

在一些流数据用例场景中,用户心愿将数据长时间存储在流中。尽管 Apache Pulsar 对 topic backlog 的大小没有限度,但将所有数据存储在 Pulsar 中较长时间,存储老本比拟大。

本文介绍了 Apache Pulsar 的分层存储个性(在 2.1 及之后的版本可用),分层存储反对在不影响终端用户的条件下,将较旧的数据挪动到长期存储中。

在举荐服务中,开发者不心愿限度 backlog 的大小。以音乐服务为例,终端用户每听一首歌,就向 topic 中增加一条音讯。应用这一 topic 训练举荐算法,依据终端用户听过的音乐举荐用户可能喜爱的音乐。而后,将计算结果举荐给用户,再循环这个过程。

举荐算法并非变化无穷。音乐服务的数据科学家始终在一直优化举荐算法,以更好地预测用户喜爱的音乐,从而进步用户对举荐服务的满意度和参与度。

然而,如果每次批改算法时,都只运行批改工夫点之后的用户数据,不仅预测的准确度会受到影响,判断算法的批改成果也会须要一段较长的工夫。为了解决这一问题,算法须要尽可能多地运行用户历史数据。

Pulsar 容许用户存储任意大小的 topic backlog。当集群将要耗尽空间时,用户只需增加新的存储节点,零碎将会主动从新均衡数据。然而,这样的操作运行一段时间后,运维老本非常低廉。

Pulsar 通过提供分层存储(Apache Pulsar 2.1 起新增的个性)缩小了老本 / 大小的损失。分层存储为用户提供大小不受限制的 backlog,且无需增加存储节点;卸载较旧的 topic 数据到长期存储中,长期存储的老本比在 Pulsar 集群中存储的成本低一个数量级。对于终端用户来说,生产存储在 Pulsar 集群或分层存储中的 topic 数据没有显著差异。位于 Pulsar 集群和分层存储中的 topic 生产和生产音讯的形式也完全相同。

Pulsar 通过分片架构实现了分层存储。Pulsar topic 的消息日志由一系列分片组成。序列中的最初一个分片是 Pulsar 以后写入的分片。以后序列之前的所有分片都已封装,也就是说,这些分片中的数据不可变。因为数据不可变,因而能够轻易地将数据复制到另一个存储系统,而不用放心一致性的问题。复制实现后,能够立刻更新消息日志元数据中的数据指针,并且能够删除 Pulsar 在 Apache BookKeeper 中存储的数据正本。

在 Pulsar 中应用分层存储

Pulsar 目前反对通过 Amazon S3、GCS(Google Cloud Storage)、Filesystem 进行长期存储。要应用 S3 进行分层存储,管理员须要先在 S3 中创立一个存储桶(bucket);而后,用存储桶和创立存储桶的区域配置 broker。

managedLedgerOffloadDriver=S3
s3ManagedLedgerOffloadRegion=eu-west-3
s3ManagedLedgerOffloadBucket=pulsar-topic-offload

用户不间接在 Pulsar 中配置身份验证。Pulsar 应用的 DefaultAWSCredentialsProviderChain 能够在多个地位查找验证信息。

配置验证信息最简略的形式是在 pulsar-env.sh 中设置环境变量。

对于配置身份验证办法的更多信息,参阅分层存储文档:http://pulsar.apache.org/docs…。

配置好所有 broker 后,就能够开始应用分层存储了。能够配置分层存储的数据卸载为主动运行,也能够手动触发。

主动迁徙数据到长期存储

管理员能够为命名空间设置大小阈值策略。配置大小阈值策略后,如果命名空间中的任一 topic 在 Pulsar 集群上的数据大小超过了阈值,topic 就会卸载分片到长期存储中,直到 Pulsar 集群上的数据大小在阈值之内。

例如,当 Pulsar 集群上的数据大小超过 1 GB 时,指定命名空间中的 topic 卸载分片,能够应用以下命令:

pulsar-admin namespaces set-offload-threshold --size 1G my-tenant/my-namespace

当命名空间中的任一 topic 超过阈值时,topic 将会挪动数据至长期存储,开释 Pulsar 集群上的存储空间。

手动卸载

除了配置主动卸载数据外,还能够通过 REST 接口或命令行界面在单个 topic 上手动触发卸载操作。要通过命令行界面触发,用户必须指定在 Pulsar 集群上为 topic 保留的最大数据量。如果 Pulsar 集群上的 topic 数据大小超过了设置的阈值,则将此 topic 上的分片挪动到长期存储中,直到 Pulsar 集群上的数据大小在阈值之内。挪动数据时,先挪动较旧的分片。

pulsar-admin topics offload --size-threshold 10M my-tenant/my-namespace/topic1

更多对于配置和应用分层存储的信息,参阅分层存储文档:https://pulsar.apache.org/doc…。

Apache Pulsar 2.1 及之后的版本反对分层存储。

正文完
 0