乐趣区

关于apache:周边生态|StreamNative-联合-Cloudera-开源-Apache-PulsarApache-NiFi-集成处理器

近日,StreamNative 和 Cloudera 官网发表独特开源 Apache NiFi 和 Apache Pulsar 联结解决方案,将二者集成打造成残缺的边缘到云数据的流平台。

StreamNative 由 Apache Pulsar 开创团队组建,专一于 Apache Pulsar 社区和生态构建,并围绕 Apache Pulsar 打造批流一体的云原生解决方案;Cloudera 团队包含一些 Apache NiFi 的原始开发人员,并通过 Apache NiFi 打造数据流。通过将 NiFi 与 Pulsar 集成,企业可能创立一个云原生、可扩大的实时流数据平台,来摄取、转换和剖析海量数据。

本文将介绍该处理器的开源背景,以及如何通过简略配置设置 Apache NiFi 来大规模地生产生产来自 Pulsar 主题的音讯。Cloudera 为 Data Hub 7.2.14 和更高版本的 CDF 提供开箱即用的处理器。

对于 Apache NiFi

Apache NiFi 初始的项目名称是 Niagara Files,是由美国国家安全局 (NSA) 奉献给 Apache 软件基金会的开源我的项目,其设计初衷是自动化零碎间的数据流。2015 年 7 月,NiFi 从 Apache 软件基金会毕业并成为 Apache 软件基金会的顶级我的项目。

NiFi 实现了基于流编程的一种可视化工具,用户能够通过 NiFi 构建将数据从一个平台(如数据库、云存储和音讯零碎)挪动到另一个平台的数据流。

NiFi 可帮忙用户主动在不同数据源和零碎之间挪动数据,保证数据摄取的疾速、简略和平安;NiFi 提供实时控制来轻松治理任何起源和任何目的地之间的数据挪动;它还提供事件级别的数据溯源和可追溯性,用户能够将每条数据追溯到其源头。

NiFi 平台蕴含 100 多个预构建处理器的汇合,可用于从数据源向数据目的地对数据进行丰盛、路由等转换。

对于 Apache Pulsar

Apache Pulsar 是云原生时代音讯队列和流交融零碎,提供对立的生产模型,反对音讯队列和流两种场景,既能为队列场景提供企业级读写服务质量和强一致性保障,又能为流场景提供高吞吐、低提早;采纳存储计算拆散架构,反对大集群、多租户、百万级 Topic、跨地区数据复制、长久化存储、分层存储、高可扩展性等企业级和金融级性能。

Pulsar 的外围是应用复制的分布式 ledger 来提供长久的流存储,保障轻松扩大以保留 PB 级的数据。Pulsar 的可扩大流存储使其成为事件数据的完满长期存储库。通过其音讯保留策略,用户能够无限期地保留历史事件数据,不便在将来随时对事件数据进行流式剖析。

处理器:将 Apache Pulsar 与 Apache NiFi 互补

Apache NiFi 和 Apache Pulsar 的性能在古代流数据架构中互相补充。NiFi 提供了一种数据流解决方案,可主动执行软件系统之间的数据流。因而,它能够充当不同数据源之间的短期缓冲区,而不是长期的数据存储库。

相同,Pulsar 旨在充当事件数据的长期存储库,并提供与常见的流解决框架(如 Flink 和 Spark)的弱小集成。通过联合这两种技术,用户能够创立一个弱小的实时数据处理和剖析平台。

这些技术联合所实现的协同效应将在数据平台中失去显著体现。NiFi 提供了用户所有的数据流治理需要,包含优先级、背压和边缘智能。

用户能够应用 NiFi 宽泛的连接器套件来主动将数据流到音讯流平台,同时执行 ETL 解决。数据转换后,能够通过这些专为 Apache Pulsar 设计的 NiFi 处理器间接路由到 Pulsar 的长久流存储,以便长期保留。

一旦数据存储在 Pulsar 中,就能够随时供如 Flink 或 Spark 等各种常见的流解决引擎应用,将数据用于更简单的流解决和剖析场景。

简而言之,NiFi 丰盛的连接器容许用户轻松地将数据“输出”到音讯流平台,同时保障 Pulsar 与 Flink 或者 Spark 的集成能够轻松取得实时洞察。

Apache Pulsar 和 Apache NiFi 的联合创立了一个残缺的边缘到云数据的流平台,可跨多个应用程序提供实时洞察。该集成实用于多个行业和场景,举例来说,在网络安全行业,用户须要尽快辨认和检测威逼,要求零碎具备摄取和解析日志数据的能力;制造业、采矿业以及石油和天然气等泛滥行业都须要可能从不同地位摄取大量 IoT 传感器数据,企业须要近实时地剖析这些海量数据,以避免灾难性的设施故障和 / 或避免可能导致的经营忽然中断;在金融服务行业,算法交易或加密货币套利等工夫敏感型利用要求零碎具备近实时地摄取和解决数据的能力。

视频演示

接下来让咱们来看看这些处理器的理论利用。本视频演示了配置和应用这些处理器向 Apache Pulsar 集群发送数据并从其接收数据的过程。

扫码观看视频演示:

从视频演示中能够看到,一共有四个处理器:PublishPulsar 和 PublishPulsarRecord 用于向 Pulsar 公布数据;ConsumePulsar 和 ConsumePulsarRecord 用于生产来自 Pulsar 的数据。bundle 中还蕴含两个控制器服务:一个用于创立 Pulsar 客户端,另一个用于身份验证以爱护 Pulsar 集群。

应用处理器

这些处理器在私有云上的 CDF 7.2.14 版本及以上版本可用,参考文档。如果您心愿在其余 Apache NiFi 集群中应用这些处理器,能够间接从 Maven 地方代码仓库下载工件,或者间接通过源代码构建。

相干浏览

  • Pulsar Summit 演讲视频: 边缘 AI 场景中 FLiPN 技术栈 (Flink, NiFi, Pulsar) 的利用
  • 下载演示代码开始运行处理器。

    • Producing and Consuming Pulsar messages with Apache NiFi
    • FLiP-Transit GitHub 仓库
    • FLiPN-Demos GitHub 仓库

对于 StreamNative

StreamNative 是一家开源根底软件公司,由 Apache 软件基金会顶级我的项目 Apache Pulsar 开创团队组建而成,围绕 Pulsar 打造下一代云原生批流交融数据平台。StreamNative 作为 Apache Pulsar 商业化公司,专一于开源生态和社区构建,致力于前沿技术畛域的翻新,开创团队成员曾就任于 Yahoo、Twitter、Splunk、EMC 等出名大公司。

关注 公众号「Apache Pulsar」,获取更多技术干货

退出 Apache Pulsar 中文交换群👇🏻

退出移动版