共计 2882 个字符,预计需要花费 8 分钟才能阅读完成。
在开源大数据技术飞速发展的十数年,咱们见证了多元化技术的衰亡和变迁。如何从海量数据中,通过数据处理和可视化的伎俩,对开源大数据技术的过来、当初和将来,做出粗浅洞察?如何为开发者在开源大数据技术畛域的学习、选型和技术研发提供无益参考?带着这样的思考,凋谢原子开源基金会、X-Lab 凋谢实验室、阿里巴巴开源委员会独特发动了「2022 开源大数据热力报告」我的项目。
我的项目简介
「2022 开源大数据热力报告」收集相干公开数据进行关联剖析,通过 Star、Issue、open PR 等外围指标绘制基于大数据技术栈的热力地图,钻研开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。我的项目钻研遵循如下 7 个阶段:公开数据初筛 -> 我的项目技术分类 -> 专家审议 -> 入围公示 & 征集修改 -> 热力值计算和关联剖析 -> 数据洞察和课题钻研 -> 报告审议。
数据起源
2015 年 1 月至 2022 年 9 月的 Github 和 Jira 公开数据,包含我的项目 id、Star、Issue、open PR,review comment,merge PR 等。
数据初筛
我的项目初筛 Github 上 Topic Tag 满足如下条件且开源的大数据我的项目:
Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering
技术分类
依据大数据古代技术栈框架,对初筛我的项目进行技术分类。技术分类包含:数据集成、流解决、数据存储、数据查问和剖析、数据开发、数据调度和编排、数据管理 / 平安 / 中间件、数据可视化。
阐明:
数据查问和剖析分类聚焦大数据分析类型我的项目,不包含 OLTP 数据库、OLTP 能力为主的 HTAP 数据库和 NoSQL 数据库数据可视化分类中需具备数据源链接和解决能力,不包含可视化框架工具我的项目数据管理 / 平安 / 中间件分类中,我的项目较少且性能相互交叠,因而归为一类本次报告聚焦大数据畛域,不蕴含大数据 AI 交融型我的项目
我的项目公示
现将本次入围我的项目(共计 92 个)予以颁布,公示期为 2022 年 10 月 10 日至 10 月 16 日。
技术分类 | 项目名称 |
---|---|
数据集成 | airbytehq/airbyte alibaba/DataX apache/camel apache/flume apache/incubator-seatunnel apache/inlong apache/sqoop dbt-labs/dbt-core debezium/debeziumver verica/flink-cdc-connectors |
流解决 | apache/beam apache/flink apache/incubator-heron apache/incubator-streamp ark apache/kafka apache/pulsar apache/samza apache/storm |
数据查问和剖析 | apache/arrow-datafusion apache/calcite apache/cassandra apache/doris apache/drill apache/druid apache/hawq apache/hbase apache/hive apache/impala apache/incubator-kyuubi apache/kylin apache/lucene apache/phoenix apache/pig apache/pinot apache/solr apache/spark apache/tez ClickHouse/ClickHouse duckdb/duckdb elastic/elasticsearch eventql/eventql greenplum-db/gpdb opensearch-project/OpenSearch prestodb/presto StarRocks/starrocks trinodb/trino uber/aresdb |
数据存储 | apache/avro apache/bookkeeper apache/carbondata apache/hadoop-hdfs apache/hudi apache/iceberg apache/incubator-pegasus apache/kudu apache/ozone apache/parquet-format delta-io/delta hazelcast/hazelcast juicedata/juicefs |
数据管理 / 平安 / 中间件 | apache/ambariapache/arrowapache/atlasapache/bigtopapache/hadoopapache/knoxapache/rangercube-js/cube.jsdatahub-project/datahub |
数据开发 | apache/incubator-devlake apache/zeppelin jupyter/notebook pachyderm/pachyderm |
数据可视化 | apache/superset dataease/dataease edp963/davinci elastic/kibana getredash/redash grafana/grafana keplergl/kepler.gl metabase/metabase shzlw/poli |
数据调度和编排 | Alluxio/alluxio apache/airflow apache/dolphinscheduler apache/incubator-linkis apache/nifi apache/oozie apache/zookeeper dagster-io/dagster kestra-io/kestra PrefectHQ/prefect |
其余我的项目补充征集
如果你也是开源我的项目的爱好者,如果你熟知的我的项目不在上述列表,然而满足以下规范,可在公示期内扫描下方二维码参加我的项目提报。
参加规范:
1、开源大数据我的项目,有明确的开源协定、欠缺的文档;半年内公布过新版本
2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering
参加形式:
公布预报
「开源大数据热力报告 2022」将于 2022 年 11 月云栖大会现场正式公布。
特地致谢
联结发起方:凋谢原子开源基金会、X-Lab 凋谢实验室、阿里巴巴开源策略单干:开源中国、InfoQ、阿里云开发者社区单干媒体:CSDN、Datafun