大数据 关于大数据:数据系统架构2元数据管理 场景1:报表A的数据和报表B的数据不统一,能帮忙看下是什么问题吗?场景2:我改变一个hive表,上游工作是否会有影响?场景3:原始日志打印字段构造变动了,我该告诉哪些人?
大数据 关于大数据:jenkins-trigger-by-time 对于须要定时触发 jenkins pipline的api,此我的项目能够作为一个参考本文由博客群发一文多发等经营工具平台 OpenWrite 公布
大数据 关于大数据:MinIO的搭建使用 MinIO是一个基于Apache License v2.0开源协定的高性能的对象存储,它兼容亚马逊S3云存储服务接口 适宜大容量的文件存储,如:图片,视频等文件,通常用于作为机器学习,剖析的高性能的基础设施,且反对分布式部署
大数据 关于大数据:小红书推荐大数据在阿里云上的实践 本篇内容次要分三个局部,在第一局部讲一下实时计算在举荐业务中的应用场景。第二局部讲一下小红书是怎么应用Flink的一些新的性能。第三局部次要是讲一些OLAP的实时剖析的场景,以及和阿里云MC-Hologres的单干。
大数据 关于大数据:结合公司现状浅谈CMDB CMDB:configuration management database,配置管理数据库。CMDB实质上是一个数据库,提供数据的存储、查问、校验等操作,是一个集中式的数据托管核心,托管的内容蕴含所有的软硬件资产(configuration items)。各个部门各个团队各个系统上司的各种重要的软硬件资产都属于CMDB对立治理的内容。
大数据 关于大数据:云上的可观察性数据中台如何构建 简介: 作为阿里经济体基础设施的阿里云日志服务(SLS),服务了上万级的用户,每天解决20PB日志/Metric/Trace数据,为AIOps、大数据分析、经营服务、大数据安全等场景提供撑持,解决工程师可察看性的问题。通过几年的锻炼和演进,正在向对立的可察看性中台倒退。本文分享阿里云存储团队构建SLS中台的背景和设计中的Trad…
大数据 关于大数据:赵强老师Flink的DataSet算子 Flink为了可能解决有边界的数据集和无边界的数据集,提供了对应的DataSet API和DataStream API。咱们能够开发对应的Java程序或者Scala程序来实现相应的性能。上面举例了一些DataSet API中的根本的算子。
大数据 关于大数据:开始segmentfault之旅 之前始终是java后端开发,然而真正工作后开始接触flink大数据处理方面。之前有过很多flink开发的小坑,然而没有记录下来,所以当初筹备把本人的采坑之旅残缺记录下来,心愿大家能够多给意见和倡议。谢谢大家!
大数据 关于大数据:Hadoop框架HDFS简介与Shell管理命令 大数据畛域始终面对的两大外围模块:数据存储,数据计算,HDFS作为最重要的大数据存储技术,具备高度的容错能力,稳固而且牢靠。HDFS(Hadoop-Distributed-File-System),它是一个分布式文件系统,用于存储文件,通过目录树来定位文件;设计初衷是治理数成千盈百的服务器与磁盘,让应用程序像应用一般文件系统一样存储大规…
大数据 关于大数据:MapReduce怎么优雅地实现全局排序 想到全局排序,是否第一想到的是,从map端收集数据,shuffle到reduce来,设置一个reduce,再对reduce中的数据排序,显然这样和单机器并没有什么区别,要晓得mapreduce框架默认是对key来排序的,当然也能够将value放到key下面来达到对value排序,最初在reduce时候对调回去,另外排序是针对雷同分区,即一个reduce来排序的…