大数据 万亿级数据如何高效进行数据治理 在数据智能时代,对企业而言,“数据驱动业务”或者“数据即是业务”的理念逐渐成为业界的一种共识。然而,数据孤岛、数据标准不统一等问题在一定程度上阻碍了数据资产价值的最大化体现。个推作为专业的数据智能服务商,在数据治理方面有着丰富的实践,旨在帮助提升效率、节省成本、获取数据资产价值。
大数据 10大HBase常见运维工具整理 摘要:HBase自带许多运维工具,为用户提供管理、分析、修复和调试功能。本文将列举一些常用HBase工具,开发人员和运维人员可以参考本文内容,利用这些工具对HBase进行日常管理和运维。
大数据 大数据实践解析下Spark的读写流程分析 众所周知,在大数据/数据库领域,数据的存储格式直接影响着系统的读写性能。spark是一种基于内存的快速、通用、可扩展的大数据计算引擎,适用于新时代的数据处理场景。在“大数据实践解析(上):聊一聊spark的文件组织方式”中,我们分析了spark的多种文件存储格式,以及分区和分桶的设计。接下来,本文通过简单的例子来…
大数据 从0到1打造数据可信的数据产品解析数据治理在过程可信变革中的运作流程 摘要:本文针对“数据牵引改进,工具固化规范”这一思路在业务团队落地过程中的动作流程进行详细阐述,并明确了支撑整个流程的关键角色定义和组织运作形式。
大数据 赵强老师大数据工作流引擎Oozie 工作流(WorkFlow)就是工作流程的计算模型,即将工作流程中的工作如何前后组织在一起的逻辑和规则在计算机中以恰当的模型进行表示并对其实施计算。工作流要解决的主要问题是:为实现某个业务目标,在多个参与者之间,利用计算机,按某种预定规则自动传递。下面我们以“员工请假的流程”为例,来为大家介绍什么是工作流。
大数据 赵强老师Kafka的持久化 Kakfa 依赖文件系统来存储和缓存消息。对于硬盘的传统观念是硬盘总是很慢,基于文件系统的架构能否提供优异的性能?实际上硬盘的快慢完全取决于使用方式。同时 Kafka 基于 JVM 内存有以下缺点:
大数据 一文入门Kafka必知必会的概念通通搞定 Kakfa在大数据消息引擎领域,绝对是没有争议的国民老公。 这是kafka系列的第一篇文章。预计共出20篇系列文章,全部原创,从0到1,跟你一起死磕kafka。 本文盘点了 Kafka 的各种术语并且进行解读,术语可能比较枯燥,但真的是精髓中的精髓! 了解Kafka之前我们必须先掌握它的相关概念和术语,这对于后面深入学习 Kafka 各…
大数据 转行小姐姐从初级到高级码农的学习之路 我会试着从我个人的角度扯一扯 我转行来,从小厂渣渣变大厂渣渣(进过阿里某个BU,姑且算吧:)的 一些“学习方法”和“技术学习路线”。扯的不好的地方还请大家见谅:)
大数据 Shell中傻傻分不清楚的TOP3 近来小姐姐又犯憨憨错误,问组内小伙伴export命令不会持久化环境变量吗?反正我是问出口了。。然后小伙伴就甩给了我一个《The Linux Command Line》PDF链接。感谢老大不杀之恩~