无分类 MaxCompute-费用暴涨之新增SQL分区裁剪失败 现象:因业务需求新增了SQL任务,这SQL扫描的表为分区表,且SQL条件里表只指定了一个分区,按指定的分区来看数据量并不大,但是SQL的费用非常高。费用比预想的结果相差几倍甚至10倍以上。
无分类 Spark内置图像数据源初探 作者:林武康,花名知瑕, 阿里巴巴计算平台事业部EMR团队的高级开发工程师,Apache HUE Contributor, 参与了多个开源项目的研发工作,对于分布式系统设计应用有较丰富的经验,目前主要专注于EMR数据开发相关的产…
无分类 用Flink取代Spark-Streaming知乎实时数仓架构演进 “数据智能” (Data Intelligence) 有一个必须且基础的环节,就是数据仓库的建设,同时,数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务。从智能商业的角度来讲,数据的结果代表了用户的反馈,获取…
无分类 原理解析-深入了解-Apache-Flink-的网络协议栈 Flink 的网络协议栈是组成 flink-runtime 模块的核心组件之一,是每个 Flink 作业的核心。它连接所有 TaskManager 的各个子任务(Subtask),因此,对于 Flink 作业的性能包括吞吐与延迟都至关重要。与 TaskManager…
无分类 questioning-the-lambda-architecture Storm的作者Nathan Marz提出了 lambda 架构,该架构是在 MapReduce 上和 Storm 上构建流式处理的应用。lambda 架构是捕获不可变的数据序列并将其并行的发送给批处理系统和流式处理系统。但是你需要分别在批处理系…
无分类 新手入门大数据-Hadoop基础与电商行为日志分析二 先是split,分成一行一行的,然后map,每行的单个内容分开,{bear,1},{apple,1}{this,1}然后shuffle,{bear,[1,1]},{apple,[1,1]},{this,[1,1]},最后reduce得到最终结果{bear,2},{apple,2},{this,2}
无分类 原理解析-深入了解-Apache-Flink-的网络协议栈 Flink 的网络协议栈是组成 flink-runtime 模块的核心组件之一,是每个 Flink 作业的核心。它连接所有 TaskManager 的各个子任务(Subtask),因此,对于 Flink 作业的性能包括吞吐与延迟都至关重要。与 TaskManager…
hadoop 新手入门大数据-Hadoop基础与电商行为日志分析一 chuanshang一个案例:美国一女高中生收到婴儿产品的推荐,被他的父亲向商场投诉,结果最终,意识到女儿真的怀了孕。大数据的4V特征:数据量 volume速度 velocity基于高度分析的价值 value (数据量与有用的数据价…
无分类 MySQL单表数据不要超过500万行是经验数值还是黄金铁律 今天,探讨一个有趣的话题:MySQL 单表数据达到多少时才需要考虑分库分表?有人说 2000 万行,也有人说 500 万行。那么,你觉得这个数值多少才合适呢?
无分类 Spark应用开发上 Spark架构:关键名词:masterworkerexecutortaskdriverSpark集群启动之后,是主从式架构(master–worker),95%的大数据架构都是主从式hadoop-yarn:Yarn:主节点:resourcemanager管理整个集群的资源从节点:nodema…