无分类 如何在-Apache-Flink-中使用-Python-API 本文根据 Apache Flink 系列直播课程整理而成,由 Apache Flink PMC,阿里巴巴高级技术专家 孙金城 分享。重点为大家介绍 Flink Python API 的现状及未来规划,主要内容包括:Apache Flink Python API 的前世今生…
无分类 如果你也想做实时数仓… 数据仓库也是公司数据发展到一定规模后必然会提供的一种基础服务,数据仓库的建设也是“数据智能”中必不可少的一环。本文将从数据仓库的简介、经历了怎样的发展、如何建设、架构演变、应用案例以及实时数仓与离线…
无分类 修改代码150万行Apache-Flink-190做了这些重大修改 8月22日,Apache Flink 1.9.0 正式发布,早在今年1月,阿里便宣布将内部过去几年打磨的大数据处理引擎Blink进行开源并向 Apache Flink 贡献代码。当前 Flink 1.9.0是阿里内部版本 Blink 合并入 Flink 后的首次发…
无分类 如何运营一家数据标注公司数据处理分类篇 “人工智能之所以称呼他为人工智能,是因为它的核心:也就是神经网络模型。它就是根据模拟人脑的神经网络而诞生的。而图像、语音这一类信息通过特征标注处理(也就是数据标注),变成计算机能够识别的信息。同时通…
无分类 Knative-Eventing-之-Sequence-介绍 在处理数据时,往往会涉及到一个数据需要进行多次加工,这时候我们一般是通过Pipeline的方式进行处理。那么在Knative Eventing中是否也能支持对一个事件进行分步骤多次处理? 这个还真有。从 0.7 版本开始,Knati…
java 在MaxCompute中利用bitmap进行数据处理 很多数据开发者使用bitmap技术对用户数据进行编码和压缩,然后利用bitmap的与/或/非的极速处理速度,实现类似用户画像标签的人群筛选、运营分析的7日活跃等分析。本文给出了一个使用MaxCompute MapReduce开发一个…
无分类 数据治理那点事系列之二手握数据户口本数据治理肯定稳 这篇文章主要从数据治理的基础和核心之一:元数据入手,从以下几个角度展开具体讲解: 元数据概念 元数据的分布和采集 元数据的一些实际应用场景 一、元数据到底是个啥? 如果我说:元数据(Meta Data),就是描…
无分类 Flink-180中的状态生存时间特性如何自动清理应用程序的状态 对于许多状态流式计算程序来说,一个常见的需求是自动清理应用程序的状态(state),以便有效地控制状态大小,或者控制程序访问状态的有效时间(例如受限于诸如GDPR等法律条规)。Apache Flink自1.6.0版本引入了…
无分类 日均处理万亿数据Flink在快手的应用实践与技术演进之路 作者介绍:董亭亭,快手大数据架构实时计算引擎团队负责人。目前负责 Flink 引擎在快手内的研发、应用以及周边子系统建设。2013 年毕业于大连理工大学,曾就职于奇虎 360、58 集团。主要研究领域包括:分布式计算…