关于云计算:准备数据集用于flink学习

欢送拜访我的GitHub

https://github.com/zq2599/blog_demos

内容：所有原创文章分类汇总及配套源码，波及Java、Docker、Kubernetes、DevOPS等；

在学习和开发flink的过程中，常常须要筹备数据集用来验证咱们的程序，阿里云天池公开数据集中有一份淘宝用户行为数据集，稍作解决后即可用于flink学习；

下载

下载地址：

https://tianchi.aliyun.com/da…

如下图所示，点击红框中的图标下载(名为UserBehavior.csv.zip的文件太大无奈在excel关上，因而下载体积小一些的UserBehavior.csv)：

该CSV文件的内容，一共有五列，每列的含意如下表：

列名称	阐明
用户ID	整数类型，序列化后的用户ID
商品ID	整数类型，序列化后的商品ID
商品类目ID	整数类型，序列化后的商品所属类目ID
行为类型	字符串，枚举类型，包含(‘pv’, ‘buy’, ‘cart’, ‘fav’)
工夫戳	行为产生的工夫戳
工夫字符串	依据工夫戳字段生成的工夫字符串

下载结束后用excel关上，如下图所示：

减少一个字段

为了便于检查数据，接下来在工夫戳字段之后新增一个字段，内容是将该行的工夫戳转成工夫字符串

如下图，在F列的第一行地位输出表达式，将E1的工夫戳转成字符串：

上图红框中的表达式内容如下：

=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")

<font color=”red”>！！！有个问题要分外留神！！！</font>：上述表达式中，因为83600的作用，失去的工夫字符串实际上是东八区时区的工夫，在flink sql中，如果用DATE_FORMAT函数计算timestamp也能失去工夫字符串，然而这个字符串是格林尼治时区，此时两个工夫字符串的值就不同了，例如从F列看2017/11/12和2017/11/13各一条记录，然而DATE_FORMAT函数计算timestamp失去的却是2017/11/12有两条记录，解决这个问题的方法就是将表达式中的83600去掉，大家都用格林尼治时区；
表达式失效后，F1的内容就是E1的工夫字符串，接下来F列的所有记录都作转换，鼠标放在下图红框地位时，会呈现十字架标记，在此标记上双击鼠标：

实现后如下图，F列的工夫信息更利于咱们开发过程中核查数据：

修复乱序

此时的CSV文件中的数据并不是按工夫字段排序的，如下图：

flink在解决上述数据时，因为乱序问题可能会导致计算结果不准，以上图为例，在解决红框2中的数据时，红框3所对应的窗口早就实现计算了，尽管flink的watermark能够容忍肯定水平的乱序，然而必须将容忍工夫调整为7天能力将红框3的窗口保留下来不触发，这样的watermark调整会导致大量数据无奈计算，因而，须要将此CSV的数据依照工夫排序再拿来应用；
如下图操作即可实现排序：

实现排序后如下图所示：

至此，一份淘宝用户行为数据集就筹备结束了，接下来的文章将会用此数据进行flink相干的实战；

间接下载筹备好的数据

为了便于您疾速应用，上述调整过的CSV文件我曾经上传到CSDN，地址：

https://download.csdn.net/dow…

也能够在我的Github下载，地址：

https://raw.githubusercontent…

欢送关注公众号：程序员欣宸

微信搜寻「程序员欣宸」，我是欣宸，期待与您一起畅游Java世界…
https://github.com/zq2599/blog_demos

关于云计算:准备数据集用于flink学习

欢送拜访我的GitHub

下载

减少一个字段

修复乱序

间接下载筹备好的数据

欢送关注公众号：程序员欣宸

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于云计算:准备数据集用于flink学习

欢送拜访我的GitHub

下载

减少一个字段

修复乱序

间接下载筹备好的数据

欢送关注公众号：程序员欣宸

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复