关于云计算:准备数据集用于flink学习

https://github.com/zq2599/blog_demos

内容：所有原创文章分类汇总及配套源码，波及Java、Docker、Kubernetes、DevOPS等；

在学习和开发flink的过程中，常常须要筹备数据集用来验证咱们的程序，阿里云天池公开数据集中有一份淘宝用户行为数据集，稍作解决后即可用于flink学习；

https://tianchi.aliyun.com/da...

如下图所示，点击红框中的图标下载(名为UserBehavior.csv.zip的文件太大无奈在excel关上，因而下载体积小一些的UserBehavior.csv)：

为了便于检查数据，接下来在工夫戳字段之后新增一个字段，内容是将该行的工夫戳转成工夫字符串

=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")

<font color="red">！！！有个问题要分外留神！！！</font>：上述表达式中，因为83600的作用，失去的工夫字符串实际上是东八区时区的工夫，在flink sql中，如果用DATE_FORMAT函数计算timestamp也能失去工夫字符串，然而这个字符串是格林尼治时区，此时两个工夫字符串的值就不同了，例如从F列看2017/11/12和2017/11/13各一条记录，然而DATE_FORMAT函数计算timestamp失去的却是2017/11/12有两条记录，解决这个问题的方法就是将表达式中的83600去掉，大家都用格林尼治时区；
表达式失效后，F1的内容就是E1的工夫字符串，接下来F列的所有记录都作转换，鼠标放在下图红框地位时，会呈现十字架标记，在此标记上双击鼠标：

flink在解决上述数据时，因为乱序问题可能会导致计算结果不准，以上图为例，在解决红框2中的数据时，红框3所对应的窗口早就实现计算了，尽管flink的watermark能够容忍肯定水平的乱序，然而必须将容忍工夫调整为7天能力将红框3的窗口保留下来不触发，这样的watermark调整会导致大量数据无奈计算，因而，须要将此CSV的数据依照工夫排序再拿来应用；
如下图操作即可实现排序：

至此，一份淘宝用户行为数据集就筹备结束了，接下来的文章将会用此数据进行flink相干的实战；

https://download.csdn.net/dow...

https://raw.githubusercontent...

微信搜寻「程序员欣宸」，我是欣宸，期待与您一起畅游Java世界...
https://github.com/zq2599/blog_demos