关于云计算:准备数据集用于flink学习

https://github.com/zq2599/blog_demos

内容：所有原创文章分类汇总及配套源码，波及 Java、Docker、Kubernetes、DevOPS 等；

在学习和开发 flink 的过程中，常常须要筹备数据集用来验证咱们的程序，阿里云天池公开数据集中有一份淘宝用户行为数据集，稍作解决后即可用于 flink 学习；

https://tianchi.aliyun.com/da…

如下图所示，点击红框中的图标下载(名为 UserBehavior.csv.zip 的文件太大无奈在 excel 关上，因而下载体积小一些的 UserBehavior.csv)：

为了便于检查数据，接下来在工夫戳字段之后新增一个字段，内容是将该行的工夫戳转成工夫字符串

=TEXT((E1+8*3600)/86400+70*365+19,"yyyy-mm-dd hh:mm:ss")

<font color=”red”>！！！有个问题要分外留神！！！</font>：上述表达式中，因为 83600 的作用，失去的工夫字符串实际上是东八区时区的工夫，在 flink sql 中，如果用 DATE_FORMAT 函数计算 timestamp 也能失去工夫字符串，然而这个字符串是格林尼治时区，此时两个工夫字符串的值就不同了，例如从 F 列看 2017/11/12 和 2017/11/13 各一条记录，然而 DATE_FORMAT 函数计算 timestamp 失去的却是 2017/11/12 有两条记录，解决这个问题的方法就是将表达式中的 83600 去掉，大家都用格林尼治时区；
表达式失效后，F1 的内容就是 E1 的工夫字符串，接下来 F 列的所有记录都作转换，鼠标放在下图红框地位时，会呈现十字架标记，在此标记上双击鼠标：

flink 在解决上述数据时，因为乱序问题可能会导致计算结果不准，以上图为例，在解决红框 2 中的数据时，红框 3 所对应的窗口早就实现计算了，尽管 flink 的 watermark 能够容忍肯定水平的乱序，然而必须将容忍工夫调整为 7 天能力将红框 3 的窗口保留下来不触发，这样的 watermark 调整会导致大量数据无奈计算，因而，须要将此 CSV 的数据依照工夫排序再拿来应用；
如下图操作即可实现排序：

至此，一份淘宝用户行为数据集就筹备结束了，接下来的文章将会用此数据进行 flink 相干的实战；

https://download.csdn.net/dow…

https://raw.githubusercontent…

微信搜寻「程序员欣宸」，我是欣宸，期待与您一起畅游 Java 世界 …
https://github.com/zq2599/blog_demos