关于数据挖掘:30程序老兵转型路数据分析实操篇

1次阅读

共计 1257 个字符,预计需要花费 4 分钟才能阅读完成。

背景

最近打算学习一点数据分析的内容,下图中尽管广告成分有点多,然而技多不压身个,都说程序员应该有一点产品思维,并对数据放弃敏感。

看了一些培训机构的介绍,波及到的知识点还挺多的,有工具、思维、实操及最初的报告。果然一口吃不了个瘦子,缓缓学吧。

数据分析框架

上面是一整套数据分析计划,分为 5 个步骤:明确问题、获取数据、数据荡涤、剖析数据最初出现报告。

明确问题,剖析要解决的问题,定义出一些数字化的指标进去,通过这些指标数字进行比照剖析最初能力得出答案,决策最初都会转换成大与小、高与低、多与少的量化比拟

获取数据,针对下面定义进去的数字化指标,通过各种形式来收集蕴含这些指标信息的数据,包含内部公开的数据,本人公司(部门)的业务数据等等。内部数据常常应用爬虫的形式获取一些公开的数据

数据荡涤,将获取到的数据中的非法值、空值、反复值、异样值进行荡涤,得出高质量的数据用于前面的剖析

数据分析及报告
剖析度量与每个维度之间的关系,剖析多个指标之间的关系,造成回归或分类模型,替换参数找到预测后果

实操

下面是一些理论知识,联合理论知识进行一下实操,咱们先利用爬虫从基金网站获取一些基金数据寄存到云数据库 MemFireDB 中,应用 tableau 进行数据荡涤及可视化剖析,找出最有价值的股票

获取数据,这个文章分享了如何获取公开的基金数据的办法 https://juejin.cn/post/697093…,咱们获取了一些基金数据如下图所示:

咱们用 tableau 来荡涤数据,Tableau 公司将数据运算与好看的图表完满地嫁接在一起。它的程序很容易上手,各公司能够用它将大量数据拖放到数字“画布”上,转眼间就能创立好各种图表。这一软件的理念是,界面上的数据越容易操控,公司对本人在所在业务畛域里的所作所为到底是正确还是谬误,就能理解得越透彻。

先下载安装 tableau,下载地址 https://www.tableau.com/zh-cn…
加载数据,Tableau 须要通过 odbc 的形式连贯数据库,咱们须要先配置 odbc,这篇文章中有配置 odbc 的形式 https://juejin.cn/post/697609…

点击“连贯”–“登录”,并选中数据表

先解释下几个字段的含意 代码:fundcode,名称:name,净值日期:jzrq,单位净值:dwjz,估算值:gsz,估算增长率:gszzl

点击工作表,拖拽 posname(股票名)到行(维度),抉择计数器到列(度量),而后抉择右侧的智能举荐中的气泡图,通过该图,咱们能够看到购买次数最多的是贵州茅台,观测其中最大和最小的气泡能够看出数据是否有异样。

也能够应用四分位图(盒须图)发现其中的异样数据,茅台挺异样的,不过如同是实在值!!!

当发现异常值之后,能够通过筛选器将异样值荡涤掉

接下来对数据进行剖析,能够用散点图的形式察看估算增长率与交易总额的关系

估算值与交易次数的关系

咱们也能够看出每天的交易中,每个股票所占的比例以及具体次数

到了这里我还是比拟懵,为啥茅台那么多人买???继续学习中!

正文完
 0