全文链接:http://tecdat.cn/?p=28560
原文出处:拓端数据部落公众号
作者:Chang Gao
2020 年疫情愈演愈烈,新冠的检测与确诊人数也急剧上飙,失控的疫情无疑给经济造成了微小的打击,同时也极大的影响了待业市场。对于政府来说,剖析确定线性关系是对将来走向进行评估预测的重要基石,然而应用 python 进行提取数据进行整合并且应用可视化清晰的出现线性关系并不是一件容易的事件。
解决方案
工作 / 指标
基于政府提供的线上数据,使用数据源剖析探索新冠病毒检测人数与失业率是否存在线性关系。
数据源筹备
第一个数据源来自失业率统计。
第二个数据源来自新冠检测及病例数统计数据。
数据源导入
应用 API 将数据导入 Python 提取可用局部,并将数据源用 data frame 的模式出现,同时应用.describe() 对其进行了简略的整顿形容。自此对数据的类型及根本状况(两个数据集的平均数,中位数,方差,最大最小值)有了一个根本的理解。
ERD 图解
数据初步可视化
数据荡涤
查看新冠病毒数据集的异样值并对其进行荡涤,将荡涤后的数据集从新计算平均值并将两个数据集进行合并。
我的项目后果
在此案例中,我利用折线图将失业率进行可视化解决,同时利用散点图对新冠病毒案例及检测数进行可视化解决并将检测后果为阳性的案例进行进一步提取(同时借助 tableau 对新馆病毒进行更加清晰的可视化解决),其可视化图形如下:
能够看出,新冠病毒的病例及检测数与失业率并没有显著的线性关系,但在疫情暴发的初期,新冠病毒的暴发确实对经济及待业市场造成了微小的影响。
因为并不存在显著牢靠的线性关系,咱们无奈对将来失业率或是新冠病毒的案例及检测数进行精确的预估。咱们须要更多的相干数据进行剖析评估及预测。
对于作者
在此对 Chang Gao 对本文所作的奉献示意诚挚感激,她特长商业数据分析、数据可视化、数据采集。
最受欢迎的见解
1.R 语言动态图可视化:如何、创立具备精美动画的图
2.R 语言生存剖析可视化剖析
3.Python 数据可视化 -seaborn Iris 鸢尾花数据
4.r 语言对布丰投针(蒲丰投针)试验进行模仿和动静
5.R 语言生存剖析数据分析可视化案例
6.r 语言数据可视化剖析案例:摸索 brfss 数据数据分析
7.R 语言动静可视化:制作历史寰球平均温度的累积动静折线图动画 gif 视频图
8.R 语言高维数据的主成分 pca、t-SNE 算法降维与可视化剖析案例报告
9.python 主题 LDA 建模和 t -SNE 可视化