乐趣区

关于数据挖掘:提高EDA探索性数据分析效率的-3-个简单工具

数据对于当今的每个行业都很重要,简直每家公司都在收集数据并应用它们来做出数据驱动的业务决策。在这个过程中最重要的步骤之一是剖析数据。有许多专门用于数据可视化的 python 库。例如 Matplotlib、Seaborn 等,然而他们只提供了图标的性能,如果咱们须要进行 EDA 则须要手动编写代码。在本文中将介绍 3 个工具,这些工具能够使咱们的探索性数据分析简直自动化。

1、pandas_profiling

pandas_profiling 能够扩大 DataFrame 的性能,通过应用 df.profile_report () 函数能够进行疾速数据分析并提供数据集的描述性摘要。它为数据集提供了报告生成性能,并为生成的报告提供了许多自定义函数。

要装置 pandas_profiling,请在您的 jupyter Notebook 中运行以下命令。

!pip install pandas_profiling

从 pandas_profiling 导入 ProfileReport 并运行以下代码。df 是数据集的名称。

import pandas_profiling
from pandas_profiling import ProfileReport
profile = ProfileReport(df, explorative=True, dark_mode=True)
profile.to_file('output.html')

下面的代码将生成一个报告,报告会保留在位于正在运行的 Notebook 所在的文件夹中。这个报告蕴含数据集的具体描述性摘要,并且能够进行互动的自定义剖析。以下是生成的报告中的一些片段截图。

DataFrame 的整体概述

单个变量的信息

2、D-Tale

D-Tale 是一个应用 Flask 后端和 React 前端的组合开发的工具。通过它能够查看和剖析 Pandas 数据结构,并且能够与 Notebook 和 python / ipython 终端无缝集成。目前该工具能够反对 DataFrame、Series、MultiIndex、DatetimeIndex 和 RangeIndex 等 Pandas 对象。

应用上面的代码装置 dtale。

!pip install dtale

上面的代码将返回一个表格,能够间接与表格互动进行数据分析的操作。包含数据清理、突出显示异样值、查看缺失值、执行相关性查看以及借助图表进行剖析等等。

import dtale 
dtale.show(df)

执行下面的代码后在表格选项卡中关上相应的选项就能够进行数据分析的操作了,例如下图:

3、dataprep

Dataprep 是一个开源 Python 库,能够自动化探索性数据分析过程。(这个在咱们的以前的文章中有过介绍)

!pip install dataprep

上面的代码会主动生成 EDA 的报告。在报告中能够别离查看每个变量的统计信息。并且提供了多个图表能够进行深入分析。

from dataprep.eda import create_report
create_report(df)

下面的代码片段只是 dataprep 工具提供的一部分。Dataprep 也能够用于 NLP 中,因为它提供了查看词频等选项。

总结

本文简略的介绍 3 个十分好用的的数据可视化和剖析工具,它们只须要很少的代码就能够主动的帮忙咱们执行疾速和具体的数据分析,心愿这三个工具对你有所帮忙。

https://www.overfit.cn/post/6697662e5c1a4c1c82ddd50cbef445c0

作者:Tamanna Sharma

退出移动版