关于数据挖掘:刘畊宏男孩女孩看过来运动数据分析挖掘⛵

💡 作者：韩信子@ShowMeAI
📘数据分析 ◉ 技能晋升系列：https://www.showmeai.tech/tutorials/33
📘AI 面试题库系列：https://www.showmeai.tech/tutorials/48
📘本文地址：https://www.showmeai.tech/article-detail/301
📢 申明：版权所有，转载请分割平台与作者并注明出处
📢 珍藏ShowMeAI查看更多精彩内容

因为疫情，2年多的工夫里，大家多了很多居家的经验，然而静止衰弱并不能因为居家而进行，健身随时随处能够进行！健身环大冒险等大热，而前阵子的刘畊宏跳操，带火了一大票畊宏男孩女孩，可穿戴设施市场大涨，而这些设施也记录了大量的静止数据。

当初有十分多的静止穿戴设施，比方简略的小米手环，到fitbit，到apple watch，而数据迷信畛域的从业者们，咱们泛滥的数据分析师和数据科学家，能够轻松剖析健身设施上收集的数据，把数据迷信和医疗保健联合起来。

在本篇内容中，ShowMeAI就基于 fitbit 手环记录的一部分数据，解说如何进行无效的数据分析。本次应用的数据集能够在 Kaggle 平台 上收费下载。大家也能够通过ShowMeAI的网盘间接下载。

🏆 实战数据集下载（百度网盘）：公众号『ShowMeAI钻研核心』回复『实战』，或者点击这里获取本文 [[12] 静止手环的数据分析开掘与建模案例](https://www.showmeai.tech/art…) 『Fitabase 静止佩戴设施数据集』

⭐ ShowMeAI官网GitHub：https://github.com/ShowMeAI-Hub

本篇内容波及的工具库，大家能够参考ShowMeAI制作的工具库速查表和教程进行学习和疾速应用。

📘数据迷信工具库速查表 | Pandas 速查表

📘图解数据分析：从入门到精通系列教程

💡 数据导入

咱们先导入所需工具库，并读取数据：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import plotly.express as px
import plotly.graph_objects as go

# 读取数据
data = pd.read_csv('dailyActivity_merged.csv')
print(data.head())

该数据集由2016年12月3日-2016年12月5日期间通过亚马逊Mechanical Turk进行的分布式考察的受访者产生。30名符合条件的Fitbit用户批准提交集体追踪器数据，包含身材流动、心率和睡眠监测的分钟级输入。集体报告能够通过输入会话ID（A列）或工夫戳（B列）进行解析。输入后果之间的差别代表了不同类型的Fitbit追踪器的应用和集体追踪行为/偏好。

💡 初步剖析

咱们先看看这个数据集的缺失值状况：

data.isnull().sum()

咱们能够通过info和describe查看数据根本信息。

data.info()

咱们在数据中看到记录时间的字段ActivityDate，咱们把它转换为工夫型，以便进行后续进一步剖析。

# 更改 ActivityDate 的数据类型。 
data["ActivityDate"] = pd.to_datetime(data["ActivityDate"], format="%m/%d/%Y")

咱们从字段名称中能够看到，有记录『十分沉闷』、『相当沉闷』、『轻度沉闷』和『久坐』的工夫信息，别离是VeryActiveMinutes、FairlyActiveMinutes、LightlyActiveMinutes、SedentaryMinutes，咱们对所有工夫做一个汇总。

data["TotalMinutes"] = data["VeryActiveMinutes"] + data["FairlyActiveMinutes"] + data["LightlyActiveMinutes"] + data["SedentaryMinutes"]
data["TotalMinutes"].sample(5)

咱们通过describe函数查看一下数据集的描述性统计数据。

data.describe()

💡 EDA 探索性数据分析

数据集中的“卡路里”列记录了每天焚烧多少卡路里，咱们基于它做一点剖析。

# 钻研一下每日总步数和耗费的卡路里之间的分割。 
figure = px.scatter(data_frame = data, x="Calories",
                    y="TotalSteps", size="VeryActiveMinutes", 
                    trendline="ols", 
                    title="总步数和耗费的卡路里的关系")
figure.show()

从上图能够看出，每日热量耗费与所采取的总步数之间存在间接关联。同样的思路咱们剖析一下总途程和耗费卡路里的关系：

# 钻研一下每日总途程和耗费的卡路里之间的分割。 
figure = px.scatter(data_frame = data.dropna(), x="Calories",
                    y="TotalDistance", size="VeryActiveMinutes", 
                    trendline="lowess", color='TotalSteps',
                    title="总途程和耗费的卡路里的关系")
figure.show()

上图能够看到，总途程和卡路里之间也是正相干的关系。上面让咱们剖析一下一天中的均匀总沉闷分钟数。

label = ["Very Active Minutes", "Fairly Active Minutes", "Lightly Active Minutes", "Inactive Minutes"]
counts = data[["VeryActiveMinutes", "FairlyActiveMinutes", "LightlyActiveMinutes", "SedentaryMinutes"]].mean()
colors = ["gold","lightgreen", "pink", "blue"]

fig = go.Figure(data=[go.Pie(labels=label, values=counts)])
fig.update_layout(title_text="总流动工夫")
fig.update_traces(hoverinfo="label+percent", textinfo="value", textfont_size=24, marker=dict(colors=colors, line=dict(color="black", width=3)))
fig.show()

一些察看论断：

81.3% 的非流动分钟数
15.8% 的轻度流动分钟数
均匀21 分钟（1.74%）十分沉闷
评估13 分钟（1.11%）的相当沉闷的分钟数

上面咱们开展做一点更具体的剖析，咱们先抽取更细化的信息，咱们增加一个新字段“Day”记录星期几。

data["Day"] = data["ActivityDate"].dt.day_name()
data["Day"].head()

上面咱们可视化比照一下一周中每一天的『十分沉闷』、『相当沉闷』和『轻度沉闷』的分钟数。

fig = go.Figure()

fig.add_trace(go.Bar(
                         x=data["Day"],
                         y=data["VeryActiveMinutes"],
                         name="Very Active",
                         marker_color="purple"
                        ))

fig.add_trace(go.Bar(
                         x=data["Day"],
                         y=data["FairlyActiveMinutes"],
                         name="Fairly Active",
                         marker_color="green"
                        ))

fig.add_trace(go.Bar(
                         x=data["Day"],
                         y=data["LightlyActiveMinutes"],
                         name="Lightly Active",
                         marker_color="pink"
                        ))

fig.update_layout(barmode="group", xaxis_tickangle=-45)

fig.show()

让咱们看看一周中每一天的非流动分钟数。

day = data["Day"].value_counts()
label = day.index
counts = data["SedentaryMinutes"]

colors = ['gold','lightgreen', "pink", "blue", "skyblue", "cyan", "orange"]
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])

fig.update_layout(title_text='Inactive Minutes Daily')
fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=30,
                  marker=dict(colors=colors, line=dict(color='black', width=3)))
fig.show()

从这份数据看来，星期四是大家最不沉闷的一天。上面咱们来看看一周中每一天焚烧的卡路里数。

calories = data["Day"].value_counts()
label = calories.index
counts = data["Calories"]

colors = ['gold','lightgreen', "pink", "blue", "skyblue", "cyan", "orange"]
fig = go.Figure(data=[go.Pie(labels=label, values=counts)])

fig.update_layout(title_text='Calories Burned Daily')
fig.update_traces(hoverinfo='label+percent', textinfo='value', textfont_size=30, marker=dict(colors=colors, line=dict(color='black', width=3)))
fig.show()

从上图能够看出，星期二是这份数据集中的用户最沉闷的日子之一，这一天焚烧的卡路里最多。上面咱们剖析一下每日步数：

import seaborn as sns
sns.set(rc={'figure.figsize':(8,6)})
activity_by_week_day = sns.barplot(x="Day", y="TotalSteps", data=data, 
                                   order=['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday'], 
                                   capsize=.2)

💡 每日耗费卡路里预估

上面咱们搭建一个模型，对于每日耗费的卡路里进行建模预估。

本局部波及到的模型常识与建模操作方法，参见ShowMeAI以下局部教程：

📘图解机器学习算法：从入门到精通系列教程

📘机器学习实战：手把手教你玩转机器学习系列

咱们剔除ID类特色和日期特色，把『Calories』作为指标，把其余字段作为特色，留神其中的『星期几/Day』字段是类别型，咱们要独自编码一下。

features = ['TotalSteps', 'TotalDistance', 'TrackerDistance', 'LoggedActivitiesDistance', 'VeryActiveDistance', 'ModeratelyActiveDistance', 'LightActiveDistance', 'SedentaryActiveDistance', 'VeryActiveMinutes', 'FairlyActiveMinutes', 'LightlyActiveMinutes', 'SedentaryMinutes', 'TotalMinutes', 'Day']
target = 'Calories'

# 数据切分
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(data[features], data[target], test_size=0.2, random_state=0)

# 应用lightgbm训练
from lightgbm import LGBMRegressor
lgbm = LGBMRegressor(n_estimators=1000, learning_rate=0.05, random_state=0)

# 「星期几」字段编码
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
X_train['Day'] = le.fit_transform(X_train['Day'])
X_test['Day'] = le.transform(X_test['Day'])

# 拟合模型
lgbm.fit(X_train, y_train)

# 测试集预估
predictions = lgbm.predict(X_test)

# 计算测试集RMSE
from sklearn.metrics import mean_squared_error
rmse = np.sqrt(mean_squared_error(y_test, predictions))
print("RMSE: %f" % (rmse))

运行失去后果为RMSE: 373.128953

为了更精确地进行建模和评估，咱们应用网格搜寻穿插验证进行超参数优化：

# 应用网格搜寻对lightgbm模型进行超参数调优
from sklearn.model_selection import GridSearchCV
parameters = {
                'learning_rate': [0.02, 0.05, 0.08, 0.1],
                'max_depth': [5, 7, 10],
                'feature_fraction': [0.6, 0.8, 0.9],
                'subsample': [0.6, 0.8, 0.9],
                'n_estimators': [100, 200, 500, 1000]}

# 网格搜寻
grid_search = GridSearchCV(lgbm, parameters, cv=5, n_jobs=-1, verbose=1)

# 最佳模型
grid_search.fit(X_train, y_train)
best_lgbm = grid_search.best_estimator_
# 输入最佳超参数
print(grid_search.best_params_)
# 测试集预估
predictions = best_lgbm.predict(X_test)
# 计算RMSE
from sklearn.metrics import mean_squared_error
rmse = np.sqrt(mean_squared_error(y_test, predictions))
print("RMSE: %f" % (rmse))

最终后果输入

{'feature_fraction': 0.6, 'learning_rate': 0.05, 'max_depth': 5, 'n_estimators': 1000, 'subsample': 0.6}
RMSE: 352.782209

咱们能够看到，调参后的模型在测试集上体现更优。最初咱们输入一下特色重要度，看看那些因素对于卡路里耗费更加重要：

#绘制特色重要度
import matplotlib.pyplot as plt
plt.figure(figsize=(20,10))
importance = best_lgbm.feature_importances_
feature_importance = pd.DataFrame({'feature': features, 'importance': importance})
feature_importance = feature_importance.sort_values('importance', ascending=True)
feature_importance.plot.barh(x='feature', y='importance', figsize=(20,10))

能够看到，每日总步数对后果影响最大，大家要多多抬腿多多静止！

参考资料

🏆 实战数据集下载（百度网盘）：公众号『ShowMeAI钻研核心』回复『实战』，或者点击这里获取本文 [[12] 静止手环的数据分析开掘与建模案例](https://www.showmeai.tech/art…) 『Fitabase 静止佩戴设施数据集』
⭐ ShowMeAI官网GitHub：https://github.com/ShowMeAI-Hub
📘数据迷信工具库速查表 | Pandas 速查表 https://www.showmeai.tech/article-detail/101
📘 图解数据分析：从入门到精通系列教程 https://www.showmeai.tech/tutorials/33
📘 图解机器学习算法：从入门到精通系列教程 https://www.showmeai.tech/tutorials/34
📘 机器学习实战：手把手教你玩转机器学习系列 https://www.showmeai.tech/tutorials/41

关于数据挖掘:刘畊宏男孩女孩看过来运动数据分析挖掘⛵

💡 数据导入

💡 初步剖析

💡 EDA 探索性数据分析

💡 每日耗费卡路里预估

参考资料

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于数据挖掘:刘畊宏男孩女孩看过来运动数据分析挖掘⛵

💡 数据导入

💡 初步剖析

💡 EDA 探索性数据分析

💡 每日耗费卡路里预估

参考资料

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复