乐趣区

关于shutdown:Datawhale-零基础入门数据挖掘Task1-赛题理解

此为学员手册的内容,先码住,尔后缓缓欠缺,修改。

Task1 赛题了解

Tip: 本次新人赛是 Datawhale 与天池联结发动的零根底入门系列赛事第五场 —— 零根底入门心电图心跳信号多分类预测挑战赛。

2016 年 6 月,国务院办公厅印发《国务院办公厅对于促成和标准衰弱医疗大数据利用倒退的领导意见》, 文件指出衰弱医疗大数据利用倒退将带来衰弱医疗模式的粗浅变动,有利于晋升衰弱医疗服务效率和品质。

赛题以心电图数据为背景,要求选手依据心电图感应数据预测心跳信号,其中心跳信号对应失常病例以及受不同心律不齐和心肌梗塞影响的病例,这是一个多分类的问题。通过这道赛题来疏导大家理解医疗大数据的利用,帮忙比赛新人进行自我练习、自我进步。

我的项目地址:https://github.com/datawhalec…

较量地址:https://tianchi.aliyun.com/co…

1.1 学习指标

  • 了解赛题数据和指标,分明评分体系。
  • 实现相应报名,下载数据和后果提交打卡(可提交示例后果),相熟较量流程

1.2 理解赛题

  • 赛题详情
  • 数据详情
  • 预测指标
  • 剖析赛题

1.2.1 赛题详情

较量要求参赛选手依据给定的数据集,建设模型,预测不同的心跳信号。赛题以预测心电图心跳信号类别为工作,数据集报名后可见并可下载,该该数据来自某平台心电图数据记录,总数据量超过 20 万,次要为 1 列心跳信号序列数据,其中每个样本的信号序列采样频次统一,长度相等。为了保障较量的公平性,将会从中抽取 10 万条作为训练集,2 万条作为测试集 A,2 万条作为测试集 B,同时会对心跳信号类别(label)信息进行脱敏。

通过这道赛题来疏导大家走进医疗大数据的世界,次要针对于于比赛新人进行自我练习,自我进步。

1.2.2 数据详情

一般而言,对于数据在较量界面都有对应的数据详情介绍(匿名特色除外),阐明列的性质特色。理解列的性质会有助于咱们对于数据的了解和后续剖析。

Tip: 匿名特色,就是未告知数据列所属的性质的特色列。

train.csv

  • id 为心跳信号调配的惟一标识
  • heartbeat_signals 心跳信号序列(数据之间采纳“,”进行分隔)
  • label 心跳信号类别(0、1、2、3)

testA.csv

  • id 心跳信号调配的惟一标识
  • heartbeat_signals 心跳信号序列(数据之间采纳“,”进行分隔)

1.2.3 预测指标

选手需提交 4 种不同心跳信号预测的概率,选手提交后果与理论心跳类型后果进行比照,求预测的概率与实在值差值的绝对值。

具体计算公式如下:

总共有 n 个病例,针对某一个信号,若实在值为[y1,y2,y3,y4], 模型预测概率值为[a1,a2,a3,a4], 那么该模型的评估指标 abs-sum 为

$$
{abs-sum={\mathop{ \sum}\limits_{{j=1}}^{{n}}{{\mathop{ \sum}\limits_{{i=1}}^{{4}}{{\left| {y\mathop{{}}\nolimits_{{i}}-a\mathop{{}}\nolimits_{{i}}} \right| }}}}}}
$$

例如,某心跳信号类别为 1,通过编码转成[0,1,0,0],预测不同心跳信号概率为[0.1,0.7,0.1,0.1],那么这个信号预测后果的 abs-sum 为

$$
{abs-sum={ \left| {0.1-0} \right| }+{\left| {0.7-1} \right| }+{\left| {0.1-0} \right| }+{\left| {0.1-0} \right| }=0.6}
$$

多分类算法常见的评估指标如下:

其实多分类的评估指标的计算形式与二分类齐全一样,只不过咱们计算的是针对于每一类来说的召回率、精确度、准确率和 F1 分数。

1、混同矩阵(Confuse Matrix)

  • (1)若一个实例是正类,并且被预测为正类,即为真正类 TP(True Positive)
  • (2)若一个实例是正类,然而被预测为负类,即为假负类 FN(False Negative)
  • (3)若一个实例是负类,然而被预测为正类,即为假正类 FP(False Positive)
  • (4)若一个实例是负类,并且被预测为负类,即为真负类 TN(True Negative)

第一个字母 T /F,示意预测的正确与否;第二个字母 P /N,示意预测的后果为正例或者负例。如 TP 就示意预测对了,预测的后果是正例,那它的意思就是把正例预测为了正例。

2. 准确率(Accuracy)准确率是罕用的一个评估指标,然而不适宜样本不平衡的状况,医疗数据大部分都是样本不平衡数据。

$$
Accuracy=\frac{Correct}{Total}\\
$$

$$
Accuracy = \frac{TP + TN}{TP + TN + FP + FN}
$$

3、准确率(Precision)也叫查准率简写为 P

$$
Precision = \frac{TP}{TP + FP}
$$

准确率 (Precision) 是针对预测后果而言的,其含意是 在被所有预测为正的样本中理论为正样本的概率 在被所有预测为正的样本中理论为正样本的概率,准确率和准确率看上去有些相似,然而是两个齐全不同的概念。准确率代表对正样本后果中的预测精确水平,准确率则代表整体的预测精确水平,包含正样本和负样本。

4. 召回率(Recall)也叫查全率 简写为 R

$$
Recall = \frac{TP}{TP + FN}
$$

召回率 (Recall) 是针对原样本而言的,其含意是 在理论为正的样本中被预测为正样本的概率

上面咱们通过一个简略例子来看看准确率和召回率。假如一共有 10 篇文章,外面 4 篇是你要找的。依据你的算法模型,你找到了 5 篇,但实际上在这 5 篇之中,只有 3 篇是你真正要找的。

那么算法的准确率是 3 /5=60%,也就是你找的这 5 篇,有 3 篇是真正对的。算法的召回率是 3 /4=75%,也就是须要找的 4 篇文章,你找到了其中三篇。以准确率还是以召回率作为评估指标,须要依据具体问题而定。

5. 宏查准率(macro-P)

计算每个样本的准确率而后求平均值

$$
{macroP=\frac{{1}}{{n}}{\mathop{ \sum}\limits_{{1}}^{{n}}{p\mathop{{}}\nolimits_{{i}}}}}
$$

6. 宏查全率(macro-R)

计算每个样本的召回率而后求平均值

$$
{macroR=\frac{{1}}{{n}}{\mathop{ \sum}\limits_{{1}}^{{n}}{R\mathop{{}}\nolimits_{{i}}}}}
$$

7. 宏 F1(macro-F1)

$$
{macroF1=\frac{{2 \times macroP \times macroR}}{{macroP+macroR}}}

$$

与下面的宏不同,微查准查全,先将多个混同矩阵的 TP,FP,TN,FN 对应地位求均匀,而后依照 P 和 R 的公式求得 micro- P 和 micro-R,最初依据 micro- P 和 micro- R 求得 micro-F1

8. 微查准率(micro-P)

$$
{microP=\frac{{\overline{TP}}}{{\overline{TP} \times \overline{FN}}}}

$$

9. 微查全率(micro-R)

$$

{microR=\frac{{\overline{TP}}}{{\overline{TP} \times \overline{FN}}}}

$$

10. 微 F1(micro-F1)

$$
{microF1=\frac{{2 \times microP\times microR}}{{microP+microR}}}

$$

1.2.4 参赛规定

  • 报名胜利后,选手下载数据,在本地调试算法,每天可提交 3 次后果;
  • 提交后将进行实时评测;每天排行榜更新工夫为 12:00 和 20:00,依照评测指标得分从高到低排序;排行榜将抉择历史最优问题进行展现;

1.2.5 赛题剖析

  • 本题为传统的数据挖掘问题,通过数据迷信以及机器学习深度学习的方法来进行建模失去后果。
  • 本题为典型的多分类问题,心跳信号一共有 4 个不同的类别
  • 次要利用 xgb、lgb、catboost,以及 pandas、numpy、matplotlib、seabon、sklearn、keras 等等数据挖掘罕用库或者框架来进行数据挖掘工作。
退出移动版