关于shutdown:Datawhale-零基础入门数据挖掘Task1-赛题理解

此为学员手册的内容，先码住，尔后缓缓欠缺，修改。

Task1赛题了解

Tip:本次新人赛是Datawhale与天池联结发动的零根底入门系列赛事第五场 —— 零根底入门心电图心跳信号多分类预测挑战赛。

2016年6月，国务院办公厅印发《国务院办公厅对于促成和标准衰弱医疗大数据利用倒退的领导意见》,文件指出衰弱医疗大数据利用倒退将带来衰弱医疗模式的粗浅变动，有利于晋升衰弱医疗服务效率和品质。

赛题以心电图数据为背景，要求选手依据心电图感应数据预测心跳信号，其中心跳信号对应失常病例以及受不同心律不齐和心肌梗塞影响的病例，这是一个多分类的问题。通过这道赛题来疏导大家理解医疗大数据的利用，帮忙比赛新人进行自我练习、自我进步。

我的项目地址：https://github.com/datawhalec...

较量地址：https://tianchi.aliyun.com/co...

1.1学习指标

了解赛题数据和指标，分明评分体系。
实现相应报名，下载数据和后果提交打卡（可提交示例后果），相熟较量流程

1.2理解赛题

赛题详情
数据详情
预测指标
剖析赛题

1.2.1赛题详情

较量要求参赛选手依据给定的数据集，建设模型，预测不同的心跳信号。赛题以预测心电图心跳信号类别为工作，数据集报名后可见并可下载，该该数据来自某平台心电图数据记录，总数据量超过20万，次要为1列心跳信号序列数据，其中每个样本的信号序列采样频次统一，长度相等。为了保障较量的公平性，将会从中抽取10万条作为训练集，2万条作为测试集A，2万条作为测试集B，同时会对心跳信号类别（label）信息进行脱敏。

通过这道赛题来疏导大家走进医疗大数据的世界，次要针对于于比赛新人进行自我练习，自我进步。

1.2.2数据详情

一般而言，对于数据在较量界面都有对应的数据详情介绍（匿名特色除外），阐明列的性质特色。理解列的性质会有助于咱们对于数据的了解和后续剖析。

Tip:匿名特色，就是未告知数据列所属的性质的特色列。

train.csv

id 为心跳信号调配的惟一标识
heartbeat_signals 心跳信号序列(数据之间采纳“,”进行分隔)
label 心跳信号类别（0、1、2、3）

testA.csv

id 心跳信号调配的惟一标识
heartbeat_signals 心跳信号序列(数据之间采纳“,”进行分隔)

1.2.3预测指标

选手需提交4种不同心跳信号预测的概率，选手提交后果与理论心跳类型后果进行比照，求预测的概率与实在值差值的绝对值。

具体计算公式如下：

总共有n个病例，针对某一个信号，若实在值为[y1,y2,y3,y4],模型预测概率值为[a1,a2,a3,a4],那么该模型的评估指标abs-sum为

$${abs-sum={\mathop{ \sum }\limits_{{j=1}}^{{n}}{{\mathop{ \sum }\limits_{{i=1}}^{{4}}{{ \left| {y\mathop{{}}\nolimits_{{i}}-a\mathop{{}}\nolimits_{{i}}} \right| }}}}}}$$

例如，某心跳信号类别为1，通过编码转成[0,1,0,0]，预测不同心跳信号概率为[0.1,0.7,0.1,0.1]，那么这个信号预测后果的abs-sum为

$${abs-sum={ \left| {0.1-0} \right| }+{ \left| {0.7-1} \right| }+{ \left| {0.1-0} \right| }+{ \left| {0.1-0} \right| }=0.6}$$

多分类算法常见的评估指标如下：

其实多分类的评估指标的计算形式与二分类齐全一样，只不过咱们计算的是针对于每一类来说的召回率、精确度、准确率和 F1分数。

1、混同矩阵（Confuse Matrix）

（1）若一个实例是正类，并且被预测为正类，即为真正类TP(True Positive )
（2）若一个实例是正类，然而被预测为负类，即为假负类FN(False Negative )
（3）若一个实例是负类，然而被预测为正类，即为假正类FP(False Positive )
（4）若一个实例是负类，并且被预测为负类，即为真负类TN(True Negative ）

第一个字母T/F，示意预测的正确与否；第二个字母P/N，示意预测的后果为正例或者负例。如TP就示意预测对了，预测的后果是正例，那它的意思就是把正例预测为了正例。

2.准确率（Accuracy）准确率是罕用的一个评估指标，然而不适宜样本不平衡的状况，医疗数据大部分都是样本不平衡数据。

$$Accuracy=\frac{Correct}{Total}\\$$

$$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$

3、准确率（Precision）也叫查准率简写为P

$$Precision = \frac{TP}{TP + FP}$$

准确率(Precision)是针对预测后果而言的，其含意是在被所有预测为正的样本中理论为正样本的概率在被所有预测为正的样本中理论为正样本的概率，准确率和准确率看上去有些相似，然而是两个齐全不同的概念。准确率代表对正样本后果中的预测精确水平，准确率则代表整体的预测精确水平，包含正样本和负样本。

4.召回率（Recall）也叫查全率简写为R

$$Recall = \frac{TP}{TP + FN}$$

召回率(Recall)是针对原样本而言的，其含意是在理论为正的样本中被预测为正样本的概率。

上面咱们通过一个简略例子来看看准确率和召回率。假如一共有10篇文章，外面4篇是你要找的。依据你的算法模型，你找到了5篇，但实际上在这5篇之中，只有3篇是你真正要找的。

那么算法的准确率是3/5=60%，也就是你找的这5篇，有3篇是真正对的。算法的召回率是3/4=75%，也就是须要找的4篇文章，你找到了其中三篇。以准确率还是以召回率作为评估指标，须要依据具体问题而定。

5.宏查准率（macro-P）

计算每个样本的准确率而后求平均值

$${macroP=\frac{{1}}{{n}}{\mathop{ \sum }\limits_{{1}}^{{n}}{p\mathop{{}}\nolimits_{{i}}}}}$$

6.宏查全率（macro-R）

计算每个样本的召回率而后求平均值

$${macroR=\frac{{1}}{{n}}{\mathop{ \sum }\limits_{{1}}^{{n}}{R\mathop{{}}\nolimits_{{i}}}}}$$

7.宏F1（macro-F1）

$${macroF1=\frac{{2 \times macroP \times macroR}}{{macroP+macroR}}}$$

与下面的宏不同，微查准查全，先将多个混同矩阵的TP,FP,TN,FN对应地位求均匀，而后依照P和R的公式求得micro-P和micro-R，最初依据micro-P和micro-R求得micro-F1

8.微查准率（micro-P）

$${microP=\frac{{\overline{TP}}}{{\overline{TP} \times \overline{FN}}}}$$

9.微查全率（micro-R）

$${microR=\frac{{\overline{TP}}}{{\overline{TP} \times \overline{FN}}}}$$

10.微F1（micro-F1）

$${microF1=\frac{{2 \times microP\times microR }}{{microP+microR}}}$$

1.2.4参赛规定

报名胜利后，选手下载数据，在本地调试算法，每天可提交3次后果；
提交后将进行实时评测；每天排行榜更新工夫为12:00和20:00，依照评测指标得分从高到低排序；排行榜将抉择历史最优问题进行展现；

1.2.5赛题剖析

本题为传统的数据挖掘问题，通过数据迷信以及机器学习深度学习的方法来进行建模失去后果。
本题为典型的多分类问题，心跳信号一共有4个不同的类别
次要利用xgb、lgb、catboost，以及pandas、numpy、matplotlib、seabon、sklearn、keras等等数据挖掘罕用库或者框架来进行数据挖掘工作。