关于算法:拓端tecdat基于机器学习的印度肝脏病诊断分析

3次阅读

共计 2307 个字符,预计需要花费 6 分钟才能阅读完成。

原文链接:http://tecdat.cn/?p=23534

作者:ShiChao Wu 

我的项目挑战

肝脏病在晚期可能没有任何症状,不容易被觉察,或者症状是含糊的。肝脏病的症状和肝脏病的类型和水平高度相干,肝脏病的个别是通过肝功能测试诊断。在常见的肝功能测试诊断中,个别次要蕴含三大类指标:血清酶、胆红素和血清蛋白。其中,血清酶中的医学指标次要包含丙氨酸氨基转移酶、天冬氨酸氨基转移酶和碱性磷酸酶等,当肝脏细胞被毁坏时,酶会被大量开释到血液中,引起指标回升。胆红素指标包含总胆红素、间接胆红素和间接胆红素等,它们反映了胆红素的代谢状况,当肝细胞变性坏死,胆红素代谢呈现阻碍时,胆红素指标会升高。血清蛋白指标反映了肝脏的合成性能,其蕴含白蛋白、球蛋白、总蛋白等,可用于检测慢性肝伤害、机体免疫等状况。晚期的诊断能够进步肝脏病患者的存活率,而通过血液中酶、胆红素、血清蛋白的程度来诊断肝脏病是一个十分重要的伎俩。

解决方案

据起源 筹备

试验数据集 (Indian Liver Patient Datset,,ILPD) 来自美国加州大学的一个统计学习网站 UCI。ILPD 由三个印度传授收集自印度安得拉邦的东北部,数据集蕴含 416 位肝病患者记录和 167 位非肝病患者记录,蕴含了 441 位男性患者记录和 142 位女性患者记录,任何年龄超过 89 岁的患者都被列为 90 岁。

描述性统计分析

基于患者的生理指标和医疗检测指标来对患者的状况进行描述性剖析(以下的图中 1 均代表患病,2 均代表不患病):

图 1 年龄和总蛋白的散布

从图 1 中能够看出患有肝脏病的人群年龄的平均水平 (中位数) 要比不患肝脏病的大,可能因为年龄大的人群的生存、工作压力较大,就容易患肝脏病。患有肝脏病的人群血液中的总蛋白含量与不患肝脏病的人群血液中总蛋白含量平均水平 (中位数) 差别并不显著,可能在判断某人是否患有心脏病时血液中总蛋白这个指标占的比重较小。

图 2 白蛋白和球蛋白比率散布

从图 2 能够看出患有肝脏病的人群血液中白蛋白含量的平均水平 (中位数) 显著低于不患肝脏病的人群血液中白蛋白含量,血液中白蛋白的含量偏低可能对肝脏病的影响较大。血液中白蛋白与球蛋白的的比率表明含有肝脏病的人群的平均水平 (中位数) 显著低于不患肝脏病的人群,可能在判断某人是否患有肝脏病白蛋白与球蛋白这个指标比拟重要。

图 3 患病与性别的散布

从图 3 能够看出,患病人群的男性人数约为女性人数的三倍,这与事实中患有肝脏病人群的散布稍有差别,呈现这种景象的起因是采集数据时男性数据占有多局部,女性采集的数据较少;其中男性中患有肝脏病与未患有肝脏病的比率约为 3:7,女性中患肝病人数与未患肝病人数的比例约为 4:6。性别对患病可能会有肯定的影响。

图 4 医疗指标的散布状况

从图 4 察看到患病人群的总胆红素(TBIL),间接胆红素(DBIL),碱性磷酸酶(ALP),谷丙转氨酶(ALT),天冬氨酸氨基转移酶(AST)5 个特色出现显著的右偏散布,可能是因为患有肝脏病的人群的医疗指标会高于常人。

局部试验数据

R 语言建模

逻辑回归

二项逻辑回归模型 (binomial logistic regression model) 是一种基于逻辑斯谛散布 (logistic distribution) 的二分类模型,是一种有监督的机器学习办法。根本思维是比拟条件概率 的大小,概率值大于 0.5 的属于正类,概率值小于 0.5 的属于负类。

随机森林

用随机的形式建设一个森林,森林由很多决策树组成,随机森林的每一棵决策树之间是没有关联的。在失去森林之后,当有一个新的输出样本进入的时候,就让森林中的每一棵决策树别离进行一下判断,看看这个样本应该属于哪一类(对于分类算法),而后看看哪一类被抉择最多,就预测这个样本为那一类。

决策树

决策树 (decision tree) 是能够用于分类和回归的一种有监督机器学习办法,决策树的模型以树形构造散布,能够在分类过程中对实例进行特征选择实现分类。分类决策树模型形容的是对实例进行分类的树状构造模型,决策树的构造为节点 (node) 和有向边 (directed edge), 节点又可分为叶节点(leaf node) 和外部节点(internal node)。叶节点示意类,外部节点示意特色。

反对向量回归(SVR)

反对向量机 (support vector machines,SVM) 是 Vapink 在 1979 年发现的,1995 年 Vapink 倡议用反对向量机来进行回归和分类。反对向量机是一种有监督的机器学习算法,它的目标是找到一个最优的超平面,而后将数据划分为不同的类别。

我的项目后果

 从模型后果能够看到,全模型似然比为 0.4928,很多指标并不显著,所以思考利用 AIC 和 BIC 做子集抉择,使失去的模型更加精确,更有说服力。


最受欢迎的见解

1.R 语言多元 Logistic 逻辑回归 利用案例

2. 面板平滑转移回归 (PSTR) 剖析案例实现

3.matlab 中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R 语言泊松 Poisson 回归模型剖析案例

5. R 语言混合效应逻辑回归 Logistic 模型剖析肺癌

6.r 语言中对 LASSO 回归,Ridge 岭回归和 Elastic Net 模型实现

7. R 语言逻辑回归、Naive Bayes 贝叶斯、决策树、随机森林算法预测心脏病

8.python 用线性回归预测股票价格

9. R 语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测


对于作者

ShiChao Wu 是 拓端研究室(TRL)的研究员。

他作为一名 211 学校统计系硕士,非常明确数据分析在现代化的生产和运维中的重要性。在大数据的时代,高新技术企业的技术骨干越来越年轻化,数据分析师的位置也越来越重要。

正文完
 0