共计 1892 个字符,预计需要花费 5 分钟才能阅读完成。
我的项目挑战
肝脏病在晚期可能没有任何症状,不容易被觉察,或者症状是含糊的。肝脏病的症状和肝脏病的类型和水平高度相干,肝脏病的个别是通过肝功能测试诊断。在常见的肝功能测试诊断中,个别次要蕴含三大类指标:血清酶、胆红素和血清蛋白。其中,血清酶中的医学指标次要包含丙氨酸氨基转移酶、天冬氨酸氨基转移酶和碱性磷酸酶等,当肝脏细胞被毁坏时,酶会被大量开释到血液中,引起指标回升。胆红素指标包含总胆红素、间接胆红素和间接胆红素等,它们反映了胆红素的代谢状况,当肝细胞变性坏死,胆红素代谢呈现阻碍时,胆红素指标会升高。血清蛋白指标反映了肝脏的合成性能,其蕴含白蛋白、球蛋白、总蛋白等,可用于检测慢性肝伤害、机体免疫等状况。晚期的诊断能够进步肝脏病患者的存活率,而通过血液中酶、胆红素、血清蛋白的程度来诊断肝脏病是一个十分重要的伎俩。
解决方案
数 据起源 筹备
试验数据集 (Indian Liver Patient Datset,,ILPD) 来自美国加州大学的一个统计学习网站 UCI。ILPD 由三个印度传授收集自印度安得拉邦的东北部,数据集蕴含 416 位肝病患者记录和 167 位非肝病患者记录,蕴含了 441 位男性患者记录和 142 位女性患者记录,任何年龄超过 89 岁的患者都被列为 90 岁。
描述性统计分析
基于患者的生理指标和医疗检测指标来对患者的状况进行描述性剖析(以下的图中 1 均代表患病,2 均代表不患病):
图 1 年龄和总蛋白的散布
从图 1 中能够看出患有肝脏病的人群年龄的平均水平 (中位数) 要比不患肝脏病的大,可能因为年龄大的人群的生存、工作压力较大,就容易患肝脏病。患有肝脏病的人群血液中的总蛋白含量与不患肝脏病的人群血液中总蛋白含量平均水平 (中位数) 差别并不显著,可能在判断某人是否患有心脏病时血液中总蛋白这个指标占的比重较小。
图 2 白蛋白和球蛋白比率散布
从图 2 能够看出患有肝脏病的人群血液中白蛋白含量的平均水平 (中位数) 显著低于不患肝脏病的人群血液中白蛋白含量,血液中白蛋白的含量偏低可能对肝脏病的影响较大。血液中白蛋白与球蛋白的的比率表明含有肝脏病的人群的平均水平 (中位数) 显著低于不患肝脏病的人群,可能在判断某人是否患有肝脏病白蛋白与球蛋白这个指标比拟重要。
图 3 患病与性别的散布
从图 3 能够看出,患病人群的男性人数约为女性人数的三倍,这与事实中患有肝脏病人群的散布稍有差别,呈现这种景象的起因是采集数据时男性数据占有多局部,女性采集的数据较少;其中男性中患有肝脏病与未患有肝脏病的比率约为 3:7,女性中患肝病人数与未患肝病人数的比例约为 4:6。性别对患病可能会有肯定的影响。
图 4 医疗指标的散布状况
从图 4 察看到患病人群的总胆红素(TBIL),间接胆红素(DBIL),碱性磷酸酶(ALP),谷丙转氨酶(ALT),天冬氨酸氨基转移酶(AST)5 个特色出现显著的右偏散布,可能是因为患有肝脏病的人群的医疗指标会高于常人。
局部试验数据
R 语言建模
逻辑回归
二项逻辑回归模型 (binomial logistic regression model) 是一种基于逻辑斯谛散布 (logistic distribution) 的二分类模型,是一种有监督的机器学习办法。根本思维是比拟条件概率 的大小,概率值大于 0.5 的属于正类,概率值小于 0.5 的属于负类。
随机森林
用随机的形式建设一个森林,森林由很多决策树组成,随机森林的每一棵决策树之间是没有关联的。在失去森林之后,当有一个新的输出样本进入的时候,就让森林中的每一棵决策树别离进行一下判断,看看这个样本应该属于哪一类(对于分类算法),而后看看哪一类被抉择最多,就预测这个样本为那一类。
决策树
决策树 (decision tree) 是能够用于分类和回归的一种有监督机器学习办法,决策树的模型以树形构造散布,能够在分类过程中对实例进行特征选择实现分类。分类决策树模型形容的是对实例进行分类的树状构造模型,决策树的构造为节点 (node) 和有向边 (directed edge), 节点又可分为叶节点(leaf node) 和外部节点(internal node)。叶节点示意类,外部节点示意特色。
反对向量回归(SVR)
反对向量机 (support vector machines,SVM) 是 Vapink 在 1979 年发现的,1995 年 Vapink 倡议用反对向量机来进行回归和分类。反对向量机是一种有监督的机器学习算法,它的目标是找到一个最优的超平面,而后将数据划分为不同的类别。
我的项目后果
从模型后果能够看到,全模型似然比为 0.4928,很多指标并不显著,所以思考利用 AIC 和 BIC 做子集抉择,使失去的模型更加精确,更有说服力。