关于人工智能:代码案例详解如何让机器学习模型自解释⛵

40次阅读

共计 3172 个字符，预计需要花费 8 分钟才能阅读完成。

本文解说一种比拟全能的『机器学习模型可解释性』办法——SHAP。通过调用 Python 的 SHAP 工具库，对机器学习模型做可解释性剖析，判断不同特色对于以后模型的重要水平。

💡 作者：韩信子 @ShowMeAI
📘 机器学习实战系列：https://www.showmeai.tech/tutorials/41
📘 本文地址：https://www.showmeai.tech/article-detail/337
📢 申明：版权所有，转载请分割平台与作者并注明出处
📢 珍藏 ShowMeAI 查看更多精彩内容

近年来，可解释的人工智能（XAI）和可解释的机器学习引起了越来越多的关注，因为间接把模型当做黑箱应用信任度和可控度都会受影响。有一些畛域，模型的可解释性更加重要，例如在医疗畛域，患者会质疑为什么模型诊断出他们患有某种疾病。

在本篇内容中，ShowMeAI 将给大家解说一个风行的模型解释办法 SHAP（SHapley Additive exPlanations），并基于理论案例解说如何基于工具库对模型做解释。

咱们对各类模型可解释办法进行划分，有以下一些划分维度：

模型无关和模型特定 ：一些办法可用于各种模型，而另一些办法是为解释特定模型而创立的。
全局和部分解释 ：本地意味着进行剖析以理解如何做出特定预测。另一方面，全局解释钻研了影响所有预测的因素。
基于模型和预先归因 ：基于模型的模型是咱们能够间接了解的模型，例如线性回归模型。另一类是预先解释模型的归因办法，大多数办法都属于这一类。

📘SHAP 全称是 SHapley Additive exPlanation，是比拟全能的模型可解释性的办法，既可作用于全局解释，也能够部分解释，即单个样本来看，模型给出的预测值和某些特色可能的关系，能够用 SHAP 来解释。

SHAP 属于模型预先解释的办法，核心思想是计算特色对模型输入的边际奉献，再从全局和部分两个层面对『 黑盒模型 』进行解释。SHAP 构建一个加性的解释模型，所有的特色都视为『贡献者』。

对于每个预测样本，模型都产生一个预测值，SHAP value 就是该样本中每个特色所调配到的数值。

根本思维 ：计算一个特色退出到模型时的边际奉献，而后思考到该特色在所有的特色序列的状况下不同的边际奉献，取均值，即某该特色的 SHAP baseline value。

咱们来拿一个场景案例解说一下 SHAP 如何进行模型可解释剖析，用到的数据是人口普查数据，咱们会调用 Python 的工具库库 SHAP 间接分析模型。

ShowMeAI 在本例中应用到的是 🏆 美国人口普查支出数据集 ，工作是依据人口根本信息预测其年收入是否可能超过 50,000 美元，是一个二分类问题。

数据集能够在以下地址下载：

📘 https://archive.ics.uci.edu/ml/datasets/Adult
📘 https://archive.ics.uci.edu/ml/machine-learning-databases/adult/

数据从美国 1994 年人口普查数据库抽取而来，能够用来预测居民收入是否超过 50K/year。

该数据集类变量为年收入是否超过 50k，属性变量蕴含年龄、工种、学历、职业、人种等重要信息，值得一提的是，14 个属性变量中有 7 个类别型变量。

数据集各属性是：其中序号 0~13 是属性，14 是类别。

字段序号	字段名	含意	类型
0	age	年龄	Double
1	workclass	工作类型 *	string
2	fnlwgt	序号	string
3	education	教育水平 *	string
4	education_num	受教育工夫	double
5	maritial_status	婚姻状况 *	string
6	occupation	职业 *	string
7	relationship	关系 *	string
8	race	种族 *	string
9	sex	性别 *	string
10	capital_gain	资本收益	string
11	capital_loss	资本损失	string
12	hours_per_week	每周工作小时数	double
13	native_country	寄籍 *	string
14(label)	income	支出标签	string

from sklearn.model_selection import train_test_split
import lightgbm as lgb
import shap

shap.initjs()
X,y = shap.datasets.adult()
X_display,y_display = shap.datasets.adult(display=True)# create a train/test split

# 训练集与测试集切分及解决
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=7)
d_train = lgb.Dataset(X_train, label=y_train)
d_test = lgb.Dataset(X_test, label=y_test)# create a simple model

# 模型参数
params = {
    "max_bin": 512,
    "learning_rate": 0.05,
    "boosting_type": "gbdt",
    "objective": "binary",
    "metric": "binary_logloss",
    "num_leaves": 10,
    "verbose": -1,
    "min_data": 100,
    "boost_from_average": True
}

# 模型训练
model = lgb.train(params, d_train, 10000, valid_sets=[d_test], early_stopping_rounds=50, verbose_eval=1000)# explain the model

# 模型解释
explainer = shap.TreeExplainer(model)
shap_values = explainer.shap_values(X)# visualize the impact of each features
shap.summary_plot(shap_values, X)

上图中的 SHAP 后果值，通知咱们不同的特色维度（输出）对于以后模型的重要水平，包含总体的重要水平，以及对每个类别的断定的影响水平。

📘 SHAP 文档 ：https://shap.readthedocs.io/en/latest/index.html
📘 美国人口普查支出数据集 ：https://archive.ics.uci.edu/ml/datasets/census+income

🌍 数据分析实战系列 ：https://www.showmeai.tech/tutorials/40
🌍 机器学习数据分析实战系列 ：https://www.showmeai.tech/tutorials/41
🌍 深度学习数据分析实战系列 ：https://www.showmeai.tech/tutorials/42
🌍 TensorFlow 数据分析实战系列 ：https://www.showmeai.tech/tutorials/43
🌍 PyTorch 数据分析实战系列 ：https://www.showmeai.tech/tutorials/44
🌍 NLP 实战数据分析实战系列 ：https://www.showmeai.tech/tutorials/45
🌍 CV 实战数据分析实战系列 ：https://www.showmeai.tech/tutorials/46
🌍 AI 面试题库系列 ：https://www.showmeai.tech/tutorials/48

正文完

人工智能

发表至：人工智能

2022-11-24

0

关于人工智能:新监管形势下的数据流通合规技术解最新探究-连载一

关于人工智能:使用三重损失和孪生神经网络训练大型类目的嵌入表示

关于人工智能:翻译实用的Python编程0203Formatting

关于人工智能:第六期-黑灰产盯上政府消费券最高套现额超千万

关于运维:Linux-配置服务器之间免密登录传输文件

关于人工智能:代码案例详解如何让机器学习模型自解释⛵

💡 模型可解释办法的划分

💡 SHAP 原理

💡 案例实战解说

💦 数据阐明

💦 SHAP 计算 & 模型解释

参考资料

举荐浏览

Just My Socks（注册教程内含优惠码）

关于人工智能:代码案例详解如何让机器学习模型自解释⛵

💡 模型可解释办法的划分

💡 SHAP 原理

💡 案例实战解说

💦 数据阐明

💦 SHAP 计算 & 模型解释

参考资料

举荐浏览

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）