关于人工智能:一种超参数优化技术Hyperopt

59次阅读

共计 5776 个字符，预计需要花费 15 分钟才能阅读完成。

作者 |GUEST BLOG
编译 |VK
起源 |Analytics Vidhya

在机器学习我的项目中，你须要遵循一系列步骤，直到你达到你的指标，你必须执行的步骤之一就是对你抉择的模型进行超参数优化。此工作总是在模型抉择过程之后实现（抉择性能优于其余模型的最佳模型）。

在定义超参数优化之前，你须要理解什么是超参数。简言之，超参数是用来管制学习过程的不同参数值，对机器学习模型的性能有显著影响。

随机森林算法中超参数的例子是预计器的数目（n_estimators）、最大深度（max_depth）和准则。这些参数是可调的，能够间接影响训练模型的好坏。

超参数优化就是寻找适合的超参数值组合，以便在正当的工夫内实现对数据的最大性能。它对机器学习算法的预测精度起着至关重要的作用。因而，超参数优化被认为是建设机器学习模型中最艰难的局部。

大多数机器学习算法都带有默认的超参数值。默认值在不同类型的机器学习我的项目中并不总是体现良好，这就是为什么你须要优化它们，以获得最佳性能的正确组合。

好的超参数能够使一个算法发光。

有一些优化超参数的罕用策略：

这是一种宽泛应用的传统办法，它通过执行超参数调整来确定给定模型的最佳值。网格搜寻通过在模型中尝试所有可能的参数组合来工作，这意味着执行整个搜寻将破费大量工夫，这可能会导致计算成本十分高。

留神：你能够在这里学习如何实现网格搜寻:https://github.com/Davisy/Hyp…

在超参数值的随机组合用于为构建的模型寻找最佳解决方案时，这种办法的工作形式不同。随机搜寻的毛病是有时会漏掉搜寻空间中的重要点（值）。

留神：你能够在这里理解更多实现随机搜寻的办法:https://github.com/Davisy/Hyp…

在本系列文章中，我将向你介绍不同的高级超参数优化技术 / 办法，这些技术 / 办法能够帮忙你取得给定模型的最佳参数。咱们将钻研以下技术。

Hyperopt
Scikit Optimize
Optuna

在本文中，我将重点介绍 Hyperopt 的实现。

Hyperopt 是一个弱小的 python 库，用于超参数优化，由 jamesbergstra 开发。Hyperopt 应用贝叶斯优化的模式进行参数调整，容许你为给定模型获得最佳参数。它能够在大范畴内优化具备数百个参数的模型。

Hyperopt 的个性

Hyperopt 蕴含 4 个重要的个性，你须要晓得，以便运行你的第一个优化。

（a）搜寻空间

hyperopt 有不同的函数来指定输出参数的范畴，这些是随机搜寻空间。抉择最罕用的搜寻选项：

hp.choice(label, options)- 这可用于分类参数，它返回其中一个选项，它应该是一个列表或元组。示例:hp.choice(“criterion”, [“gini”,”entropy”,])
hp.randint(label, upper)- 可用于整数参数，它返回范畴（0，upper）内的随机整数。示例：hp.randint(“max_features”,50)
hp.uniform(label, low, high)- 它返回一个介于 low 和 high 之间的值。示例：hp.uniform(“max_leaf_nodes”,1,10)

你能够应用的其余选项包含：

hp.normal(label, mu, sigma)- 这将返回一个理论值，该值遵从均值为 mu 和标准差为 sigma 的正态分布
hp.qnormal(label, mu, sigma, q)- 返回一个相似 round(normal(mu, sigma) / q) * q 的值
hp.lognormal(label, mu, sigma)- 返回 exp(normal(mu, sigma))
hp.qlognormal(label, mu, sigma, q) - 返回一个相似 round(exp(normal(mu, sigma)) / q) * q 的值

你能够在这里理解更多的搜寻空间选项：https://github.com/hyperopt/h…

注：每个可优化的随机表达式都有一个标签（例如 n_estimators）作为第一个参数。这些标签用于在优化过程中将参数抉择返回给调用者。

（b）指标函数

这是一个最小化函数，它从搜寻空间接管超参数值作为输出并返回损失。这意味着在优化过程中，咱们应用选定的超参数值训练模型并预测指标特色，而后评估预测误差并将其返回给优化器。优化器将决定要查看哪些值并再次迭代。你将在一个理论例子中学习如何创立一个指标函数。

（c）fmin

fmin 函数是对不同的算法集及其超参数进行迭代，而后使指标函数最小化的优化函数。fmin 有 5 个输出是：

最小化的指标函数
定义的搜寻空间
应用的搜索算法有随机搜寻、TPE（Tree-Parzen 预计器）和自适应 TPE。
留神：hyperopt.rand.suggest 以及 hyperopt.tpe.suggest 为超参数空间的顺序搜索提供逻辑。
最大评估数
trials 对象（可选）

例子：

from hyperopt import fmin, tpe, hp,Trials

trials = Trials()

best = fmin(fn=lambda x: x ** 2,
            space= hp.uniform('x', -10, 10),
            algo=tpe.suggest,
            max_evals=50,
            trials = trials)

print(best)

（d）试验对象

Trials 对象用于保留所有超参数、损失和其余信息，这意味着你能够在运行优化后拜访它们。此外，trials 能够帮忙你保留和加载重要信息，而后持续优化过程。（你将在理论示例中理解更多信息）。

from hyperopt import Trials 

trials = Trials()

在了解了 Hyperopt 的重要个性之后，上面将介绍 Hyperopt 的应用办法。

初始化要搜寻的空间。
定义指标函数。
抉择要应用的搜索算法。
运行 hyperopt 函数。
分析测试对象中存储的评估输入。

当初你曾经理解了 Hyperopt 的重要个性，在这个理论示例中，咱们将应用挪动价格数据集，工作是创立一个模型，预测挪动设施的价格是 0（低成本）或 1（中等老本）或 2（高老本）或 3（十分高老本）。

你能够从 PyPI 装置 hyperopt。

pip install hyperopt

而后导入重要的软件包

# 导入包
import numpy as np 
import pandas as pd 
from sklearn.ensemble import RandomForestClassifier 
from sklearn import metrics
from sklearn.model_selection import cross_val_score
from sklearn.preprocessing import StandardScaler 
from hyperopt import tpe, hp, fmin, STATUS_OK,Trials
from hyperopt.pyll.base import scope

import warnings
warnings.filterwarnings("ignore")

让咱们从数据目录加载数据集。以获取无关此数据集的更多信息：https://www.kaggle.com/iabhis…

# 加载数据

data = pd.read_csv("data/mobile_price_data.csv")

检查数据集的前五行。

# 读取数据

data.head()

如你所见，在咱们的数据集中，咱们有不同的数值特色。

让咱们察看一下数据集的形态。

# 显示形态

data.shape

(2000, 21)

在这个数据集中，咱们有 2000 行和 21 列。当初让咱们理解一下这个数据集中的特色列表。

# 显示列表 

list(data.columns)

[‘battery_power’,‘blue’,‘clock_speed’,‘dual_sim’,‘fc’,‘four_g’,‘int_memory’,‘m_dep’,‘mobile_wt’,‘n_cores’,‘pc’,‘px_height’,‘px_width’,‘ram’,‘sc_h’,‘sc_w’,‘talk_time’,‘three_g’,‘touch_screen’,‘wifi’,‘price_range’]

你能够在这里找到每个列名的含意：https://www.kaggle.com/iabhis…

这是一个分类问题，咱们将从数据集中拆散出指标特色和独立特色。咱们的指标是价格区间。

# 将数据拆分为特色和指标

X = data.drop("price_range", axis=1).values 
y = data.price_range.values

而后应用 scikit-learn 中的 StandardScaler 办法对独立特色进行标准化。

# 标准化特色变量

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

咱们将应用随机森林算法的三个超参数，即 n_estimators、max_depth 和 criterion。

space = {"n_estimators": hp.choice("n_estimators", [100, 200, 300, 400,500,600]),
    "max_depth": hp.quniform("max_depth", 1, 15,1),
    "criterion": hp.choice("criterion", ["gini", "entropy"]),
}

咱们在下面抉择的超参数中设置了不同的值。而后定义指标函数。

咱们的最小化函数称为超参数调整，优化其超参数的分类算法是随机森林。我应用穿插验证来防止过拟合，而后函数将返回一个损失值及其状态。

# 定义指标函数

def hyperparameter_tuning(params):
    clf = RandomForestClassifier(**params,n_jobs=-1)
    acc = cross_val_score(clf, X_scaled, y,scoring="accuracy").mean()
    return {"loss": -acc, "status": STATUS_OK}

留神：记住 hyperopt 最小化了函数，所以我在 acc 中增加了负号：

最初，首先实例化 Trial 对象，对模型进行微调，而后用其超参数值打印出最佳损失。

# 初始化 Trial 对象
trials = Trials()

best = fmin(
    fn=hyperparameter_tuning,
    space = space, 
    algo=tpe.suggest, 
    max_evals=100, 
    trials=trials
)

print("Best: {}".format(best))

100%|█████████████████████████████████████████████████████████| 100/100 [10:30<00:00, 6.30s/trial, best loss: -0.8915] Best: {‘criterion’: 1,‘max_depth’: 11.0,‘n_estimators’: 2}.

在进行超参数优化后，损失为 -0.8915，应用随机森林分类器中的 n_estimators=300，max_depth=11，criterian=“entropy”，模型性能的准确率为 89.15%。

trials 对象能够帮忙咱们查看在试验期间计算的所有返回值。

（一）trials.results

这显示搜寻期间“objective”返回的词典列表。

trials.results

[{‘loss’: -0.8790000000000001,‘status’:‘ok’}, {‘loss’: -0.877,‘status’:‘ok’}, {‘loss’: -0.768,‘status’:‘ok’}, {‘loss’: -0.8205,‘status’:‘ok’}, {‘loss’: -0.8720000000000001,‘status’:‘ok’}, {‘loss’: -0.883,‘status’:‘ok’}, {‘loss’: -0.8554999999999999,‘status’:‘ok’}, {‘loss’: -0.8789999999999999,‘status’:‘ok’}, {‘loss’: -0.595,‘status’:‘ok’},…….]

（二）trials.losses()

这显示了一个损失列表

trials.losses()

[-0.8790000000000001, -0.877, -0.768, -0.8205, -0.8720000000000001, -0.883, -0.8554999999999999, -0.8789999999999999, -0.595, -0.8765000000000001, -0.877, ………]

（三）trials.statuses()

这将显示状态字符串的列表。

trials.statuses()

[‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’,‘ok’, ……….]

注：这个试验对象能够保留，传递到内置的绘图例程，或者用你本人的自定义代码进行剖析。

祝贺你，你曾经实现了这篇文章

你能够在此处下载本文中应用的数据集和笔记本：https://github.com/Davisy/Hyp…

原文链接：https://www.analyticsvidhya.c…

欢送关注磐创 AI 博客站：
http://panchuang.net/

sklearn 机器学习中文官网文档：
http://sklearn123.com/

欢送关注磐创博客资源汇总站：
http://docs.panchuang.net/

正文完

人工智能

发表至：人工智能

2020-11-06

0

关于人工智能:一文掌握-MobileNetV3-在-TorchVision-中的实现细节

关于人工智能:用树莓派4b构建深度学习应用六TensorFlow-Lite篇

关于人工智能:这8个NumPy函数可以解决90的常见问题

关于人工智能:目标检测YOLO系列算法的进化史

关于java:java-Arrays

关于人工智能:一种超参数优化技术Hyperopt

介绍

什么是超参数优化？

（a）网格搜寻

（b）随机搜寻

超参数优化技术

什么是 Hyperopt

Hyperopt 的个性

（a）搜寻空间

（b）指标函数

（c）fmin

（d）试验对象

实际中的 Hyperpot

装置 Hyperopt

数据集

将数据集合成为指标特色和独立特色

预处理数据集

为优化定义参数空间

定义最小化函数（指标函数）

微调模型

应用 trials 对象剖析后果

（一）trials.results

（二）trials.losses()

（三）trials.statuses()

结尾

Just My Socks（注册教程内含优惠码）

关于人工智能:一种超参数优化技术Hyperopt

介绍

什么是超参数优化？

（a）网格搜寻

（b）随机搜寻

超参数优化技术

什么是 Hyperopt

Hyperopt 的个性

（a）搜寻空间

（b）指标函数

（c）fmin

（d）试验对象

实际中的 Hyperpot

装置 Hyperopt

数据集

将数据集合成为指标特色和独立特色

预处理数据集

为优化定义参数空间

定义最小化函数（指标函数）

微调模型

应用 trials 对象剖析后果

（一）trials.results

（二）trials.losses()

（三）trials.statuses()

结尾

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）