关于机器学习:自动化的机器学习5个常用AutoML-框架介绍

AutoML 能够为预测建模问题主动找到数据筹备、模型和模型超参数的最佳组合，本文整顿了 5 个最常见且被熟知的开源 AutoML 框架。

AutoML 框架执行的工作能够被总结成以下几点：

预处理和清理数据。
抉择并构建适当的特色。
抉择适合的模型。
优化模型超参数。
设计神经网络的拓扑构造（如果应用深度学习）。
机器学习模型的后处理。
后果的可视化和展现。

在本文中，咱们将介绍以下 5 个开源 autoML 库或框架：

Auto-Sklearn
TPOT
Hyperopt Sklearn
Auto-Keras
H2O AutoML

Auto-sklearn 是一个开箱即用的自动化机器学习库。auto-sklearn 以 scikit-learn 为根底，主动搜寻正确的学习算法并优化其超参数。通过元学习、贝叶斯优化和集成学习等搜寻能够获得最佳的数据处理管道和模型。它能够解决大部分繁琐的工作，例如预处理和特色工程技术：One-Hot 编码、特色归一化、降维等。

装置：

#pip
pip install auto-sklearn
#conda
conda install -c conda-forge auto-sklearn

因为进行了大量的封装，所以应用的办法 sklearn 根本一样，以下是样例代码：

import sklearn.datasets
import sklearn.metrics
import autosklearn.regression
import matplotlib.pyplot as plt
X, y = sklearn.datasets.load_diabetes(return_X_y=True)
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, random_state=1)
automl = autosklearn.regression.AutoSklearnRegressor(
    time_left_for_this_task=120,
    per_run_time_limit=30,
    tmp_folder='/tmp/autosklearn_regression_example_tmp',
)
automl.fit(X_train, y_train, dataset_name='diabetes')

代码地址：https://github.com/automl/aut…

TPOT（Tree-based Pipeline Optimization Tool）是一个 Python 自动化机器学习工具，它应用遗传算法优化对机器学习的流程进行优化。它也是基于 Scikit-Learn 提供的办法进行数据转换和机器学习模型的构建，然而它应用遗传算法编程进行随机和全局搜寻。以下是 TPOT 搜寻流程：

装置：

#pip
pip insall tpot
#conda
conda install -c conda-forge tpot

样例代码：

from tpot import TPOTClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import numpy as np

iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64),
    iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42)

tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42)
tpot.fit(X_train, y_train)
print(tpot.score(X_test, y_test))
tpot.export('tpot_iris_pipeline.py')

代码地址：https://github.com/EpistasisL…

HyperOpt-Sklearn 是 HyperOpt 的包装器，能够将 AutoML 和 HyperOpt 与 Scikit-Learn 进行整合，这个库蕴含了数据预处理的转换和分类、回归算法模型。文档中介绍说：它专为具备数百个参数的模型进行大规模优化而设计并容许跨多核和多台机器扩大优化过程。

装置：

pip install hyperopt

样例代码：

from pandas import read_csv
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from hpsklearn import HyperoptEstimator
from hpsklearn import any_regressor
from hpsklearn import any_preprocessing
from hyperopt import tpe
# load dataset
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64),
    iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42)
model = HyperoptEstimator(regressor=any_regressor('reg'), preprocessing=any_preprocessing('pre'), loss_fn=mean_absolute_error, algo=tpe.suggest, max_evals=50, trial_timeout=30)
model.fit(X_train, y_train)
# summarize performance
mae = model.score(X_test, y_test)
print("MAE: %.3f" % mae)
# summarize the best model
print(model.best_model())

代码地址：https://github.com/hyperopt/h…

AutoKeras 是一个基于 Keras 的 AutoML 零碎，只需几行代码就能够实现神经架构搜寻（NAS）的弱小性能。它由德克萨斯 A&M 大学的 DATA 实验室开发，以 TensorFlow 的 tf.keras API 和 Keras 为根底进行实现。

AutoKeras 能够反对不同的工作，例如图像分类、结构化数据分类或回归等。

装置：

pip install autokeras

样例代码：

import numpy as np
import tensorflow as tf
from tensorflow.keras.datasets import mnist
import autokeras as ak
#Load dataset
(x_train, y_train), (x_test, y_test) = mnist.load_data()
print(x_train.shape)  # (60000, 28, 28)
print(y_train.shape)  # (60000,)
print(y_train[:3])  # array([7, 2, 1], dtype=uint8)

# Initialize the image classifier.
clf = ak.ImageClassifier(overwrite=True, max_trials=1)
# Feed the image classifier with training data.
clf.fit(x_train, y_train, epochs=10)

# Predict with the best model.
predicted_y = clf.predict(x_test)
print(predicted_y)
# Evaluate the best model with testing data.
print(clf.evaluate(x_test, y_test))

代码地址：https://github.com/keras-team…

H2O 的 AutoML 可用于在用户指定的工夫限度内主动训练和调整许多模型。

H2O 提供了许多实用于 AutoML 对象（模型组）以及单个模型的可解释性办法。能够主动生成解释，并提供一个简略的界面来摸索和解释 AutoML 模型。

装置：

pip insall h2o

H2O 能够更具体的说是一个分布式的机器学习平台，所以就须要建设 H2O 的集群，这部分的代码是应用的 java 开发的，就须要装置 jdk 的反对。

在装置实现 JAVA 后，并且环境变量设置了 java 门路的状况下在 cmd 执行以下命令：

java -jar path_to/h2o.jar

就能够启动 H2O 的集群，就能够通过 Web 界面进行操作，如果想应用 Python 代码编写，能够应用以下示例

import h2o
h2o.init()
from h2o.automl import H2OAutoML
churn_df = h2o.import_file('https://raw.githubusercontent.com/srivatsan88/YouTubeLI/master/dataset/WA_Fn-UseC_-Telco-Customer-Churn.csv')
churn_df.types
churn_df.describe()
churn_train,churn_test,churn_valid = churn_df.split_frame(ratios=[.7, .15])
churn_train
y = "Churn"
x = churn_df.columns
x.remove(y)
x.remove("customerID")
aml = H2OAutoML(max_models = 10, seed = 10, exclude_algos = ["StackedEnsemble", "DeepLearning"], verbosity="info", nfolds=0)
!nvidia-smi
aml.train(x = x, y = y, training_frame = churn_train, validation_frame=churn_valid)

lb = aml.leaderboard
lb.head()
churn_pred=aml.leader.predict(churn_test)
churn_pred.head()
aml.leader.model_performance(churn_test)
model_ids = list(aml.leaderboard['model_id'].as_data_frame().iloc[:,0])
#se = h2o.get_model([mid for mid in model_ids if "StackedEnsemble_AllModels" in mid][0])
#metalearner = h2o.get_model(se.metalearner()['name'])
model_ids
h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0])
out = h2o.get_model([mid for mid in model_ids if "XGBoost" in mid][0])
out.params
out.convert_H2OXGBoostParams_2_XGBoostParams()
out
out_gbm = h2o.get_model([mid for mid in model_ids if "GBM" in mid][0])
out.confusion_matrix()
out.varimp_plot()
aml.leader.download_mojo(path = "./")

代码地址：https://github.com/h2oai/h2o-3

在本文中，咱们总结了 5 个 AutoML 库以及它如何查看机器学习进行工作的自动化，例如数据预处理、超参数调整、模型抉择和评估。除了这 5 个常见的库以外还有一些其余 AutoML 库，例如 AutoGluon、MLBoX、TransmogrifAI、Auto -WEKA、AdaNet、MLjar、TransmogrifAI、Azure Machine Learning、Ludwig 等。

https://www.overfit.cn/post/a5f1160b23ad4fea914ed394254f845a

作者：Abonia Sojasingarayar

关于机器学习:自动化的机器学习5个常用AutoML-框架介绍

1、Auto-Sklearn

2、TPOT

3、HyperOpt-Sklearn：

4、AutoKeras

5、H2O AutoML：

总结

Just My Socks（注册教程内含优惠码）

关于机器学习:自动化的机器学习5个常用AutoML-框架介绍

1、Auto-Sklearn

2、TPOT

3、HyperOpt-Sklearn：

4、AutoKeras

5、H2O AutoML：

总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）