在理论的机器学习我的项目中,咱们通常须要将训练好的模型保留到磁盘,以便在当前的工夫点进行推理或从新训练。同样地,咱们也须要从磁盘加载模型以供应用。在本文中,咱们将介绍如何在 Python 中应用 pickle
和joblib
库将训练好的模型长久化到磁盘,并从磁盘加载模型。
1. 应用 pickle 库长久化与加载模型
pickle
是 Python 规范库的一部分,提供了对 Python 对象的序列化和反序列化性能。咱们能够应用 pickle
库将训练好的模型序列化为二进制格局,并将其保留到磁盘。以下是一个简略的示例:
import pickle
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
# 加载 Iris 数据集并训练模型
iris = load_iris()
X, y = iris.data, iris.target
model = LogisticRegression(max_iter=1000)
model.fit(X, y)
# 应用 pickle 将模型保留到磁盘
with open("model.pkl", "wb") as f:
pickle.dump(model, f)
接下来,咱们能够从磁盘加载模型并进行预测:
import pickle
# 从磁盘加载模型
with open("model.pkl", "rb") as f:
loaded_model = pickle.load(f)
# 应用加载的模型进行预测
predictions = loaded_model.predict(X)
2. 应用 joblib 库长久化与加载模型
joblib
是一个独立的 Python 库,提供了对大型 numpy 数组的高效存储和加载性能。对于许多机器学习模型,joblib
通常比 pickle
更快且更适宜用于长久化。以下是如何应用 joblib
长久化和加载模型的示例:
首先,咱们须要装置 joblib
库:
pip install joblib
而后,咱们能够应用 joblib
将训练好的模型保留到磁盘:
from joblib import dump
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
# 加载 Iris 数据集并训练模型
iris = load_iris()
X, y = iris.data, iris.target
model = LogisticRegression(max_iter=1000)
model.fit(X, y)
# 应用 joblib 将模型保留到磁盘
dump(model, "model.joblib")
接下来,咱们能够应用 joblib
从磁盘加载模型并进行预测:
from joblib import load
# 从磁盘加载模型
loaded_model = load("model.joblib")
# 应用加载的模型进行预测
predictions = loaded_model.predict(X)
3. 总结
在 Python 中,咱们能够应用 pickle
和joblib
库将训练好的机器学习模型长久化到磁盘,并从磁盘加载模型。pickle
库是 Python 规范库的一部分,实用于序列化和反序列化 Python 对象,而 joblib
库则专为解决大型 numpy 数组而设计,通常在机器学习畛域中体现更佳。
在理论我的项目中,咱们能够依据须要抉择适合的库进行模型长久化和加载。joblib
在解决大型数据和机器学习模型时具备更高的性能和效率,因而对于大型机器学习模型,通常举荐应用 joblib
库。
须要留神的是,长久化和加载模型时要确保所应用的库、依赖和环境与保留模型时雷同,否则可能会导致加载失败或者预测后果不正确。因而,在部署机器学习模型时,确保各种依赖的一致性十分重要。你能够应用虚拟环境(如 venv
或conda
)来治理我的项目的依赖,确保模型部署的顺利进行。