关于程序员:Python解析参数的三种方法

明天咱们分享的次要目标就是通过在 Python 中应用命令行和配置文件来进步代码的效率

Let’s go!

咱们以机器学习当中的调参过程来进行实际，有三种形式可供选择。第一个选项是应用 argparse，它是一个风行的 Python 模块，专门用于命令行解析；另一种办法是读取 JSON 文件，咱们能够在其中搁置所有超参数；第三种也是鲜为人知的办法是应用 YAML 文件！好奇吗，让咱们开始吧！

在上面的代码中，我将应用 Visual Studio Code，这是一个十分高效的集成 Python 开发环境。这个工具的美好之处在于它通过装置扩大反对每种编程语言，集成终端并容许同时解决大量 Python 脚本和 Jupyter 笔记本

当然如果你还不晓得怎么配置 VSCode，能够看这里

手把手将 Visual Studio Code 变成 Python 开发神器

数据集，应用的是 Kaggle 上的共享自行车数据集，能够在这里下载或者在文末获取

https://www.kaggle.com/datase…

就像上图所示，咱们有一个规范的构造来组织咱们的小我的项目：

蕴含咱们数据集的名为 data 的文件夹
train.py 文件
用于指定超参数的 options.py 文件

首先，咱们能够创立一个文件 train.py，在其中咱们有导入数据、在训练数据上训练模型并在测试集上对其进行评估的根本程序：

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, mean_absolute_error

from options import train_options

df = pd.read_csv('data\hour.csv')
print(df.head())
opt = train_options()

X=df.drop(['instant','dteday','atemp','casual','registered','cnt'],axis=1).values
y =df['cnt'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

if opt.normalize == True:
    scaler = StandardScaler()
    X = scaler.fit_transform(X)
    
rf = RandomForestRegressor(n_estimators=opt.n_estimators,max_features=opt.max_features,max_depth=opt.max_depth)
model = rf.fit(X_train,y_train)
y_pred = model.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_pred, y_test))
mae = mean_absolute_error(y_pred, y_test)
print("rmse:",rmse)
print("mae:",mae)

在代码中，咱们还导入了蕴含在 options.py 文件中的 train_options 函数。后一个文件是一个 Python 文件，咱们能够从中更改 train.py 中思考的超参数：

import argparse

def train_options():
    parser = argparse.ArgumentParser()
    parser.add_argument("--normalize", default=True, type=bool, help='maximum depth')
    parser.add_argument("--n_estimators", default=100, type=int, help='number of estimators')
    parser.add_argument("--max_features", default=6, type=int, help='maximum of features',)
    parser.add_argument("--max_depth", default=5, type=int,help='maximum depth')
    opt = parser.parse_args()
    return opt

在这个例子中，咱们应用了 argparse 库，它在解析命令行参数时十分风行。首先，咱们初始化解析器，而后，咱们能够增加咱们想要拜访的参数。

这是运行代码的示例：

python train.py

要更改超参数的默认值，有两种办法。第一个选项是在 options.py 文件中设置不同的默认值。另一种抉择是从命令行传递超参数值：

python train.py --n_estimators 200

咱们须要指定要更改的超参数的名称和相应的值。

python train.py --n_estimators 200 --max_depth 7

和后面一样，咱们能够放弃相似的文件构造。在这种状况下，咱们将 options.py 文件替换为 JSON 文件。换句话说，咱们想在 JSON 文件中指定超参数的值并将它们传递给 train.py 文件。与 argparse 库相比，JSON 文件能够是一种疾速且直观的代替计划，它利用键值对来存储数据。上面咱们创立一个 options.json 文件，其中蕴含咱们稍后须要传递给其余代码的数据。

{
"normalize":true,
"n_estimators":100,
"max_features":6,
"max_depth":5 
}

如上所见，它与 Python 字典十分类似。然而与字典不同的是，它蕴含文本 / 字符串格局的数据。此外，还有一些语法略有不同的常见数据类型。例如，布尔值是 false/true，而 Python 辨认 False/True。JSON 中其余可能的值是数组，它们用方括号示意为 Python 列表。

在 Python 中应用 JSON 数据的美好之处在于，它能够通过 load 办法转换成 Python 字典：

f = open("options.json", "rb")
parameters = json.load(f)

要拜访特定我的项目，咱们只须要在方括号内援用它的键名：

if parameters["normalize"] == True:
    scaler = StandardScaler()
    X = scaler.fit_transform(X)
rf=RandomForestRegressor(n_estimators=parameters["n_estimators"],max_features=parameters["max_features"],max_depth=parameters["max_depth"],random_state=42)
model = rf.fit(X_train,y_train)
y_pred = model.predict(X_test)

最初一种抉择是利用 YAML 的后劲。与 JSON 文件一样，咱们将 Python 代码中的 YAML 文件作为字典读取，以拜访超参数的值。YAML 是一种人类可读的数据表示语言，其中层次结构应用双空格字符示意，而不是像 JSON 文件中的括号。上面咱们展现 options.yaml 文件将蕴含的内容：

normalize: True 
n_estimators: 100
max_features: 6
max_depth: 5

在 train.py 中，咱们关上 options.yaml 文件，该文件将始终应用 load 办法转换为 Python 字典，这一次是从 yaml 库中导入的：

import yaml
f = open('options.yaml','rb')
parameters = yaml.load(f, Loader=yaml.FullLoader)

和后面一样，咱们能够应用字典所需的语法拜访超参数的值。

配置文件的编译速度十分快，而 argparse 则须要为咱们要增加的每个参数编写一行代码。

所以咱们应该依据本人的不同状况来抉择最为适合的形式

例如，如果咱们须要为参数增加正文，JSON 是不适合的，因为它不容许正文，而 YAML 和 argparse 可能非常适合。

好了，这就是明天分享的全部内容，喜爱就点个赞吧~

本文由 mdnice 多平台公布

关于程序员:Python解析参数的三种方法

先决条件

应用 argparse

应用 JSON 文件

应用 YAML 文件

最初的想法