共计 5285 个字符,预计需要花费 14 分钟才能阅读完成。
一、阐明
本文分享基于 Fate 自带的测试样例,进行 纵向逻辑回归
算法的模型训练,并且通过 FATE Board
可视化查看后果。
本文的内容为基于《隐衷计算 FATE- 概念与单机部署指南》中部署的环境。
二、进入容器
执行以下命令,进入 Fate 的容器中:
docker exec -it $(docker ps -aqf "name=standalone_fate") bash
能够看到其中有一个 examples
的目录,外面蕴含各种算法的测试样例,以及测试的数据。
进入到 examples
后,创立一个 my_test
的目录:
cd examples
mkdir my_test
留神 :前面所有的操作都默认在该目录下执行。
三、上传数据
第一步须要筹备好训练要用的数据,咱们能够通过 csv 文件
把数据上传到 Fate 外面;
自带的测试数据都在容器里的 /data/projects/fate/examples/data
目录中:
能够看到每种算法都别离提供了 guest 和 host 两方的数据。
3.1. 筹备 guest 方配置
在 my_test
目录下,执行以下命令:
vi upload_hetero_guest.json
内容如下:
{
"file": "/data/projects/fate/examples/data/breast_hetero_guest.csv",
"head": 1,
"partition": 10,
"work_mode": 0,
"namespace": "experiment",
"table_name": "breast_hetero_guest"
}
- file:数据文件的门路
- head:数据文件是否蕴含表头
- partition:用于存储数据的分区数
- work_mode:工作模式,0 为单机版,1 为集群版
- namespace:命名空间
- table_name:数据表名
3.2. 筹备 host 方配置
在 my_test
目录下,执行以下命令:
vi upload_hetero_host.json
内容如下:
{
"file": "/data/projects/fate/examples/data/breast_hetero_host.csv",
"head": 1,
"partition": 10,
"work_mode": 0,
"namespace": "experiment",
"table_name": "breast_hetero_host"
}
留神文件名与表名是和 guest 方不一样的。
3.3. 执行上传
执行以下两个命令,别离上传 guest 和 host 方的数据:
flow data upload -c upload_hetero_guest.json
flow data upload -c upload_hetero_host.json
通过 -c 来指定配置文件。
胜利后返回上传工作的相干信息:
{
"data": {
"board_url": "http://127.0.0.1:8080/index.html#/dashboard?job_id=202205070640371260700&role=local&party_id=0",
"code": 0,
"dsl_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/job_dsl.json",
"job_id": "202205070640371260700",
"logs_directory": "/data/projects/fate/fateflow/logs/202205070640371260700",
"message": "success",
"model_info": {
"model_id": "local-0#model",
"model_version": "202205070640371260700"
},
"namespace": "experiment",
"pipeline_dsl_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/pipeline_dsl.json",
"runtime_conf_on_party_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/local/0/job_runtime_on_party_conf.json",
"runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/job_runtime_conf.json",
"table_name": "breast_hetero_guest",
"train_runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/train_runtime_conf.json"
},
"jobId": "202205070640371260700",
"retcode": 0,
"retmsg": "success"
}
3.4. 检查数据
执行以下命令,查看表的相干信息:
flow table info -t breast_hetero_guest -n experiment
执行后返回:
{
"data": {
"address": {
"home": null,
"name": "breast_hetero_guest",
"namespace": "experiment",
"storage_type": "LMDB"
},
"count": 569,
"exist": 1,
"namespace": "experiment",
"partition": 10,
"schema": {
"header": "y,x0,x1,x2,x3,x4,x5,x6,x7,x8,x9",
"sid": "id"
},
"table_name": "breast_hetero_guest"
},
"retcode": 0,
"retmsg": "success"
}
四、模型训练
接下来咱们就开始进行建模工作,须要筹备两个配置文件,流程配置文件 dsl 和参数配置文件 conf。
4.1. 筹备 dsl 文件
执行以下命令:
cp /data/projects/fate/examples/dsl/v2/hetero_logistic_regression/hetero_lr_normal_dsl.json /data/projects/fate/examples/my_test/
间接把 Fate 自带的纵向逻辑回归算法样例,复制到咱们的
my_test
目录下。
Fate 把各种算法实现了组件化,dsl 文件次要配置整个建模流程是由哪些 component 组成的:
比方第一个模块 Reader
就是用于读取刚刚上传的训练数据,而后是 DataTransform
模块,把训练数据转换为实例对象,个别所有的建模流程都须要有后面这两个模块;
总的来说配置一个 component 须要以下内容:
- module:模型组件,Fate 以后反对 37 个模型组件
- input:- date:数据输出
- module:模型输出
- output:- date:数据输入
- module:模型输入
module 是定义这个组件的类型,以后 Fate 曾经自带 37 个组件能够应用,当然咱们也能够本人开发新增算法组件进去;
input 和 output 就是别离设置组件的输入输出,两个同时都反对两种类型,别离是数据和模型输入输出。
具体的配置阐明可参考官网文档:https://github.com/FederatedAI/FATE/blob/master/doc/tutorial/dsl_conf/dsl_conf_v2_setting_guide.zh.md
4.2. 筹备 conf 文件
执行以下命令:
cp /data/projects/fate/examples/dsl/v2/hetero_logistic_regression/hetero_lr_normal_conf.json /data/projects/fate/examples/my_test/
间接把 Fate 自带的纵向逻辑回归算法样例,复制到咱们的
my_test
目录下。
从上图能够看到在 component_parameters
元素下,配置 Reader
组件所读取的表名。
该配置次要是配置以下内容:
- DSL 的版本
- 各个参与方的角色以及 party_id
- 组件运行参数
对于组件清单以及每一个组件的具体配置参数可参考官网文档:https://fate.readthedocs.io/en/latest/zh/federatedml_component/
4.3. 提交工作
执行以下命令:
flow job submit -d hetero_lr_normal_dsl.json -c hetero_lr_normal_conf.json
通过 -d 和 -c 来别离指定 dsl 和 conf 配置文件。
胜利后返回训练任务的相干信息:
{
"data": {
"board_url": "http://127.0.0.1:8080/index.html#/dashboard?job_id=202205070226373055640&role=guest&party_id=9999",
"code": 0,
"dsl_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/job_dsl.json",
"job_id": "202205070226373055640",
"logs_directory": "/data/projects/fate/fateflow/logs/202205070226373055640",
"message": "success",
"model_info": {
"model_id": "arbiter-10000#guest-9999#host-10000#model",
"model_version": "202205070226373055640"
},
"pipeline_dsl_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/pipeline_dsl.json",
"runtime_conf_on_party_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/guest/9999/job_runtime_on_party_conf.json",
"runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/job_runtime_conf.json",
"train_runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/train_runtime_conf.json"
},
"jobId": "202205070226373055640",
"retcode": 0,
"retmsg": "success"
}
其中有几个属性须要关注:
- board_url:这个地址是能够查看工作状况的 FATE Board 地址。
- job_id:工作的惟一关键字,能够在 FATE Board 上通过这个 ID 查看工作的详情。
- logs_directory:是日志的门路,能够通过这个地址查看工作的各种日志信息。
- model_info:外面有 model_id 和 model_version 这两个信息会在执行预测工作时须要用到,预测之前须要指定基于哪个模型来执行预测工作,而这两个信息就是模型的惟一关键字。
五、可视化
5.1. 工作概览
通过下面返回信息中 board_url
的地址,在浏览器拜访即可进入工作的概览页面:
http://127.0.0.1:8080/index.h…
须要留神的是:因为是在容器外面执行的,所以 IP 地址须要依照理论状况进行批改。
登录的用户名和明码都为 admin
右边 Dataset info 是各个参与方的信息,两头呢是工作的运行状况显示运行的进度条以及耗时,左边是整个工作流程的组件 DAG
图,下方是工作日志信息。
5.2. 组件输入
点击两头的 view this job
按钮,进入工作的详细信息:
DAG 图中的每个组件都是能够点击的,选中 hetero_lr_0
组件,点击右下角的 view the outputs
按钮,进入 逻辑回归 组件的输入页面:
左上角有三个 TAG 别离为:
- model output:模型输入,是算法组件的训练后果。
- data output:数据输入,每个组件数据处理后的输入,用于上游组件的输出。
- log:该组件的运行日志。
扫码关注有惊喜!