关于区块链:隐私计算FATE模型训练

一、阐明

本文分享基于 Fate 自带的测试样例，进行 纵向逻辑回归 算法的模型训练，并且通过 FATE Board 可视化查看后果。

本文的内容为基于《隐衷计算FATE-概念与单机部署指南》中部署的环境。

二、进入容器

执行以下命令，进入 Fate 的容器中：

docker exec -it $(docker ps -aqf "name=standalone_fate") bash

能够看到其中有一个 examples 的目录，外面蕴含各种算法的测试样例，以及测试的数据。

进入到 examples 后，创立一个 my_test 的目录：

cd examplesmkdir my_test

留神：前面所有的操作都默认在该目录下执行。

三、上传数据

第一步须要筹备好训练要用的数据，咱们能够通过 csv文件 把数据上传到 Fate 外面；

自带的测试数据都在容器里的 /data/projects/fate/examples/data 目录中：

能够看到每种算法都别离提供了 guest 和 host 两方的数据。

3.1. 筹备guest方配置

在 my_test 目录下，执行以下命令：

vi upload_hetero_guest.json

内容如下：

{  "file": "/data/projects/fate/examples/data/breast_hetero_guest.csv",  "head": 1,  "partition": 10,    "work_mode": 0,  "namespace": "experiment",  "table_name": "breast_hetero_guest"}

file：数据文件的门路
head：数据文件是否蕴含表头
partition：用于存储数据的分区数
work_mode：工作模式，0为单机版，1为集群版
namespace：命名空间
table_name：数据表名

3.2. 筹备host方配置

在 my_test 目录下，执行以下命令：

vi upload_hetero_host.json

内容如下：

{  "file": "/data/projects/fate/examples/data/breast_hetero_host.csv",  "head": 1,  "partition": 10,    "work_mode": 0,  "namespace": "experiment",  "table_name": "breast_hetero_host"}

留神文件名与表名是和guest方不一样的。

3.3. 执行上传

执行以下两个命令，别离上传 guest 和 host 方的数据：

flow data upload -c upload_hetero_guest.jsonflow data upload -c upload_hetero_host.json

通过 -c 来指定配置文件。

胜利后返回上传工作的相干信息：

{    "data": {        "board_url": "http://127.0.0.1:8080/index.html#/dashboard?job_id=202205070640371260700&role=local&party_id=0",        "code": 0,        "dsl_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/job_dsl.json",        "job_id": "202205070640371260700",        "logs_directory": "/data/projects/fate/fateflow/logs/202205070640371260700",        "message": "success",        "model_info": {            "model_id": "local-0#model",            "model_version": "202205070640371260700"        },        "namespace": "experiment",        "pipeline_dsl_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/pipeline_dsl.json",        "runtime_conf_on_party_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/local/0/job_runtime_on_party_conf.json",        "runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/job_runtime_conf.json",        "table_name": "breast_hetero_guest",        "train_runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/train_runtime_conf.json"    },    "jobId": "202205070640371260700",    "retcode": 0,    "retmsg": "success"}

3.4. 检查数据

执行以下命令，查看表的相干信息：

flow table info -t breast_hetero_guest -n experiment

执行后返回：

{    "data": {        "address": {            "home": null,            "name": "breast_hetero_guest",            "namespace": "experiment",            "storage_type": "LMDB"        },        "count": 569,        "exist": 1,        "namespace": "experiment",        "partition": 10,        "schema": {            "header": "y,x0,x1,x2,x3,x4,x5,x6,x7,x8,x9",            "sid": "id"        },        "table_name": "breast_hetero_guest"    },    "retcode": 0,    "retmsg": "success"}

四、模型训练

接下来咱们就开始进行建模工作，须要筹备两个配置文件，流程配置文件 dsl 和参数配置文件 conf。

4.1. 筹备dsl文件

执行以下命令：

cp /data/projects/fate/examples/dsl/v2/hetero_logistic_regression/hetero_lr_normal_dsl.json /data/projects/fate/examples/my_test/

间接把 Fate 自带的纵向逻辑回归算法样例，复制到咱们的 my_test 目录下。

Fate 把各种算法实现了组件化，dsl 文件次要配置整个建模流程是由哪些 component 组成的：

比方第一个模块 Reader 就是用于读取刚刚上传的训练数据，而后是 DataTransform 模块，把训练数据转换为实例对象，个别所有的建模流程都须要有后面这两个模块；

总的来说配置一个 component 须要以下内容：

- module：模型组件，Fate 以后反对 37 个模型组件 - input：     - date：数据输出    - module：模型输出- output：    - date：数据输入    - module：模型输入

module 是定义这个组件的类型，以后 Fate 曾经自带 37 个组件能够应用，当然咱们也能够本人开发新增算法组件进去；

input 和 output 就是别离设置组件的输入输出，两个同时都反对两种类型，别离是数据和模型输入输出。

具体的配置阐明可参考官网文档：https://github.com/FederatedAI/FATE/blob/master/doc/tutorial/dsl_conf/dsl_conf_v2_setting_guide.zh.md

4.2. 筹备conf文件

执行以下命令：

cp /data/projects/fate/examples/dsl/v2/hetero_logistic_regression/hetero_lr_normal_conf.json /data/projects/fate/examples/my_test/

间接把 Fate 自带的纵向逻辑回归算法样例，复制到咱们的 my_test 目录下。

从上图能够看到在 component_parameters 元素下，配置 Reader 组件所读取的表名。

该配置次要是配置以下内容：

DSL的版本
各个参与方的角色以及 party_id
组件运行参数

对于组件清单以及每一个组件的具体配置参数可参考官网文档：https://fate.readthedocs.io/en/latest/zh/federatedml_component/

4.3. 提交工作

执行以下命令：

flow job submit -d hetero_lr_normal_dsl.json -c hetero_lr_normal_conf.json

通过 -d 和 -c 来别离指定 dsl 和 conf 配置文件。

胜利后返回训练任务的相干信息：

{    "data": {        "board_url": "http://127.0.0.1:8080/index.html#/dashboard?job_id=202205070226373055640&role=guest&party_id=9999",        "code": 0,        "dsl_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/job_dsl.json",        "job_id": "202205070226373055640",        "logs_directory": "/data/projects/fate/fateflow/logs/202205070226373055640",        "message": "success",        "model_info": {            "model_id": "arbiter-10000#guest-9999#host-10000#model",            "model_version": "202205070226373055640"        },        "pipeline_dsl_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/pipeline_dsl.json",        "runtime_conf_on_party_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/guest/9999/job_runtime_on_party_conf.json",        "runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/job_runtime_conf.json",        "train_runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/train_runtime_conf.json"    },    "jobId": "202205070226373055640",    "retcode": 0,    "retmsg": "success"}

其中有几个属性须要关注：

board_url：这个地址是能够查看工作状况的 FATE Board 地址。
job_id：工作的惟一关键字，能够在 FATE Board 上通过这个 ID 查看工作的详情。
logs_directory：是日志的门路，能够通过这个地址查看工作的各种日志信息。
model_info：外面有 model_id 和 model_version 这两个信息会在执行预测工作时须要用到，预测之前须要指定基于哪个模型来执行预测工作，而这两个信息就是模型的惟一关键字。

五、可视化

5.1. 工作概览

通过下面返回信息中 board_url 的地址，在浏览器拜访即可进入工作的概览页面：

http://127.0.0.1:8080/index.h...

须要留神的是：因为是在容器外面执行的，所以 IP 地址须要依照理论状况进行批改。

登录的用户名和明码都为 admin

右边 Dataset info 是各个参与方的信息，两头呢是工作的运行状况显示运行的进度条以及耗时，左边是整个工作流程的组件 DAG 图，下方是工作日志信息。

5.2. 组件输入

点击两头的 view this job 按钮，进入工作的详细信息：

DAG 图中的每个组件都是能够点击的，选中 hetero_lr_0 组件，点击右下角的 view the outputs 按钮，进入 逻辑回归 组件的输入页面：

左上角有三个 TAG 别离为：

model output：模型输入，是算法组件的训练后果。
data output：数据输入，每个组件数据处理后的输入，用于上游组件的输出。
log：该组件的运行日志。

扫码关注有惊喜！