关于区块链:隐私计算FATE模型训练

本文分享基于 Fate 自带的测试样例，进行 纵向逻辑回归 算法的模型训练，并且通过 FATE Board 可视化查看后果。

本文的内容为基于《隐衷计算 FATE- 概念与单机部署指南》中部署的环境。

执行以下命令，进入 Fate 的容器中：

docker exec -it $(docker ps -aqf "name=standalone_fate") bash

能够看到其中有一个 examples 的目录，外面蕴含各种算法的测试样例，以及测试的数据。

进入到 examples 后，创立一个 my_test 的目录：

cd examples

mkdir my_test

留神：前面所有的操作都默认在该目录下执行。

第一步须要筹备好训练要用的数据，咱们能够通过 csv 文件 把数据上传到 Fate 外面；

自带的测试数据都在容器里的 /data/projects/fate/examples/data 目录中：

能够看到每种算法都别离提供了 guest 和 host 两方的数据。

在 my_test 目录下，执行以下命令：

vi upload_hetero_guest.json

内容如下：

{
  "file": "/data/projects/fate/examples/data/breast_hetero_guest.csv",
  "head": 1,
  "partition": 10,
    "work_mode": 0,
  "namespace": "experiment",
  "table_name": "breast_hetero_guest"
}

file：数据文件的门路
head：数据文件是否蕴含表头
partition：用于存储数据的分区数
work_mode：工作模式，0 为单机版，1 为集群版
namespace：命名空间
table_name：数据表名

在 my_test 目录下，执行以下命令：

vi upload_hetero_host.json

内容如下：

{
  "file": "/data/projects/fate/examples/data/breast_hetero_host.csv",
  "head": 1,
  "partition": 10,
    "work_mode": 0,
  "namespace": "experiment",
  "table_name": "breast_hetero_host"
}

留神文件名与表名是和 guest 方不一样的。

执行以下两个命令，别离上传 guest 和 host 方的数据：

flow data upload -c upload_hetero_guest.json

flow data upload -c upload_hetero_host.json

通过 -c 来指定配置文件。

胜利后返回上传工作的相干信息：

{
    "data": {
        "board_url": "http://127.0.0.1:8080/index.html#/dashboard?job_id=202205070640371260700&role=local&party_id=0",
        "code": 0,
        "dsl_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/job_dsl.json",
        "job_id": "202205070640371260700",
        "logs_directory": "/data/projects/fate/fateflow/logs/202205070640371260700",
        "message": "success",
        "model_info": {
            "model_id": "local-0#model",
            "model_version": "202205070640371260700"
        },
        "namespace": "experiment",
        "pipeline_dsl_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/pipeline_dsl.json",
        "runtime_conf_on_party_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/local/0/job_runtime_on_party_conf.json",
        "runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/job_runtime_conf.json",
        "table_name": "breast_hetero_guest",
        "train_runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070640371260700/train_runtime_conf.json"
    },
    "jobId": "202205070640371260700",
    "retcode": 0,
    "retmsg": "success"
}

执行以下命令，查看表的相干信息：

flow table info -t breast_hetero_guest -n experiment

执行后返回：

{
    "data": {
        "address": {
            "home": null,
            "name": "breast_hetero_guest",
            "namespace": "experiment",
            "storage_type": "LMDB"
        },
        "count": 569,
        "exist": 1,
        "namespace": "experiment",
        "partition": 10,
        "schema": {
            "header": "y,x0,x1,x2,x3,x4,x5,x6,x7,x8,x9",
            "sid": "id"
        },
        "table_name": "breast_hetero_guest"
    },
    "retcode": 0,
    "retmsg": "success"
}

接下来咱们就开始进行建模工作，须要筹备两个配置文件，流程配置文件 dsl 和参数配置文件 conf。

执行以下命令：

cp /data/projects/fate/examples/dsl/v2/hetero_logistic_regression/hetero_lr_normal_dsl.json /data/projects/fate/examples/my_test/

间接把 Fate 自带的纵向逻辑回归算法样例，复制到咱们的 my_test 目录下。

Fate 把各种算法实现了组件化，dsl 文件次要配置整个建模流程是由哪些 component 组成的：

比方第一个模块 Reader 就是用于读取刚刚上传的训练数据，而后是 DataTransform 模块，把训练数据转换为实例对象，个别所有的建模流程都须要有后面这两个模块；

总的来说配置一个 component 须要以下内容：

- module：模型组件，Fate 以后反对 37 个模型组件 
- input：- date：数据输出
    - module：模型输出
- output：- date：数据输入
    - module：模型输入

module 是定义这个组件的类型，以后 Fate 曾经自带 37 个组件能够应用，当然咱们也能够本人开发新增算法组件进去；

input 和 output 就是别离设置组件的输入输出，两个同时都反对两种类型，别离是数据和模型输入输出。

具体的配置阐明可参考官网文档：https://github.com/FederatedAI/FATE/blob/master/doc/tutorial/dsl_conf/dsl_conf_v2_setting_guide.zh.md

执行以下命令：

cp /data/projects/fate/examples/dsl/v2/hetero_logistic_regression/hetero_lr_normal_conf.json /data/projects/fate/examples/my_test/

间接把 Fate 自带的纵向逻辑回归算法样例，复制到咱们的 my_test 目录下。

从上图能够看到在 component_parameters 元素下，配置 Reader 组件所读取的表名。

该配置次要是配置以下内容：

DSL 的版本
各个参与方的角色以及 party_id
组件运行参数

对于组件清单以及每一个组件的具体配置参数可参考官网文档：https://fate.readthedocs.io/en/latest/zh/federatedml_component/

执行以下命令：

flow job submit -d hetero_lr_normal_dsl.json -c hetero_lr_normal_conf.json

通过 -d 和 -c 来别离指定 dsl 和 conf 配置文件。

胜利后返回训练任务的相干信息：

{
    "data": {
        "board_url": "http://127.0.0.1:8080/index.html#/dashboard?job_id=202205070226373055640&role=guest&party_id=9999",
        "code": 0,
        "dsl_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/job_dsl.json",
        "job_id": "202205070226373055640",
        "logs_directory": "/data/projects/fate/fateflow/logs/202205070226373055640",
        "message": "success",
        "model_info": {
            "model_id": "arbiter-10000#guest-9999#host-10000#model",
            "model_version": "202205070226373055640"
        },
        "pipeline_dsl_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/pipeline_dsl.json",
        "runtime_conf_on_party_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/guest/9999/job_runtime_on_party_conf.json",
        "runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/job_runtime_conf.json",
        "train_runtime_conf_path": "/data/projects/fate/fateflow/jobs/202205070226373055640/train_runtime_conf.json"
    },
    "jobId": "202205070226373055640",
    "retcode": 0,
    "retmsg": "success"
}

其中有几个属性须要关注：

board_url：这个地址是能够查看工作状况的 FATE Board 地址。
job_id：工作的惟一关键字，能够在 FATE Board 上通过这个 ID 查看工作的详情。
logs_directory：是日志的门路，能够通过这个地址查看工作的各种日志信息。
model_info：外面有 model_id 和 model_version 这两个信息会在执行预测工作时须要用到，预测之前须要指定基于哪个模型来执行预测工作，而这两个信息就是模型的惟一关键字。

通过下面返回信息中 board_url 的地址，在浏览器拜访即可进入工作的概览页面：

http://127.0.0.1:8080/index.h…

须要留神的是：因为是在容器外面执行的，所以 IP 地址须要依照理论状况进行批改。

登录的用户名和明码都为 admin

右边 Dataset info 是各个参与方的信息，两头呢是工作的运行状况显示运行的进度条以及耗时，左边是整个工作流程的组件 DAG 图，下方是工作日志信息。

点击两头的 view this job 按钮，进入工作的详细信息：

DAG 图中的每个组件都是能够点击的，选中 hetero_lr_0 组件，点击右下角的 view the outputs 按钮，进入 逻辑回归 组件的输入页面：

左上角有三个 TAG 别离为：

model output：模型输入，是算法组件的训练后果。
data output：数据输入，每个组件数据处理后的输入，用于上游组件的输出。
log：该组件的运行日志。

扫码关注有惊喜！

关于区块链:隐私计算FATE模型训练

一、阐明

二、进入容器

三、上传数据

3.1. 筹备 guest 方配置

3.2. 筹备 host 方配置

3.3. 执行上传

3.4. 检查数据

四、模型训练

4.1. 筹备 dsl 文件

4.2. 筹备 conf 文件

4.3. 提交工作

五、可视化

5.1. 工作概览

5.2. 组件输入