关于linux:FATE联邦学习给新手-FATE-hello-world我想要一个能运行的程序

40次阅读

共计 3417 个字符，预计需要花费 9 分钟才能阅读完成。

FATE 服务的场景是各方上传数据，各方取得数据且能交融数据取得独特训练的模型。

官网文档就是以这个程序来写的，然而吧 upload data 和模型取得数据和模型训练离开来写了。

文档中的 file path 其实是 FATE 联邦学习 github 我的项目的绝对目录，所波及到的数据集能够从 github 取得。你能够间接从 github 上下载，也能够复制粘贴，然而要留神，查看最初一行是否空行！，如果是空行，删掉，不然 FATE 会报错。能够具体看我这个亲自踩坑的博客。

下载解决好数据集后，记得批改上面代码中的门路。代码大部分是复制粘贴人家官网文档的，我只是把改放到一起的中央放到了一起，所以不必放心有谬误。【记得改数据集的门路和名字】。

代码是在 Linux 上运行的。
默认你曾经胜利启动 FATE 服务了，如何启动 FATE 服务？
首先在终端把 pipeline 下载和初始化好

pip install fate_client

pipeline init --ip=127.0.0.1 --port=9380

另外记得 check FATE 服务是否失常运行 pipeline config check
记得看代码正文，我要更加具体的教程。

from pipeline.backend.pipeline import PipeLine
from pipeline.component import Reader, DataTransform, Intersection, HeteroSecureBoost, Evaluation
from pipeline.interface import Data

# pipeline 能够了解为一个工作，这个工作是上传数据
pipeline_upload = PipeLine().set_initiator(role='guest', party_id=9999).set_roles(guest=9999)
partition = 4
dense_data_guest = {"name": "breast_hetero_guest", "namespace": f"experiment"}
dense_data_host = {"name": "breast_hetero_host", "namespace": f"experiment"}
tag_data = {"name": "breast_hetero_host", "namespace": f"experiment"}

import os

data_base = "/root/Downloads/"
pipeline_upload.add_upload_data(file=os.path.join(data_base, "real_guest.csv"),
                                table_name=dense_data_guest["name"],             # table name
                                namespace=dense_data_guest["namespace"],         # namespace
                                head=1, partition=partition)               # 每一个数据集由 table name 和 namespace 标识

pipeline_upload.add_upload_data(file=os.path.join(data_base, "real_host.csv"),
                                table_name=dense_data_host["name"],
                                namespace=dense_data_host["namespace"],
                                head=1, partition=partition)

pipeline_upload.add_upload_data(file=os.path.join(data_base, "real_host.csv"),
                                table_name=tag_data["name"],
                                namespace=tag_data["namespace"],
                                head=1, partition=partition)

# drop= 1 的意思是笼罩掉先前的同名 table
pipeline_upload.upload(drop=1)


# 开始取得数据并且训练，新实例化一个 pipeline
pipeline = PipeLine() \
        .set_initiator(role='guest', party_id=9999) \
        .set_roles(guest=9999, host=10000)
    
# 想要取得 FATe 中的数据，必须通过 Reader
reader_0 = Reader(name="reader_0")
# set guest parameter
# 留神 reader 所绑定的身份和 id，想要胜利获取到数据，# 要绑定数据起源的身份和 id，而非数据需求方的
reader_0.get_party_instance(role='guest', party_id=9999).component_param(table={"name": "breast_hetero_guest", "namespace": "experiment"})
# set host parameter
reader_0.get_party_instance(role='host', party_id=10000).component_param(table={"name": "breast_hetero_host", "namespace": "experiment"})

# 想要用取得的数据进行训练，必须通过 datatransformer。data_transform_0 = DataTransform(name="data_transform_0")
# set guest parameter
data_transform_0.get_party_instance(role='guest', party_id=9999).component_param(with_label=True,missing_fill=True)
data_transform_0.get_party_instance(role='host', party_id=[10000]).component_param(with_label=False,missing_fill=True)

# 交融（纵向）数据
intersect_0 = Intersection(name="intersect_0")

# 定义模型，FATE 提供了一些模型，当然也能够本人开发模型
hetero_secureboost_0 = HeteroSecureBoost(name="hetero_secureboost_0",
                                         num_trees=5,
                                         bin_num=16,
                                         task_type="classification",
                                         objective_param={"objective": "cross_entropy"},
                                         encrypt_param={"method": "paillier"},
                                         tree_param={"max_depth": 3})

evaluation_0 = Evaluation(name="evaluation_0", eval_type="binary")

pipeline.add_component(reader_0)
pipeline.add_component(data_transform_0, data=Data(data=reader_0.output.data))
pipeline.add_component(intersect_0, data=Data(data=data_transform_0.output.data))
pipeline.add_component(hetero_secureboost_0, data=Data(train_data=intersect_0.output.data))
pipeline.add_component(evaluation_0, data=Data(data=hetero_secureboost_0.output.data))
pipeline.compile()
# 后面的代码其实是结构了一个计算图，fit 才算开始真正执行
pipeline.fit()

胜利的话，terminal 有五光十色的提醒。
如果失败，须要通过 Fateboard 进行 debug，Python 处的代码不会给出具体的提醒。怎么应用 Fateboard 进行 debug？

正文完