关于自然语言处理:AI与人类联手智能排序人类决策RLHF标注工具打造协同标注新纪元重塑AI训练体验

45次阅读

共计 1302 个字符，预计需要花费 4 分钟才能阅读完成。

在大模型训练的 RLHF 阶段，须要人工对模型生成的多份数据进行标注排序，然而目前不足开源可用的 RLHF 标注平台。

RLHF 标注工具是一个简略易用的，能够在大模型进行 RLHF（基于人类反馈的强化学习）标注排序的工具，旨在帮忙用户在敌对的图形界面中对生成式模型生成的答案进行排序标注。

工具特点
- RLHF 助力者：强调工具在大模型训练中的重要性，特地是在 RLHF 阶段。
- 智慧交融引擎：展现 AI 与人类智慧联合的翻新点。
- 生成式模型助手：突出工具在生成式模型训练流程中的反对作用。
- 排序标注利器：间接形容工具的外围性能，即帮忙用户对答案进行排序和标注。
- 敌对界面体验：强调工具用户界面的敌对性和易用性。
- 开源翻新平台：突出工具的开源个性，激励用户参加和奉献。
性能点
- 提供界面展现以后的查问问题和历史对话
- 反对为生成的答案抉择排名
- 能够自定义答复个数 K，默认为 4
- 自动检测和提醒排名抵触
- 将标注的排序后果追加保留到数据集文件中
- 提供数据集页面以查看已标注的数据
更多功能点
- [] 实现 RLAIF，基于 API 进行主动标注
- [] 反对拖动排序
成果展现：

装置依赖
- Python 3.x
- 装置依赖包：pip install -r requirements.txt
应用阐明
1. 筹备数据集文件：将蕴含查问问题、历史对话和生成的答案的数据集文件筹备为 JSON 格局，格局参见 input_file.json。
  对于 RLHF 数据的生成，间接对同一份模型运行 K 次即可。因为大模型的随机性，每次生成的答案都会不同。
2. 运行利用：执行 bash run.sh 命令启动利用。
3. 标注排序：在标注页面，顺次为每个查问问题的生成答案抉择排名，并点击“存储以后排序”按钮保留标注后果。
4. 查看数据集：在数据集页面，能够查看已标注的数据集，包含查问问题、历史对话和生成的答案的排序后果。
配置
利用反对一些配置选项，可在 app.py 文件中进行批改：
- MODEL_CONFIG：模型配置，包含模型名称、设施、数据集文件门路等。
- RANK_COLOR：排名色彩列表，用于在界面中显示不同排名的色彩。

您能够应用以下 JSON 数据集示例进行测试：

{
    "0": {
        "query": "十分感谢您的倡议，我会尽量依照您的倡议来做。谢谢！",
        "history": [],
        "response_0": "不客气，我很快乐可能帮忙到您。如果您还有其余问题，随时能够向我征询。祝您好运！",
        "response_1": "不客气，我很快乐可能帮忙您。如果您还有其余问题，随时都能够向我征询。祝您好运！",
        "response_2": "不客气，我很快乐可能帮忙您。如果您有任何其余问题，随时都能够向我征询。祝您好运！",
        "response_3": "不客气，我很快乐可能帮忙到您。如果您还有其余问题，随时能够向我征询。祝您好运！"
    },
    ...
}

更多优质内容请关注公号：汀丶人工智能；会提供一些相干的资源和优质文章，收费获取浏览。

更多材料下载见：https://blog.csdn.net/sinat_39620217/article/details/136317936

正文完