智能咖啡厅助手:人形机器人 + 交融大模型,行为驱动的智能咖啡厅机器人(机器人大模型与具身智能挑战赛)
“机器人大模型与具身智能挑战赛”的参赛作品。的指标是联合前沿的大模型技术和具身智能技术,开发能在模仿的咖啡厅场景中承当服务员角色并自主实现各种具身工作的智能机器人。这里是的参赛作品《基于大模型和行为树和生成式具身智能体》的机器人管制端代码。
1. 大赛简介:
官网:https://chinasoft.ccf.org.cn/
- 机器人利用是人工智能时代最具备挑战性的前沿科学技术难题之一,它会集了人工智能和机器人核心技术,包含人工智能学的智能感知、认知和决策的各种算法能力,以及机器人学在传感器、控制器和执行器的高牢靠、高准确的静止和控制能力。
- 预训练大模型 GPT 技术的冲破,能够为机器人提供智慧的大脑。同时,具身智能机器人是一个具备物理实体、可与真实世界进行多模态交互,像人类一样感知和了解环境,并通过自主学习实现工作的智能体。二者的联合将使机器人做到“心灵手巧”。
- 达闼云端机器人国家新一代人工智能凋谢翻新平台与中国计算机学会、AITISA 联盟、OpenI 启智、CCF 开源倒退委员会、北京大学、复旦大学、北京航空航天大学、中山大学、北京邮电大学、北京智谱联结,独特举办达闼杯“机器人大模型与具身智能挑战赛”,旨在激励开发者可能利用大模型技术和具身智能技术,实现跨模态人机交互、并能自主实现各种简单工作的机器人利用。
1.1 赛题设计:
大赛蕴含规定工作和凋谢工作两个赛道,无关各赛道的具体赛题、仿真环境与技术支持的阐明,请通过“浏览原文”链接到大会网站,或参见文末“较量指南”链接。
-
总体目标工作
- 在仿真环境中,参赛者通过大模型训练机器人在咖啡厅场景成为合格的咖啡厅服务员。这项较量的考核要点是将大语言模型(LLMs)整合到机器人零碎中,开发可能了解自然语言并以敌对和无效的形式与人类互动,并能在咖啡店仿真场景中自主实现各种服务工作的智能机器人。
- 选手能够依照个别常识性了解,进行机器人工作设定和训练。在仿真场景中,机器人能够与可交互的物品和 NPC 进行互动操作的训练,比方:咖啡店服务员与顾客(NPC)互动、承受和执行订单以及答复无关菜单的问题、导航、操作咖啡机、清理桌子 / 高空、开空调 / 开灯、递送咖啡 / 饮料 / 食物等。
- 考核要点
▪被动摸索和记忆(Active Exploration and Memorization):机器人在环境中通过被动摸索取得各种环境信息,实现对地位环境的感知,造成以环境感知信息以及静止轨迹等历史信息保护一个机器人本身的记忆库。
▪场景多轮对话(Grouded Question Answering):多轮对话要求机器人智能体具备与人进行晦涩的交换能力,具身对话是机器人利用视觉等传感器取得的场景信息根底上,实现于场景相干的对话。
▪视觉语言导航(Vision Language Navigation):导航是构建智能机器人的一个基本要素。在事实场景中,一个机器人要在不同的场景下承当多种简单的导航工作。的模拟器反对多任务的事实世界导航和物体互动。对于这个工作中的导航,只管有传统的 ObjectNav 和 PointNav,你能够利用的环境实现简略到简单的视觉语言导航,并有不同难度的批示,以及交换导航,机器人智能体能够在导航中寻求帮忙。
▪视觉语言操作(Vision Language Manipulation):抓取是指机器人应用机械臂抓取物体并将其从一个原始地位挪动到指标地位的动作。只管机器人学习算法在现有的挑战上获得了很大的冲破和改良,但仍有许多问题亟待解决。这项工作要求机器人依照视觉和语言的场景形容来抓取一个物体。尽管 Saycan 和 RT- 1 在以前的钻研中被用来实现应用 Deep-RL 算法的抓取,但这项工作更侧重于在事实环境中抓取薄、大、平、软的物体,防止碰撞,以及多任务抓取。参赛者须要依据大语言模型提供的指令,解决在不同场景下抓取不同物体的问题。具体抓取物品的技能须要参赛者基于提供的环境和工具接口,通过强化学习等形式进行训练。
1.2 评估
参赛队必须将 LLMs 纳入其机器人零碎,以促成自然语言的了解和互动。较量将依据以下规范来评估机器人零碎的性能:
- 工作实现的准确性和效率:参赛者将被评估工作实现的准确性和效率,包含物体操作、导航到精确地位的精度,执行推理速度,订单执行和人机互动。机器人必须精确、高效地实现工作,能力取得分数。
- 人与机器人的互动:参赛者将被评估其机器人与顾客和工作人员互动的天然度和友好度。机器人必须以天然和敌对的形式进行交换,以取得积分。
- 工夫限度:参赛者将有规定的工夫来实现工作,在规定工夫内得分最高的团队将被发表为获胜者。
1.3 更多细节
须要这些团队在仿真咖啡厅场景中开展一场竞技,参赛者们 不仅要“教”服务机器人学会如何充当咖啡厅服务员的角色,还要应答顾客、老板等角色的多轮对话“考验”,最终自主去执行实现一系列简单工作。
人类充当服务员在咖啡店制作一杯咖啡,并将咖啡端到指定客户的桌上或者并非难事。然而如果换成机器人,其复杂度显而易见。这不仅仅面对硬件和环境的考验,还对于软件和算法提出了更大的挑战。
显著的技术交融性
为了实现高还原度,达闼首先在 仿真环境中构建了一个机器人元宇宙的数字孪生场景,该虚构场景是基于理论咖啡厅统一的各类数据产生,通过采集交融了几百个咖啡厅模型的各种常见物品,不仅仅还原了例如咖啡机、桌椅、饮品、蛋糕等环境中的各类物品、商品,同时还原了咖啡厅的理论安排灯光、清洁卫生用的工具等。个别团队很难有这个资金和精力。
值得注意的是,发现,该模仿环境中,甚至还思考到了理论环境中物品的纹理和物理属性等问题,杯子分量不同、落地会打碎,物品接触有摩擦力,能够说根本做到了最终 100% 的还原。
通过提供宏大且还原度较高的数据集,基于这个数字孪生的场景,机器人开发平台 能够仅通过算力,就轻易且低成本在虚构仿真中像在实在场景一样进行各种各样的训练 这也使得国内人工智能和智能大模型科研团队,能很快尝试在人形机器人上实现各类技术的联合落地。除了数字孪生环境,为了让机器人与环境进行交互的能力进一步晋升,机器人硬件作为软件和算法的执行层,其设计和能力也至关重要。 因为该机器人智能体须要与外界实现实时交互,这首先须要机器人对于环境实现感知,包含了听觉、视觉和触觉等方面。
例如人到了咖啡厅,机器人不仅须要领位,因为环境的还原度十分高,机器人制作咖啡的工作中,还须要再次细分,例如如何找到咖啡机的按钮,确定咖啡机的按钮和用处等。同时,在该工作中,抉择咖啡、制作咖啡、运送咖啡等也都是难点。这意味着 如何通过大模型,实现对于理论环境工作的了解和剖析并执行。例如顾客对机器人说想要喝 XX 咖啡,这种工作可能就有所区别,首先须要依附交换中大模型的剖析,精确定义需要,并实现环境中的静止和操作能力。
多任务实质上就降级到了更高层的认知层面,须要机器人语言和视觉为主的大模型,能在环境中实现感知、认知,并依据各种申请进行解决,这就还波及人工智能的算法,从而能力让机器人精准实现各种各样的操作。
大模型带来的改革
大模型对于理论场景的价值依然处于挖掘期,本次大赛中,大模型对于机器人技术的理论晋升无疑是一个很大的亮点。本次较量着重体现了大模型技术利用思维链(CoT)能力的价值 该能力次要体现在机器人接到工作后,对于工作的合成,从而基于思维推理造成思路链,该形式相较原先的固定化编程和深度学习,机器人能够借助大语言模型,实现自然语言到机器语言的了解、转化,最终实现两者的对齐,从而自主化执行工作。这也意味着,机器人和大模型深度联合后,在将来如果进一步实现了 零样本学习(zero-shot), 依靠这两项技术,机器人也能够借助大模型实现关节静止管制,从而无需对机器人身材部位、动作的轨迹进行编程,真正做到零代码编程。
在这个较量流程中,就看到了 智能服务机器人在语音、视觉、导航、操作等方面的落地可能性。机器人进入生疏场景,首先会进行环境的被动摸索与记忆,感知、判断不同物体和属性,实现记忆数据记录和调取。在此基础上,随后机器人开始在咖啡厅场景里与人进行交换对话,拆解工作信息。在执行层面,机器人须要借助视觉语言模型,拆分指令并实现具体动作,例如人说想喝水,机器人就须要拿取水杯、用水壶去倒水,并把水送给客人。
新工作新挑战
在该钻研中,十分有意思的是达闼机器人还设计了两个具备挑战性的赛题,在对话人员中退出了“店长”这一角色。 机器人除了须要作为服务员响应相干顾客的生产需要,还须要与店长“对接”工作,实现人机协同。
在店长与机器人的交互中,又衍生出了更加简单的工作,机器人 须要实现“领导交办的其余工作”。
“例如店长说如同高空不洁净了,机器人就要了解这话什么意思,判断意思是我可能还要去再清洁一下卫生。”相似的机器人触发式工作,十分考验机器人环境职责定义和自主动作抉择, 须要最终机器人可能像是真正的咖啡厅服务人员,具备各种各样的附加能力,做到相似“阴天开灯”、“水洒擦桌子”等随机性事件的自主化察看和解决,为真正落地利用部署打下基础。
2. 我的项目装置(必看)
-
技术简介:提出基于大模型和行为树的生成式具身智能体零碎框架
- 行为树是零碎的中枢,作为大模型和具身智能之间的桥梁,解决两者联合的挑战
- 大语言模型是零碎的大脑。一方面,设计了向量数据库和工具调用,另一方面,在实现智能体布局上,不再须要大语言模型输入残缺的动作序列,而仅仅给出一个工作指标,这大大缓解了大模型的具身幻觉景象。
- 而具身机器人是零碎的躯体,在条件节点感知和动作节点管制的函数中,优化了接口调用和算法设计,进步感知高效性和管制准确性
2.1 环境要求
Python=3.10
2.2 装置步骤
git clone https://github.com/HPCL-EI/RoboWaiter.git
cd RoboWaiter
pip install -e .
以上步骤将实现 robowaiter 我的项目以及相干依赖库的装置
2.3 装置 UI
- 装置 graphviz-9.0.0 (详见官网)
- 将软件装置目录的 bin 文件增加到零碎环境中。如电脑是 Windows 零碎,Graphviz 装置在 D:\Program Files (x86)\Graphviz2.38,该目录下有 bin 文件,将该门路增加到电脑系统环境变量 path 中,即 D:\Program Files (x86)\Graphviz2.38\bin。如果不行,则须要重启。
- 装置向量数据库
conda install -c conda-forge faiss -
装置自然语言解决和翻译工具,用于计算相似性
pip install translate pip install spacy python -m spacy download zh_core_web_lg
zh_core_web_lg
如果下载较慢,能够间接通过分享的网盘链接下载链接:https://pan.baidu.com/s/1vr7dqHsgnh6UChymQc26VA
提取码:1201
– 来自百度网盘超级会员 V7 的分享pip install zh_core_web_lg-3.7.0-py3-none-any.whl
2.4 疾速入门
- 装置 UE 及 Harix 插件,关上默认我的项目并运行
- 不应用 UI 界面:运行 tasks_no_ui 文件夹下的任意场景即可实现机器人管制端与仿真器的交互
- 应用 UI 界面:运行
run_ui.py
,显示上面的界面。点击左侧的按钮,机器人就会执行相应的工作。也能够在右上方间接输入指标状态或者对话和机器人间接交互。
3. 代码框架介绍
代码库被组织成几个模块,每个模块负责零碎性能的一部分:
- behavior_lib:
behavior_lib
是行为树节点库类,包含行为树的动作节点和条件节点。它们别离寄存在act
和cond
文件夹下。 - behavior_tree:
behavior_tree
是行为树算法类,包含ptml
编译器、最优行为树逆向扩大算法等。 - robot:
robot
是机器人类,包含从ptml
加载行为树的办法,以及执行行为树的办法等。 - llm_client:
llm_client
是大模型类,次要实现了大模型的数据集构建、数据处理工具、大模型调用接口、大模型评测、工具调用、工具注册、向量数据库、单论对话、对轮对话等办法或接口。
调用大模型接口。运行 llm_client.py 文件调用大模型进行多轮对话。输出字符即可期待答复 /
cd robowaiter/llm_client
python multi_rounds.py
- scene:
scene
是场景基类,该类实现了一些通用的场景操作接口,实现了与 UE 和咖啡厅仿真场景的通信。其中,包含了官网曾经封装好的各种接口,如场景初始化、行人管制、操作动画设置、物品设置、机器人 IK 接口等。task_map
返回的工作场景都继承于Scene
。此外,在scene/ui
中,实现了 UI 的界面设计和接口封装。 - utils:
utils
为其它工具类,比方绘制行为树并输入为图片文件。 - algos:
algos
是其它算法类,包含 MemGPT、导航算法 (navigator
)、边界摸索 (explore
)、视觉算法 (vision
)、向量数据库 (retrieval
) 等。 - tasks:
tasks
文件夹中寄存的场景定义及运行代码。
缩写 | 工作 |
---|---|
AEM | 被动摸索和记忆 |
GQA | 具身多轮对话 |
VLN | 视觉语言导航 |
VLM | 视觉语言操作 |
OT | 简单凋谢工作 |
AT | 自主工作 |
CafeDailyOperations | 整体展现:咖啡厅的一天 |
Interact | 命令行自在交互 |
4. 成果展现
机器人依据顾客的点单,实现订单并送餐
顾客询问物品地位,并要求机器人送回
材料下载
https://blog.csdn.net/sinat_39620217/article/details/136394954
更多优质内容请关注公号:汀丶人工智能;会提供一些相干的资源和优质文章,收费获取浏览。