关于人工智能:机器人视觉听觉融合的感知操作系统

作者：王业飞, 葛泉波, 刘华平, 等
起源：智能零碎学报
编辑：东岸因为 @一点人工一点智能
原文：机器人视觉听觉交融的感知操作系统

摘要：智能机器人面对简单环境的操作能力始终是机器人应用领域钻研的前沿问题，指称表白是人类对指定对象定位通用的表述形式，因而这种形式常被利用到机器人的交互当中，然而繁多视觉模态并不足以满足事实世界中的所有工作。因而本文构建了一种基于视觉和听觉交融的机器人感知操作系统，该零碎利用深度学习算法的模型实现了机器人的视觉感知和听觉感知，捕捉自然语言操作指令和场景信息用于机器人的视觉定位，并为此收集了 12 类的声音信号数据用于音频辨认。试验结果表明：该系统集成在 UR 机器人上有良好的视觉定位和音频预测能力，并最终实现了基于指令的视听操作工作，且验证了视听数据优于繁多模态数据的表达能力。

机器人正在逐步进入人类的生存当中，为了无效地帮忙人类，机器人必须尽可能地学习人类的各项能力，包含用视觉感知去察看世界、了解人类的自然语言指令，甚至借助听觉、触觉等获取多模态的信息感触物理世界以进行更多简单的工作。随着人工智能技术的一直倒退，在视觉辨认 [1-2]、自然语言零碎[3-4]、三维场景建模[5-6]、操作抓取以及静止布局[7-8] 方面都获得了极大的停顿，使得各种先进的计算模型可能部署在机器人上帮忙其更加智能化，从而高效稳固地辅助人类实现更加简单艰难的工作。如最先进的具身批示表白的机器人导航工作 (REVERIE)[9]，该零碎将视觉、语言和机器人的行为独特进行学习以帮忙机器人摸索环境来找到指标对象。这是一种非常具备挑战性的工作，因为它不仅须要对具体指标进行定位，还须要对指标和其地位关系进行高层次的语义了解，用以帮忙辨别正确的物体和不相干的批示物体。在此基础上，文献[10] 开发了一种混合管制的机器人零碎，它赋予了机器人更加简单的操作能力，该零碎可能依据自然语言的操作指令对指标物体进行拾取和搁置。对于有歧义的操作指令或者工作场景，文献 [11] 设计了一种局部可观测的马尔可夫模型 (POMDP)用于察看历史操作记录以帮忙机器人排除有歧义的指标。为了不便人与机器人更加无效直观的交互，文献 [12] 设计了一种不受限制的自然语言交互架构，可能在没有辅助信息的反对的状况下实现自然语言的消歧和查问。

然而，单纯依附视觉信息并不足以反对机器人实现所有类型的工作。对于事实的物理世界，机器人须要装备不同类型的传感器获取更多的模态信息，如听觉信息 [13-15]、触觉信息[16-17]、雷达信息[18-19]、多传感器交融信息[20-21]。为了晋升机器人的自主导航摸索能力，文献[22] 在捕捉视觉信息的根底上，联合音频感官信息嵌入到机器人的门路布局器当中，进步了机器人的导航精度。文献 [23] 通过给理论机器人装备听觉传感器，操作指标物体收集听觉数据，实现了对视觉上难以辨别的指标的判断。在此基础上，文献 [24-25] 减少了触觉传感器，采集了不同材质的电压值信息作为触觉感知，构建了一个触觉和听觉交融的机器人分类零碎，大大提高了机器人的工作能力。

上述钻研尽管获得了很大的提高，然而短少了局部与人的交互能力，如何让机器人接管人的操作指令，利用多模态信息独特决策操作行为还是一个很大的挑战。为使装备多传感器的机器人零碎可能适应更加简单的操作环境，本文借助于视觉传感器和听觉传感器，构建了一个视听交融的指称表白的机器人自主操作系统。该零碎可能接管人类的自然语言操作指令，了解指令中的高级语义信息，联合视觉指标进行定位，并且依据听觉信息进一步判断指标类别。在实在的物理环境中，该零碎可能在设计的试验下稳固地施展性能。次要奉献如下：

1）本文提出了一个新的视听操作工作，利用视觉信息和音频信息用于解释批示表白的操作指令。

2）本文在构建的数据集下，实现了机器人的视觉定位和音频辨认，用于实现指标操作工作。

3）本文将试验零碎利用在理论机器人中并进行试验验证，试验结果表明本多模态数据对于机器人操作效率有着显著的晋升。

本文利用 UR 机械臂作为机器人平台构建了视听交融的具身操作系统，整个零碎架构如图 1 所示。

图 1 本文试验零碎架构

其中机器人的工作指标是依据简单的自然语言指令实现操作工作，并且联合视觉信息定位工作指标，利用音频信息判断指标物体。当机器人接管到给定的自然语言指令，如“拿起带有胶囊的瓶子，并且搁置在右边的盒子”。这就须要机器人通过捕获视觉信息定位场景中的瓶子和盒子，并且了解带有地位关系的语句找到右边的盒子。对于视觉上雷同的瓶子，机器人通过抉择不同的操作行为，采集瓶子晃动的声音信息，进行判断，最终找到带有胶囊的指标瓶子。整个零碎要求机器人可能正确地了解给定的指令，并且联合批示表白定位指标从而实现相应的操作。

本零碎的架构次要分为 3 个模块，别离是视觉语言感知模块、音频感知模块以及机器人操作模块。首先，将文本指令和视觉信息输出到视觉语言模块当中，对可能的指标对象进行定位。当视觉信息不足以判断指标物体的类别时，机器人的操作模块会产生不同的动作摇摆指标，声音传感器记录下声音信息，音频感知模块进行剖析，辨认指令中波及的指标对象，实现相应的操作工作。

对于不同的感知模块，利用深度学习算法设计相应的网络构建整个零碎。本文的模型分为批示表白模型、音频分类模型以及机器人的操作模型。

不同于根底的指标检测，本文利用操作指令中波及到的物体指称关系与视觉信息进行匹配，利用高级语义关系定位指标物体。

对于给定的图像 I，工作指标是定位图像 I 中的一个子区域，该子区域对应操作指令中的语义信息。对于操作指令，首先对其每个单词进行编码转成独热向量，而后利用循环神经网络提取其编码后的文本特色。

对于图像局部，利用在 ImageNET 上预训练好的卷积神经网络提取其图像特色和 YOLO 提取图像内的候选指标。对于残缺的操作指令，分为 3 个组成部分，别离是主体形容、地位形容和关系形容，对于不同的句子局部，利用语言注意力机制网络提取其相应的权重与图像特色进行匹配。

本文批示表白模型如图 2 所示，图像编码局部利用 Darknet53 和特色金字塔网络提取原始图像 I 不同尺度的特色。

图 2 批示表白模型

在指令编码局部，利用独热编码的形式将操作指令转化成独热码的模式：

将编码后的词向量
以正序和逆序的形式送入双向 GRU 网络中获取相应文本的特色：

将提取的文本特色相连以获取上下文语义特征向量
。利用上采样过程将文本特色映射到与图像特色雷同的维度进行交融：

式中：为激活函数，
和为对应的参数矩阵，为点乘。利用多模态交融特色与指标检测器生成的候选区域进行匹配失去候选区域：

其中：
和是相应的学习参数，
和是对应的偏置系数，是矩阵相乘。最终目标区域选取两者得分最高的区域
作为最终预测地位，该区域用一个组合向量
示意，别离代表了预测框的坐标及尺寸。

对于机器人的听觉感知局部，本文设计了一个音频分类模型，用于对收集的声音信号进行预测分类。为了将结构化的声音输出进模型中，须要提取声音信号中特有的梅尔倒频谱系数（Mel-frequency cepstral coefficients, MFCC）特色，首先将时域上的信号
进行预减轻解决，通过滤波系数
=0.97 过滤掉其中的低频噪声，保留高频重量的信息：

接着将解决后的特色进行 N 帧宰割，利用汉明窗
提取部分稳固的信号：

对宰割后的信号进行短时傅里叶变换和梅尔滤波获取对数频率上的尺度的特色
。为了缩小特色之间的线性相关性，取低频系数进行离散余弦变换：

式中：M 为梅尔滤波器个数；L 为阶数，最初将变换后的特色进行归一化以减少音频信号的信噪比，失去最终能够输出模型的 MFCC 特色。

音频分类模型的网络次要构造如图 3 所示，将不同机械臂动作产生的音频信号提取 MFCC 特色进行拼接，为了保障声音信号的连续性，采纳了双向 GRU 作为次要的特色解决网络，同样，在双向 GRU 网路中增加了残差边构造，缓解梯度爆炸的问题，保障整个音频分类模型的准确率。作为分类模型，增加了全连贯层和 softmax 函数作为最终分类后果的预测。

图 3 音频分类模型

机器人的操作模型次要是管制机械臂的各个轴的旋转从而产生机器人的各个行为动作，各个行为如图 4 所示，具体命名形式为：拿（Pick）、放（Place）、旋转（Roll）、摇摆 1（Yaw）、摇摆 2（Pitch）、摇摆 3（Shake）。别离蕴含了机器人对单个物体操作时的拿起与搁置行为，以及操控对应机械手末端（x, y, z）轴不同的旋转角获取对应的摇摆动作。因而在设计的操控工作中，布局了机器人的操作动作空间为{Pick, Roll, Yaw, Pitch, Shake , Place}。对于本文的抓取指标对立设定为繁多类别，因而设定固定的旋转角获取最佳的抓握姿态。依据不同的工作需要，机器人抉择相应的动作实现操作命令。

图 4 机器臂行为动作

当机器人在接管具体的控制指令后，通过视觉剖析获取能够操控的指标点位，执行相应的管制行为。机械臂的具体流程图如图 5 所示，以以后场景的状态为初始状态，通过程序决策顺次执行动作空间中的各个动作，并判断工作是否实现，当执行为最初一个搁置动作时，完结以后操作模型的行为。其中，工作操作坐标以及指标工作的坐标由视觉感知模块提供，即通过批示表白模型生成机械臂能够操作的指标地位；对于操作工作实现状态，须要失去正确的容器内的指标物品，音频感知模块能够将收集的音频信号进行分类，一旦将操作指令中波及到的指标物品进行正确分类时，则设定下一个状态为搁置状态，否则放回原处，从新操作下一个指标物体。

图 5 机器人操作流程

本试验采纳 UR5 机械臂和五指乖巧手作为整个试验平台的抓取设施，其中乖巧手采纳 5 指设计和连杆传动的形式，并且具备 6 自由度，能够保障瓶子的固定抓取。视觉上利用 Kinect 相机捕捉 RGB 图像和深度图像，听觉上利用 RODE 麦克风固定在机械臂的末端下收集接管晃动瓶子的声音信号，这样能够缩短声源和采集设施的间隔，更不便捕捉声音特色。整个试验数据的剖析在带有 NVIDIA 2070 的 PC 机上进行解决。整个试验平台如图 6 所示。

图 6 数据差异性剖析

本文设计的操作指令在机器人的行为动作上次要分为两类，别离是 {抓，放}；对于物体之间的地位关系，由{右边，左边，两头，后面，前面} 组成；对于物体的本身属性，次要抉择了色彩属性，蕴含{绿色、蓝色、红色}。操作指令依据物体的类别、属性、地位关系模板穿插组合生成，符合实际的操作需要，例句如“拿起两头的瓶子，放进绿色的碗中”、“拿起带有山楂的瓶子，放进右边的碗中”。机器人通过这些操作指令实现人类安排的操作工作。

依据各类中药材的不同特质，本试验选取了常见的 12 类药用物品，如图 7 所示，别离是胶囊、酒精、红枣、药片、生山楂、药丸、决明子、生牡蛎、蜡丸、蝉蜕、颗粒以及空瓶。为了获取数据的多样性，选取了 1 /4、1/2、2/ 3 瓶子含量的数据。通过联合机械臂的静止个性，抉择{Roll, Yaw, Pitch, Shake} 4 种不同的动作别离对每类物品进行 20 次采样。每个声音信号以 44.1 kHz 进行采样，依据机械臂的静止时长，设定采集单个指标品种的音频时长为 6000 ms，一共采集了 960 组数据作为声音数据集。

图 7 硬件架构

对于不同类型的声音数据，选取了具备代表性的物品的声音信号绘制了时域图和频谱图进行了比照。如图 8 所示，在 4 种机器人的动作下，山楂和药片的声音具备相当大的差异性。对于类似的声音信号，在转化成频谱图后，也在不同的区域体现出明暗不一的差别，这为在后处理时送入循环神经网络进行分类提供了无效的保障。

图 8 数据集品种

在理论采集声音数据的过程中，机械臂在执行 4 种动作时有着不同的静止时长以及本身的静止噪声，这些噪声与静止的幅度、速度、加速度无关，会对采集的声音数据和试验后果产生肯定的影响，为了缩小来自非指标对象的声音的影响。本文采取了噪声克制过程，如图 9（a）所示，对于音频信号没有超过阈值的区域标记为黄色区域，这部分区域将被剔除，而绿色的区域用于训练，通过利用信号包络线设定阈值，如图 9（b）所示，这样可能无效提供指标分类精度。

图 9 信号区域抉择

依据设计的操作指令和指标物体关系安排试验场景，场景操作工作联合视觉和听觉辨认难易水平总共分为 3 类：第 1 类场景摸索物体不同的地位关系，指令如“找到胶囊，放在右边的碗中”；第 2 类场景摸索物体的属性关系，指令如“找到所有放胶囊的瓶子，放在绿色的碗中”；第 3 类摸索物体的类别关系，指令如“找到放胶囊的瓶子，放在苹果旁边的碗中”。试验目标是依据给定的操作指令，整个机器人零碎可能了解指令，并且定位出带有批示关系的物体，利用听觉零碎进行分类预测指标，并且搁置胜利，实现最终的试验。本文定义了一种离线试验机制，设定场景状态 {bottle1, bottle2, bottle3, bowl1, bowl2}，机械手的状态{Pick, Roll, Yaw, Pick, Shake, Place}，通过设定执行机械臂的动作序列，如{move bottle1>pick bottle1>check bottle1>place bowl1}，联合视听感知模型顺次更新指标状态池{bottle1:Tablet>bowl1:left} 实现操作工作。依据试验工作，定义 3 种试验指标：

· 指标识别率(target recognition accuracy, TRA)：是否检测到正确操作的指标物体

· 音频识别率(audio recognition accuracy, ARA)：是否正确辨认了指令中的指标物体

· 整体工作准确率(overall task success rate, OTSR)：是否实现了指令中的地位关系的检测。

通过对设计以上 3 种准确率指标来验证本文的视听零碎的可行性。

本文选取了局部操作指令在指定场景中进行检测，对于色彩形态大小雷同的 bottle，本文抉择用音频感知判断品种，对于 bowl 类别应用视觉批示表白来定位指标物体。操作指令次要蕴含指标的地位关系、色彩属性关系以及和其余指标的方位关系。准确率放弃在 70% 以上，并且绘制了相应的可视化后果，如图 10，在 3 类测试场景下红色框为对应操作指令的正确后果，蓝色框为本文的视听模型在理论机械人零碎下的测验后果。

图 10 视觉检测后果

为了使整个机器人听觉零碎可能无效地工作，验证每种音频类别的精度是很有必要的。依据本文采集的 12 类音频数据，在设计的循环神经网络模型上，对分类后果进行计算，失去最终的模型分类的混同矩阵，如图 11 所示。

图 11 对所有类别计算混同矩阵

从图 11 后果可知，不同的药用物品准确率有所区别，对于声音信号较为显著的药片和蜡丸类物品，在咱们设计的分类模型下，放弃了 90% 以上的准确率；而对于牡蛎和空瓶而言，因为这两类瓶内物体与瓶臂碰撞的声音较小，更多的是环境噪声，因而预测的试验后果准确性绝对较低，但也放弃 70% 以上的准确率。因而，本文设计的音频辨认模型可能对不同类别的资料进行辨认预测。

对于整个零碎的操作工作，本文依据 4.2 节设计的评估指标进行了验证。对于每个试验场景，依据物体的类别、属性关系、方位关系进行测试，并且独自测试指标准确率和音频辨认准确率，当两者都辨认胜利的状况下，计算总体工作成功率后果如表 1 所示。

表 1 总体试验后果

依据试验后果进行剖析，因为 3 种类型的测试场景整体比拟洁净清晰，因而对于视觉上的批示表白关系来说，指标准确率的后果绝对较高。音频辨认准确率依据不同的指令需要，识别率也绝对不一，因而整个工作的总体成功率呈现了不同的状况。在第 1 种操作指令下，只需定位到繁多类别指标，不须要检索所有候选指标，因而绝对于第 2 种操作指令，音频辨认的准确率较高。而对于第 3 种探索性的指令，因为物体品种减少，场景的复杂度进步，整个视觉的识别率绝对降落，而操作工作简略，因而整个音频识别率绝对进步。

为了进一步验证本文的机器人视听操作系统的实用性，在雷同的场景和指令下，设计了无听觉检测的模块如图 12 所示，选取物品的形式按照平均采样的规定实现操作工作。因为试验的目标是验证整个零碎，而抓取工作不是钻研的重点，当机械臂的五指乖巧手抓取失败时，抉择把指标物体放在手掌以保障试验的顺利进行。在比照试验中，本文选取了雷同的场景进行了测试，并且计算了 OTSR 指数，视听框架的准确率能够达到 45.4%，而无音频模块的只有 24.7%。能够发现，在联合多模态数据的状况下，机器人感知指标更加精确，可能无效晋升工作成功率。

图 12 多模态零碎试验比照流程

为了给机器人提供更简单的操作能力，本文构建了一个可能接管自然语言指令并具备视觉、听觉的多模态交融的机器人操作系统。其中视觉感知模块可能剖析指令中的批示关系，并且定位到指标物体，听觉感知模块可能预测指标物体类别。对于每个感知模块，在构建的多模态数据集中进行了试验验证，结果表明本文的试验零碎在接管多模态数据的状况下比繁多模态的体现能力更强。然而目前本文设计的操作指令和场景繁多，在将来的工作中，将持续减少指标物品的品种，以及设计更简单且带有歧义的场景和操作指令，构建一个端对端的机器人行为框架。

1. 45 个主动驾驶开源数据集总结

2. 书籍举荐 -《大规模 SLAM 技术》

3. 书籍举荐 -《ROS2 机器人编程扼要教程》

4. 基于多传感器交融的定位和建图零碎

5. 最新|3D SLAM 对于 z 轴精度的优化思路整顿

6. 书籍举荐 -《云机器人技术 - 从人机交互到自主导航》

关于人工智能:机器人视觉听觉融合的感知操作系统

01 机器人视听零碎

02 机器人视听模型

2.1 批示表白模型

2.2 音频分类模型

2.3 机器人操作模型

03 试验

3.1 试验平台

3.2 数据集采集

3.2.1 操作指令设计

3.2.2 交互听觉数据采集

3.2.3 对交互听觉数据进行预处理

3.3 试验设置及评估指标

04 试验后果

4.1 视觉检测后果

4.2 听觉分类后果

4.3 总体工作后果

05 结束语

Just My Socks（注册教程内含优惠码）

关于人工智能:机器人视觉听觉融合的感知操作系统

01 机器人视听零碎

02 机器人视听模型

2.1 批示表白模型

2.2 音频分类模型

2.3 机器人操作模型

03 试验

3.1 试验平台

3.2 数据集采集

3.2.1 操作指令设计

3.2.2 交互听觉数据采集

3.2.3 对交互听觉数据进行预处理

3.3 试验设置及评估指标

04 试验后果

4.1 视觉检测后果

4.2 听觉分类后果

4.3 总体工作后果

05 结束语

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）