共计 3257 个字符,预计需要花费 9 分钟才能阅读完成。
举荐:应用 NSDT 场景编辑器助你疾速搭建可编辑的 3D 利用场景
挪动设施上的智能助手具备十分先进的基于语言的交互,用于执行简略的日常工作,例如设置计时器或关上手电筒。只管获得了停顿,但这些助手在反对挪动用户界面(UI)中的对话交互方面依然面临限度,其中执行了许多用户工作。例如,他们无法回答用户对于屏幕上显示的特定信息的问题。代理须要对图形用户界面(GUI)来实现此类性能。
先前的钻研曾经考察了几个重要的技术构建块,以实现与挪动 UI 的对话交互,包含汇总挪动屏幕以便用户疾速理解其用处,将语言指令映射到 UI 操作和图形用户界面建模以便它们更适宜基于语言的交互。然而,其中每个都仅解决会话交互的无限方面,并且在策动大规模数据集和训练专用模型方面须要大量工作。此外,挪动 UI 上可能产生宽泛的对话交互。因而,必须开发一种轻量级和可推广的办法来实现对话交互。
在“应用大型语言模型启用与挪动 UI 的对话交互”,在 CHI 2023,咱们钻研了利用大型语言模型(LLM)实现与挪动 UI 的各种基于语言的交互的可行性。最近事后训练的 LLM,例如手掌,在收到一些指标工作示例提醒时,曾经体现出适应各种上游语言工作的能力。咱们提出了一套提醒技术,使交互设计师和开发人员可能疾速原型化和测试与用户的新鲜语言交互,从而在投资专用数据集和模型之前节省时间和资源。因为 LLM 仅将文本令牌作为输出,因而咱们提供了一种新鲜的算法来生成挪动 UI 的文本示意。咱们的结果表明,这种办法在每个工作中仅应用两个数据示例即可实现竞争性能。更宽泛地说,咱们展现了 LLM 从根本上扭转对话交互设计将来工作流程的后劲。
动画显示了咱们应用 LLM 实现与挪动 UI 的各种对话交互的工作。
应用 UI 提醒
LLMLLM 通过提醒反对上下文中的多数镜头学习 – 而不是为每个新工作微调或从新训练模型,人们能够应用指标工作中的一些输出和输入数据示例提醒 LLM。对于许多自然语言解决工作,例如问答或翻译,少镜头提醒具备竞争力基准办法训练特定于每个工作的模型。然而,语言模型只能承受文本输出,而挪动 UI 是多模式的,在其中蕴含文本、图像和构造信息视图层次结构数据(即蕴含 UI 元素具体属性的构造数据)和屏幕截图。此外,将挪动屏幕的视图层次结构数据间接输出 LLM 是不可行的,因为它蕴含过多的信息,例如每个 UI 元素的具体属性,这可能会超过 LLM 的输出长度限度。
为了应答这些挑战,咱们开发了一套技术来提醒应用挪动 UI 的 LLM。咱们奉献了一种算法,该算法应用深度优先搜寻遍历以将 Android UI 的视图层次结构转换为 HTML 语法。咱们还利用思维链提醒,这波及生成两头后果并将它们链接在一起以达到最终输入,以引出 LLM 的推理能力。
动画显示应用挪动 UI 进行大量镜头提醒 LLM 的过程。咱们的提醒设计从解释提醒目标的序言开始。序言前面是多个示例,包含输出、思维链(如果实用)和每个工作的输入。每个示例的输出都是 HTML 语法中的挪动屏幕。在输出之后,能够提供思维链以从 LLM 中引出逻辑推理。此步骤未显示在下面的动画中,因为它是可选的。工作输入是指标工作的预期后果,例如,屏幕摘要或用户问题的答案。提醒中蕴含多个示例能够实现多数镜头提醒。在预测过程中,咱们向模型提供提醒,并在开端附加一个新的输出屏幕。
试验
咱们对四个要害的建模工作进行了全面的试验:(1)屏幕问题生成,(2)屏幕摘要,(3)屏幕问答,以及(4)将指令映射到 UI 操作。试验结果表明,咱们的办法在每个工作中仅应用两个数据示例即可实现竞争性能。
工作 1:屏幕问题生成
给定挪动 UI 屏幕,屏幕问题生成的指标是合成与须要用户输出的 UI 元素相干的连贯、语法正确的自然语言问题。
咱们发现 LLM 能够利用 UI 上下文来生成相干信息的问题。LLM 在问题品质方面显著优于启发式办法(基于模板的生成)。
LLM 生成的屏幕问题示例。LLM 能够利用屏幕上下文生成与挪动 UI 上每个输出字段相干的语法正确的问题,而模板办法则有余。
咱们还揭示了 LLM 将相干输出字段组合成一个问题以进行无效沟通的能力。例如,询问最低和最高价格的过滤器合并为一个问题:“价格范畴是多少?
咱们察看到 LLM 能够利用其先验常识组合多个相干的输出字段来提出一个问题。
在评估中,咱们征求了人类对问题的语法是否正确(语法)以及与生成它们的输出字段相干(相关性)的评分。除了人工标记的语言品质外,咱们还主动查看了 LLM 如何笼罩须要生成问题的所有元素(覆盖范围 F1). 咱们发现 LLM 生成的问题具备近乎完满的语法(4.98 / 5),并且与屏幕上显示的输出字段高度相干(92.8%)。此外,LLM 在全面笼罩输出畛域方面体现良好(95.8%)。
工作 2:屏幕摘要
屏幕摘要是主动生成描述性语言概述,涵盖挪动屏幕的基本功能。该工作可帮忙用户疾速理解挪动 UI 的用处,这在 UI 不可视拜访时特地有用。
咱们的结果表明,LLM 能够无效地总结挪动 UI 的基本功能。它们能够生成比屏幕 2 个单词咱们之前应用特定于 UI 的文本引入的基准测试模型,如上面的黑白文本和框中突出显示的那样。
由 2 发 LLM 生成的示例摘要。咱们发现 LLM 可能应用屏幕上的特定文原本撰写更精确的摘要。
乏味的是,咱们察看到 LLM 在创立摘要时利用他们的先验常识来推断 UI 中未显示的信息。在上面的示例中,LLM 推断地铁站属于伦敦地铁零碎,而输出 UI 不蕴含此信息。
LLM 利用其先验常识来帮忙总结屏幕。
人工评估将 LLM 摘要评为比基准更精确,但他们在以下指标上的得分较低 BLEU. 感知品质与指标分数之间的不匹配产生共鸣近期工作显示 LLM 能够写出更好的摘要,只管主动指标没有反映它。左:主动指标的屏幕摘要成果。右:由人工评估人员投票的屏幕摘要准确性。
工作 3:屏幕问答
给定挪动 UI 和一个询问无关 UI 信息的开放式问题,模型应提供正确答案。咱们专一于事实问题,这些问题须要依据屏幕上显示的信息进行答复。
屏幕质量检查试验的后果示例。LLM 显著优于现成的 QA 基线模型。
咱们应用四个指标报告性能:齐全匹配(与根本事实雷同的预测答案)、蕴含 GT(答案齐全蕴含根本事实)、GT 子字符串(答案是根本事实的子字符串)和微型 F1 评分基于整个数据集中预测答案和根本事实之间的共享单词。
咱们的结果表明,LLM 能够正确答复与 UI 相干的问题,例如“题目是什么?LLM 的体现显著优于基线 QA 模型 DistillBERT,达到 66.7% 的齐全正确率。值得注意的是,0-shot LLM 的准确匹配得分为 30.7%,表明该模型的外在问答能力。
工作 4:将指令映射到 UI 操作
给定挪动 UI 屏幕和自然语言指令来管制 UI,模型须要预测对象的 ID 以执行批示的操作。例如,当应用“关上 Gmail”进行批示时,模型应正确辨认主屏幕上的 Gmail 图标。此工作对于应用语言输出(如语音拜访)管制挪动利用十分有用。咱们介绍了这个基准测试工作以前。
应用来自像素帮忙数据集. 数据集蕴含常见 UI 工作(如关上 wifi)的交互跟踪。每个跟踪都蕴含多个步骤和相应的阐明。
咱们应用来自 Seq2Act 纸。“局部”是指正确预测的各个步骤的百分比,而“残缺”是指精确预测的整个交互跟踪的局部。只管咱们基于 LLM 的办法没有超过在海量数据集上训练的基准,但它依然在仅通过两个提醒数据示例就实现了卓越的性能。
要点和论断
咱们的钻研表明,在挪动 UI 上对新鲜的语言交互进行原型设计就像设计数据示例一样简略。因而,交互设计师能够疾速创立性能模型,以与最终用户一起测试新想法。此外,开发人员和钻研人员能够在投入大量精力开发新的数据集和模型之前摸索指标工作的不同可能性。
咱们钻研了提醒 LLM 在挪动 UI 上启用各种对话交互的可行性。咱们提出了一套提醒技术,用于使 LLM 适应挪动 UI。咱们对四个重要的建模工作进行了宽泛的试验,以评估咱们办法的有效性。结果表明,与由低廉的数据收集和模型训练组成的传统机器学习管道相比,人们能够应用 LLM 疾速实现基于语言的新型交互,同时实现竞争性能。
原文链接:应用 LLM 在挪动设施上实现对话交互