赶上最新的AI论文

大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI 的潜力

大规模语言模型改变音乐教育的未来,Flute X GPT 和 LAUI 的潜力

大型语言模型

三个要点
✔️ 利用 LLM 代理不仅能遵循用户指令,还能主动收集用户需求
✔️
需要实时交互的使用案例(即音乐学习)展示LLM 代理的实用性
✔️操作由软件和硬件组成的复杂系统并为用户提供最佳交互并为用户提供最佳互动。

Human-Centered LLM-Agent User Interface: A Position Paper
written by Daniel ChinYuxuan WangGus Xia
(Submitted on 19 May 2024)
Comments: Published on arxiv.

Subjects: Human-Computer Interaction (cs.HC); Artificial Intelligence (cs.AI)

code:

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

大规模语言模型使用户能够使用各种自然语言系统。众所周知,一种典型的使用方式就是聊天(见下文)。许多服务都在努力通过这种方式实施额外的大规模语言模型来提高可用性。

然而,与这种大规模语言模型的用户交互仍有改进的余地。目前,用户交互回答的是用户提出的问题,但大规模语言模型很少主动向用户提问或确认意图。换句话说,大规模语言模型只回答用户提出的问题。这个问题在将大规模语言模型用于新的复杂系统时尤为明显。

本文提出了一种新的框架,可以更有效地利用大规模语言模型的基于代理的用户界面(LLM-Agent User Interface,LAI)。在这一框架中,大规模语言模型不再像过去那样被动地根据用户来运作,而是更加主动地与用户一起寻找新的使用方法。

LAUI 熟悉系统的使用,了解用户的需求,能独立思考,并能为用户使用系统提出最佳建议。它可以主动与用户互动,例如,向用户提供哪些反馈,要求用户提供哪些输入。用户只需用自然语言表达自己的需求,该框架就能让用户高效地使用应用程序。

本文介绍了一个名为 "Flute X GPT "的应用程序,作为这种 LAUI 的一个具体实例。这是一款音乐教育应用,采用了由大规模语言模型代理、提示管理器、软件系统和硬件组成的 "LLM-in-the-loop"。该应用通过伺服电机提供触觉引导、视觉音乐符号反馈、音频反馈和自然语言聊天功能,所有这些都由大规模语言模型代理控制。

论文指出,这是第一个如此复杂和具有实时性的 LAUI。

长笛 X GPT 概述

本文介绍了音乐教育应用软件Flute X GPT,作为利用大规模语言建模代理测试大规模语言模型实用性的用户界面(LAI)的一个具体实例Flute X GPT 用于用户练习长笛的工作坊式用例。该用例实时提供各种反馈。

  • 触觉反馈:向用户的手指施加压力,以支持用户的操作。
  • 视觉反馈:显示性能错误。
  • 音频反馈:播放音乐。
  • 语音反馈(自然语言):作为机器人的音乐教师提供支持

应用程序的软件和硬件可以通过各种方式进行配置,以创建不同的互动。可以进行各种设置,例如在特定反馈之间切换,或特定反馈作为触发条件。每种设置都可以独立控制,随着设置数量的增加,组合的数量也会呈指数级增长。

这使得用户很难从一开始就完全理解应用程序。一般来说,易于定制、功能多样但难以掌握的工具和界面也很常见。

大型语言模型代理可以解决这些问题。大规模语言模型代理可以学习系统的基本功能,用自然语言与用户互动,并根据用户的音乐学习目标建议使用系统的最佳方法。大规模语言模型代理可以分析用户的偏好,识别挑战,并从系统配置中推断出最适合用户的操作方法。

这也可以让他们提出人类在传统设计中没有考虑到的设置组合建议。它还可以消除人类教学的有害影响,例如因人而异的怪癖。

使用长笛 X GPT 进行的验证针对的是事先不了解如何教授长笛的用户。大规模语言建模代理可以适应用户的长笛演奏能力、其他音乐技能、年龄、词汇量、毅力、学习风格等。

在音乐学习研讨会上,大规模语言建模代理作为机器人音乐教师与用户互动。例如,机器人老师会要求用户戴上触觉手套,并建议用户反馈施加在每个手指上的力。工作坊分为用户根据实时指令练习演奏的部分和用户与机器人教师互动的部分。

用户通过大规模语言模型代理与应用程序反复互动,并各种反馈中学习音乐大规模语言模型代理可以通过互动来研究用户,并量身定制工作坊,以最大限度地提高音乐教育的效果。

用户将认识到,机器人教师是一位专业人士,能够提前规划,为用户量身定制计划,并解释其音乐知识和教学策略。

本文介绍了三个真实用户测试的视频演示,可在 YouTube 播放列表上观看。

长笛 X GPT 的特点

长笛 X GPT 有许多与众不同之处:首先是 "触觉反馈"。一个特制的手套允许用户的手指移动,以帮助演奏。指导功能可设置为仅适用于全音符或不正确的音符。例如,"力度模式 "可为每个音符提供反馈,而 "自适应模式 "则只在用户出现错误时提供反馈。

其次是 "视觉反馈"。乐谱显示在显示器上,实时反映用户演奏的音符。这有助于用户更好地理解乐谱,提高演奏的准确性。

第三是 "音频反馈"。该系统通过输出用户的长笛演奏声、教师的参考声和节拍器声的混音,提供全面的音频反馈。

第四种是传感器扩展长笛。这种长笛可实时测量手指位置和呼吸压力,从而实现更精确的演奏指导。

第五个是 "节奏模式"。有两种模式:一种是固定节奏模式,另一种是允许用户自由设定节奏模式。后者允许用户按照自己的节奏演奏,没有触觉反馈。

第六个是 "错误分类"。该系统分析每个音符的时间和音高,并将结果可视化。用户可以看到自己演奏的哪些部分是准确的,哪些部分是错误的。

第七个是 "歌曲数据库",它使用从 POP909 数据集中导入的流行歌曲旋律线,并提供练习材料。

定制这些功能可以最大限度地提高学习效果。建立一个有效的系统需要:(1) 精通系统;(2) 了解用户需求;(3) 专业教学知识;(4) 音乐知识;(5) 利用常识推理创建多模态实时互动。大型语言建模代理可以完成这项高度复杂的任务。

大规模语言模型代理可根据用户的技能水平和需求选择和创建最合适的预设,以优化用户的操作和学习效果。下表列出了大规模语言模型代理在此应用中可以使用的功能。

GPT-4 被用作大规模语言模型。输入大规模语言模型的提示定义了代理的角色和交互原则。代理实时响应并指导用户的操作。下图为系统概览。

底层的 "音乐 X 机器 "将软件和硬件连接起来,实现与用户的多模式互动。机器人与用户互动,并根据 MIDI 设备演奏钢琴。一个基于规则的管理器与大规模语言模型进行交互,将外部事件传送到大规模语言模型,并处理来自大规模语言模型的响应。

该系统由四个主要部分组成

  • 解析器:将大规模语言模型的输出分类为思想、行动和语音。
  • 管理器:提供一致的交互环境,并管理系统的原则
  • 文本到语音 (T2S) 模块:实时转换为语音
  • 语音识别(S2T)模块:识别用户语音并进行适当处理

此外,还有一段视频解释了长笛 X GPT 的工作原理,有助于进一步加深对系统的理解。长笛 X GPT 是一个利用最先进的大规模语言建模技术来改进音乐教育的系统。通过触觉引导和视觉反馈等多种功能,该系统可帮助用户提高演奏技巧。

摘要

在本文中,我们研究了 LLM-Agent用户界面(LAI),这是一种用于高效用户-系统交互的大规模语言模型代理。作为一个具体实例,本文介绍了用于音乐教学的应用程序--Flute X GPT,以展示这种 LAUI 的潜力。

本文认为,以人为本的刘易斯国际学院应具备三个特点。

首先是 "主动响应"。它指出,与传统大规模语言模式下的代理不同,代理需要主动吸收用户的需求,理解用户的需求,帮助用户完善其请求,并鼓励用户提出更好的问题。

第二是 "了解用户并提出建议"。它指出,需要获取用户的详细信息,如他们的需求、偏好、情绪和注意力,然后与系统信息相结合,提出有效的工作流程和互动建议。

第三是 "支持未经培训的用户"。它们需要有足够的通用性和可扩展性,以帮助未经培训的用户充分利用精密复杂的系统。

为了提出最佳的学习建议,需要获取用户的详细信息,而为了获取这些信息,代理需要积极地外出收集信息。他们还需要鼓励用户这样做。此外,为了利用如此广泛的信息,有必要对这些信息进行整合,以简单的方式提供最佳的学习建议,而不是提供复杂的学习建议,因为它们很复杂,而大规模语言模型被认为是实现这些目的的有效方法。

在获取大量用户数据并进行个性化优化(如推荐)的今天,这种以人为本的 LAUI 非常有用,有望在未来得到进一步的研究和改进。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们