MATE:多代理无障碍模式转换框架
三个要点
✔️ 提出了支持残疾人的模态转换专用开源多代理系统 MATE
✔️ 针对模态转换任务分类数据集开发了 ModConTT 和 BERT 微调模型
✔️ 所提出的模型比现有的 LLM 和 ML 方法取得了更高的准确率,并显示出在许多领域的应用潜力。并显示出在许多领域的应用潜力。
MATE: LLM-Powered Multi-Agent Translation Environment for Accessibility Applications
written by Aleksandr Algazinov, Matt Laing, Paul Laban
(Submitted on 24 Jun 2025 (v1), last revised 15 Jul 2025 (this version, v2))
Comments: Published on arxiv.
Subjects: Multiagent Systems (cs.MA); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本研究提出了一个开源支持框架--多代理翻译环境(MATE),它利用多代理系统(MAS)来解决残疾用户在数字环境中面临的无障碍问题。MATE 是一个利用多代理系统 (MAS) 的开源支持框架。
MATE 可根据用户需求在不同模式(文本、语音、图像、视频等)之间进行翻译,从而使有视觉或听觉障碍的人能够轻松获取信息。
其功能包括 ModCon-Task-Identifier 模型,该模型可分析用户输入并自动识别最合适的转换任务,从而实现文本到语音 (TTS)、语音识别 (STT)、图像标题生成 (ITT) 和图像到语音解释 (ITA) 等多种任务。
此外,还建立了用于模态转换任务分类的专用数据集 "ModConTT",并对照现有的 LLM 和机器学习模型进行了评估。
结果表明,所提出的模型准确率高、成本低,有望应用于医疗、教育和交通等广泛领域。
建议的方法
MATE 由一个解释用户请求的 "解释器代理 "和七个执行特定转换任务的不同 "专业代理 "组成。
解释器代理从输入文本中识别任务类型,并将处理任务分配给相关的专业代理。
每个代理都利用现有的高性能模型(如 Whisper、Stable Diffusion、Tacotron 2、BLIP 等)来执行转换任务,如 TTS、STT、TTI(文本到图像)、ITT(图像到文本)、ITA(图像到音频)、ATI(音频到图像)和 VTT(视频到文本)以及其他转换任务。文本)和其他转换。
在任务确定方面,ModCon-Task-Identifier 是使用作者创建的 ModConTT 数据集对 BERT 进行微调的版本,与一般的 LLM 和经典的机器学习模型相比,ModCon-Task-Identifier 的准确性更高。
该系统设计为本地运行,提供隐私保护和灵活定制,适合医疗和教育领域的实时支持。
实验
在实验中,首先使用 ModConTT 数据集将几个 LLM(GPT-3.5-Turbo、Llama-3.1-70B 和 GLM-4-Flash)作为解释器进行比较。
在对 230 个样本进行任务分类时,GPT-3.5-Turbo 表现出很高的性能,准确率为 0.865,但采用微调 BERT 的 ModCon-Task-Identifier 的准确率最高,准确率为 0.917,F1 分数为 0.916。
此外,通过与其他经典模型(如使用 TF-IDF 和 BERT 嵌入的逻辑回归和随机森林)进行比较,也证实了所提出模型的优越性。
误分类分析表明,UNK(未知任务)类别的失败率最高,其次是 STT 和 ATV。
这些结果证明了 MAS+ 专业化模型在复杂的模式转换任务中的有效性,并支持其作为医疗保健和教育领域的支持工具发挥巨大作用。
与本文相关的类别