
JDocQA 数据集是一个全新的大规模数据集,正在彻底改变日本人的答题技巧
三个要点
✔️ JDocQA 数据集的开发:这是一个新的大规模数据集,侧重于包含视觉信息的文档,旨在测量日语的问题解答能力。
✔️ 无法回答的问题的学习效果:证实在文档中包含无法直接回答的问题可以减少模型生成不准确回答的倾向。
✔️ 多模态模型的演变:GPT-4 和 InstructBLIP 等最先进的模型表明,在结合文本和图像的问题解答任务中具有很高的适应性和性能。
JDocQA: Japanese Document Question Answering Dataset for Generative Language Models
written by Eri Onami, Shuhei Kurita, Taiki Miyanishi, Taro Watanabe
(Submitted on 28 Mar 2024)
Comments: LREC-COLING2024
Subjects: Computation and Language (cs.CL)
code:![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
理解包含文本和图形元素的文档,如幻灯片、报告、网页和小册子,是智能代理回答有关多媒体文档问题的必要技能。尽管人们一直在研究如何整合这些元素以直观地理解文档,但在处理日语文档时仍面临挑战。日语文档有两种不同的书写方式--从左到右的水平书写方式和从上到下的垂直书写方式,智能代理需要理解这两种书写方式。
为了解决这个问题,本文开发了 "JDocQA数据集",其中包括 11,600 个问答对、4 个不同的问题类别和 1,000 个多页问题。该数据集以多格式日语文档为基础,人工标注了问题-答案对。这是一个大型的、完全标注的日语文档问答数据集。该数据集也适用于需要考虑文档中的视觉信息和文本才能回答问题的实际情况。此外,该数据集还对减少模型生成的不准确答案(即所谓的 "幻觉")的研究提出了挑战,因为它包含了无法直接在文档中找到答案的问题。
大规模语言和多模态模型的最新进展极大地扩展了这一领域的可能性。其中,GPT-4 和 InstructBLIP 等模型可以同时处理文本和图像,在多模态任务中表现出色。目前正在积极研究如何将这些模型适用于更专业的领域和语言,而 JDocQA 数据集的目的就是为文档理解和问题解答任务(尤其是日语)的进步做出贡献。
使用 JDocQA 数据集进行的实验表明,学习将无法回答的问题包括在内有助于减少模型生成错误答案的趋势。
数据集概览
JDocQA 是一个开创性的数据集,旨在提高日语答题技能。该数据集由 5504 份文字和图形元素相结合的文档组成,包括幻灯片、报告、网页和小册子,包含 11600 对问答。问题分为四类:"是/否"、"事实"、"数字 "和 "开放式",每个问题都包含文件中的文字和图像信息。
数据集的统计数据如下。
- 是/否问题:1 855
- 小问题:2 052 个
- 数字问题:1 866
- 开放式问题:5 827
该数据集适用于这样的情况,即模型不仅需要理解文本,还需要理解视觉信息,以便回答有关文档的问题。特别值得注意的是,该数据集包含了 "无法回答的问题",文件中没有提供明确的答案。这样做的目的是帮助模型模拟其在实际应用中可能面临的挑战,并有助于遏制模型产生不恰当答案(即所谓的 "幻觉")的趋势。
此外,该模型还包含 1,788 道需要查阅多页内容才能获得答案的题目,以及 1,000 道文本中未提及正确答案的题目。这样,该模型就可以容纳各种类型的问题,并评估理解复杂文档结构的能力。下表显示了 JDocQA 数据集中上下文、问题和答案的平均长度。
下图还显示了 JDocQA 数据集中的问题和答案中提到的视觉信息类别。
此外,下表还对文件问题-答案数据集进行了比较。
JDocQA 数据集是问题解答系统开发人员的宝贵资源。它包括模型根据文档上下文和文本问题生成文本答案的任务,可解决现实应用中遇到的各种用户问题。该数据集还提供了显示问题和答案中引用的视觉信息类别的数据,有助于开发多模态问题解答系统。
如何创建数据集
创建 JDocQA 数据集的整个流程如下图所示。
第一步是收集 PDF 文件。该数据集的基础是日本政府机构和地方当局制作的大量公开文件。我们从国会图书馆的数字馆藏、网络存档项目以及政府部门和机构的网站上手动收集了大量 PDF 文档。这些文件涵盖了从经济政策、教育政策到健康和卫生等一系列主题。这些文件还包含大量视觉元素,如图表和照片,该团队称这些元素在问答系统的开发过程中发挥了重要作用。
PyPDF2 工具还用于从文件中提取文本。由于无法直接从纸张扫描生成的 PDF 中提取文本,因此使用 OCR(光学字符识别)技术生成替代文本源。通过去除错误识别的符号、象形图和重复字符,提取的文本将被规范化。
接下来是注释:43 位注释者对包含丰富文本和视觉信息的文档进行了问答注释。每份文档都创建了 2 到 4 个问答注释,问题均基于文本和视觉信息。注释者还被要求在不使用人工智能工具的情况下进行注释。特别要指出的是,将无法回答的问题包括在内是为了增加数据集的真实性和实用性。
多模态模型还可使用三种视觉输入图像:第一种是完整文档页面的图像,第二种是根据注释者指定的边界框裁剪的表格或数字图像,第三种是用于消融研究的空白图像。该公司称,这样就能详细分析该模型如何处理视觉信息并将其用于问题解答。
JDocQA 数据集的开发涉及多个步骤,从广泛的文档收集到严格的文本提取和规范化,以及各种问答对的注释。通过这些努力,我们开发出了高质量的多模态问答系统,该系统可应用于更多现实场景。
实验和结果
在使用 JDocQA 数据集进行的一系列实验中,对不同的文本输入模型进行了测试,并详细分析了它们的性能。这些实验衡量了模型回答问题的效率,尤其关注它们如何处理 "无法回答的问题"。下表概述了实验结果。
就在所有实例上训练的模型而言,与包括 gpt-3.5 和 gpt-4 在内的标准模型相比,在包含无法回答的问题的所有数据上训练的模型显示出更优越的结果。这一点在大型模型中尤为明显。有趣的是,使用包含无法回答的问题的训练数据表明,模型能适应更真实的场景,整体性能也有所提高。
就不包含无法回答的问题的模型而言,还测试了排除无法回答的问题后训练的模型。这些模型的平均得分略低于那些包含了无法回答问题的模型。这强调了在训练数据中包含无法回答的问题的重要性,这样可以减少模型根据所谓的 "幻觉 "问题(即不存在的信息)生成答案的倾向。
StableLM-InstructBLIP-Alpha 等多模态模型在使用参考表格和数字的剪切图像时表现尤为出色。这表明,视觉输入和文字输入在问题解答任务中发挥着重要作用。
我们还研究了不同标记长度对模型性能的影响。标记长度较长的模型往往显示出更好的结果,但缺点是计算成本较高。
此外,还分析了不同文件类型的模型性能,并评估了每种类型对模型的影响,如小册子、幻灯片、报告文件等。这样就可以针对特定的文件类型开发优化的模型。
对实验结果的定性分析还提供了模型生成反应的具体实例,其中特别关注模型对无法回答的问题的反应。
此外,还进行了人工评估,以核实所生成答复的准确性和可靠性。
总之,这些实验结果表明,在使用 JDocQA 数据集开发问题解答系统的过程中,各种方法都经过了测试和验证。其中,在训练数据中包含无法回答的问题的重要性得到了强调,模型在实际应用中的适应性也得到了提高。
摘要
本文提供了一个新的大规模数据集,名为 "JDocQA 数据集"。它为日语答题任务提供了一个新的视角。其目的是通过融合视觉和文本信息,开发具有更深入理解和反应能力的模型。特别是,使用该数据集进行的实验证实,加入 "无法回答的问题"(即无法直接从文档中找到答案的问题)可以减少模型产生的错误答案,即所谓的 "幻觉"。
实验结果表明,JDocQA 数据集在应对问题解答系统所面临的各种挑战方面非常有用。实验结果表明,该数据集能有效处理从是/否问题到开放式问题等各种类型的问题。此外,研究还表明,准确预测无法回答的问题有助于提高模型的整体性能。
JDocQA 数据集有助于开发智能问题解答系统,即使文档中的文本没有明确回答问题,系统也能做出智能响应。这将有助于在更现实的场景中进行应用,并进一步推动问题解答技术的发展。
与本文相关的类别