![[mPLUG-Owl]开发能理解图像和文本的 LLM](https://aisholar.s3.ap-northeast-1.amazonaws.com/media/January2024/mplug-owl.png)
[mPLUG-Owl]开发能理解图像和文本的 LLM
三个要点
✔️ 最近关于大规模语言模型(LLMs)的研究主要集中在结合多种信息源的能力上。
✔️ mPLUG-Owl 训练方法允许将视觉信息纳入 LLM。这样就可以将不同的信息源结合起来,从而提高 LLM 的性能。
✔️ mPLUG-Owl 使用两个阶段的训练来提高 LLMs 将图像与文本联系起来的能力。实验表明其性能优于现有方法,有望在实践中得到应用。
mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality
written by Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang
(Submitted on 27 Apr 2023)
Comments: Working in Process
Subjects: Computation and Language (cs.CL); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
导言
最近的研究重点是利用 LLM 将多种来源(模式)结合起来的能力。
研究人员尝试了两种方法来开发包含视觉信息的 LLM:一种方法使用视觉信息的文字描述,另一种方法使用综合模型。然而,这些方法都存在挑战,难以处理某些多模态任务。
因此,本文提出了一种新的训练方法 mPLUG-Owl。它旨在将视觉信息纳入 LLM,由三部分组成:LLM 本身、视觉知识模块和视觉抽象模块。这种方法可以将不同来源的信息结合起来,提高 LLM 在不同任务中的性能。
具体来说,我们采用两阶段训练方法来关联图像和文本。在第一阶段,训练将图像与文本关联起来的模块;在第二阶段,对这些模块进行微调,以提高 LLM 的性能。
实验结果表明,mPLUG-Owl 优于现有方法。该方法还提高了联想多幅图像和理解文本的能力,可应用于现实世界的问题。
相关研究
首先,LLM 在自然语言处理领域备受关注,出现了 BERT、GPT 和 T5 等模型,其中 GPT3 等大型模型表现尤为出色。因此,许多新的 LLM 应运而生,为自然语言处理领域的进步做出了贡献。
接下来,将介绍有关多模态大规模语言模型的研究。预计这些模型不仅能处理语言,还能处理视觉和语音等其他信息源。以前的方法试图用文本来解释视觉信息,并使用预先训练好的大规模语言模型来建立统一的模型。
最后,介绍一种名为 mPLUG-Owl 的新模型。它的特点是能够协调视觉模型和语言模型之间的表征,并能理解语言和多模态指令。它有望在一些新任务中表现出卓越的性能。
mPLUG-Owl
mPLUG-Owl 是一种多模态模型,它结合了视觉和语言,可以整合图像和文本等信息,从而理解意义并产生反应。
具体来说,mPLUG-Owl 由视觉基础模型、语言基础模型和视觉抽象模块组成。视觉信息被概括为标记,并与语言和输入相结合。
图 1:不同训练范式之间的比较。 所有这些方法都分两个阶段进行训练。 第一阶段是预训练,第二阶段是指令调整。
mPLUG-Owl 的训练过程也是通过语言建模任务来完成的。这一过程可学习如何生成后续标记,并将训练损失降至最低。
此外,mPLUG-Owl 培训还包括联合指导协调阶段。该阶段整合了视觉和语言信息,以完善模型并提高各种任务的性能。
因此,mPLUG-Owl 能整合多模态信息,在语言理解和生成反应任务中表现出色。
结果
本文的实验考虑了如何将多模态引入大型语言模型。首先,在模型设置中,选择了一个名为 ViT-L/14 的视觉基础架构模型,该模型有 1024 个隐藏维度和 24 层;ViT 由 CLIP ViT-L/14 模型初始化而来,该模型共有 24 层,共 24 个隐藏维度。训练时使用了 LAION-400M、COYO-700M、Conceptual Captions 和 MSCOCO 等数据集,模型的训练步数为 50k,总共代表了约 1040 亿个词块。此外,还通过两步训练方案中的数据模态消减和教学调整评估了模型的性能。
该图显示了使用名为 OwlEval 的视觉相关评估集将 mPLUG-Owl 的响应质量与其他模型进行比较的结果。图中,响应质量的排名顺序为 A > B > C > D,显示了每个模型的性能。图中包括每个模型生成的 82 个人工评分的响应。
定量分析使用 OwlEval(一套视觉相关评级)来评估不同模型回答不同问题的能力。结果显示,mPLUG-Owl 的回答能力优于其他模型,尤其是在理解指令和图像方面。
在定性分析中,提出了一些具体案例,如知识密集型质量保证和多轮对话,在这些案例中,mPLUG-Owl 的表现优于其他模型。另一方面,在与理解笑话相关的案例中,mPLUG-Owl 也表现出了理解幽默的能力,但由于训练数据的限制,出现了一些错误。
这些结果表明,mPLUG-Owl 在多模态任务中表现良好,但在某些方面仍有改进的余地。
审议
本节介绍 mPLUG-Owl 的初始功能及其局限性。
图 10 显示了多幅图像的视觉关联能力,在识别同一人和不同颜色方面取得了一些成功,但关联多幅图像的能力仍然有限。
图 11 显示了中文、法文和日文的多语言理解能力,结果令人鼓舞,但仍缺乏全面的多语言培训。
图 16 至图 18 显示了从简单到复杂场景的 OCR(光学字符识别)能力,但在数字识别方面仍有改进余地。
在图 12 中,对文件理解及其应用进行了探讨,如电影审查和代码生成,但有些应用尚未取得令人满意的结果。
图 13 和图 14 还显示了使用 mPLUG-Owl 创作诗歌、歌词和广告的情况,但要创作出更多实用作品,还需要进一步研究。
结论
本文最后提出了一种新的训练方法 mPLUG-Owl。mPLUG-Owl 将底层语言模型模块化,并结合了视觉知识和抽象概念,以增强图像与文本之间的联系。该方法在各种应用中都表现出卓越的性能,显示出多模态生成的潜力。
在我看来,这种新的训练方法是人工智能进化过程中的重要一步,因为视觉和语言信息的结合将使人工智能的生成更加多样化和富有创造性。
与本文相关的类别