
ChartCap:大規模データセットと新評価指標によるチャートキャプションの幻覚抑制
3つの要点
✔️ ChartCapは56万件超の実世界チャートに高品質キャプションを付与した大規模データセット
✔️ 余計な情報を排除し、構造要素と主要洞察を網羅することで幻覚を抑制する仕組みを導入
✔️ 提案指標VCSによりモデルの忠実度を評価し、従来手法や人間キャプションを上回る性能を示した
ChartCap: Mitigating Hallucination of Dense Chart Captioning
written by Junyoung Lim, Jaewoo Ahn, Gunhee Kim
(Submitted on 5 Aug 2025)
Comments: ICCV 2025 (Highlight)
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computation and Language (cs.CL)
概要
本研究は、視覚と言語を統合したモデルが「グラフやチャートに対して正確で情報豊富な説明文(キャプション)」を生成することを目的としているとのこと。
既存のチャートキャプション用データセットには、二つの大きな課題がありました。
第一に、論文やレポートから抽出されたキャプションには、チャート画像からは読み取れない余計な情報が含まれている点。
第二に、キャプションが軸や凡例などの構造や、最大値・傾向といった重要な洞察を十分に表現できていない点です。
これらの問題はモデルに「幻覚(ハルシネーション)」を引き起こし、誤った説明につながります。
そこで著者らは、56万件以上の実世界チャートに対し、構造的要素と主要な洞察を過不足なく含み、かつ余計な情報を排した高品質なキャプションを付与した新データセット「ChartCap」を構築。
さらに、生成されたキャプションからグラフを再現し、元画像と比較することで評価する新しい指標「Visual Consistency Score」も提案しました。
これにより、モデルが実際のチャートに忠実で正確な記述を行えるかを客観的に測定可能に。
提案手法
著者らは、ChartCapデータセットを構築するために四段階の自動生成パイプラインを設計しました。
まず、数百万件の画像から図表以外の図(概念図や模式図など)を除外し、データ駆動型のチャートのみを抽出。
次に、GPT-4oなどを用いてチャートの種類やタイトルを認識。
その後、各チャート種別ごとに定義されたスキーマに従い、凡例・軸・極値・傾向といった構造的要素や洞察を抽出します。
この過程では、粗い傾向把握はGPT-4o、数値精度が必要な処理はClaude 3.5 Sonnetといったように役割を分担させ、精度を高めました。
抽出結果は半構造化形式にまとめられ、最終的に自然言語キャプションへ変換。
さらに品質保証のため、人間が直接すべてを確認するのではなく、「キャプションからPythonコードを生成し、再構成されたチャートを元画像と比較する」というサイクル一貫性に基づく検証を導入しました。
これにより、人間による視覚的チェックを効率化し、正確性と網羅性を兼ね備えた大規模データセットを低コストで構築することを可能にしました。
実験
実験では、ChartCapで学習させたモデルと、既存のオープンソースモデルや商用モデルとの比較を行いました。
評価指標には従来のBLEUやROUGEに加え、提案するVisual Consistency Score(VCS)とOCRScoreを用いました。
結果として、ChartCapでファインチューニングしたモデルは、従来モデルに比べ、より正確で情報量が豊富、かつ幻覚の少ないキャプションを生成。
特にPhi3.5-Vision-4BやInternVL2.5-8BといったオープンソースモデルをChartCapで調整すると、商用のClaude 3.5 Sonnetをも上回る性能を示しました。
また、VisTextやChart-to-Textといった他の人手検証済みデータセットに対してもゼロショットで高い精度を達成し、汎化能力が確認されたとのこと。
さらに、人手評価の比較では、ChartCapで学習したモデルの出力が、既存の人間が書いたキャプションよりも好まれるケースが多く報告されました。
これにより、ChartCapは従来のデータセットよりも有効であり、実世界チャートの理解と説明に大きく貢献できることが実証されました。
この記事に関するカテゴリー