ベトナムの高校化学の試験問題で見る大規模言語モデルの限界と可能性

Large language models 2025年01月08日

3つの要点
✔️ ベトナムの高校レベルの化学教育における最先端の言語モデルであるChatGPTとBingChatの性能を包括的に評価
✔️ ベトナムの学生と比較してChatGPTとBingChatの能力を比較分析
✔️ トナムの化学教育分野で大規模言語モデルを導入することの潜在的なメリットと課題について議論

LLMs' Capabilities at the High School Level in Chemistry: Cases of ChatGPT and Microsoft Bing Chat
written by Dao Xuan-Quy, Le Ngoc-Bich ,Vo The-Duy ,Ngo Bac-Bien ,Phan Xuan-Dung
(Submitted on 20 Jun 2023)
Comments: Published on ChemRxiv.
Subjects: Chemical Education

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

人工知能（AI）は、教育現場において学生の学習体験を向上させ、教育実践を改善するためにますます重要な役割を果たしています。AIを活用した教育ツールは、パーソナライズされた学習体験を提供し、日常的なタスクを自動化し、リアルタイムのフィードバックと評価を提供することができます。

ある研究によれば、AIは管理、教育、学習の各分野で広く利用されており、コンピュータ技術からヒューマノイドロボット、チャットボットに至るまでさまざまな形で採用されています。AIの活用により、教員は管理業務をより効率的に行い、学生のニーズに合わせて教育コンテンツをカスタマイズすることができ、学習の質が向上させることができます。

別の研究は、オンライン学習における負担軽減と学習者のエンゲージメント向上を目指して、テキストから音声への変換技術と音声駆動型の顔技術を使用して、講師の声と顔を用いたビデオ講義を自動的に作成する方法を提案しています。これにより、録画の手間を省き、簡単に修正が可能となります。実験結果はこの方法の有効性を示しています。ベトナム語のバーチャルアシスタントを備えたオンライン学習プラットフォームを提案し、講師が授業を提供し、学習者を評価する支援を行う取り組みもあります。レッスン内容は、合成音声と講師の顔を組み合わせたスライドで提供され、ビデオ録画の必要なく簡単に編集できます。

大規模言語モデルは、膨大な自然言語データを処理・分析できるAI技術の一種です。これらのモデルは、言語翻訳、コンテンツ作成、教育など、多岐にわたる用途で大きな可能性を示しています。2018年にGoogleが導入したBERTや、2019年にFacebookが導入したRoBERTa、Googleの研究者によって同年に導入されたT5、そしてOpenAIの2020年のGPT-3など、各モデルはそれぞれの特徴を持ち、自然言語処理タスクで優れた成果を挙げています。

化学データセットは、大規模言語モデルがさまざまな分子特性を理解し予測するための学習に不可欠です。薬物発見、材料設計、その他多くの応用にとって非常に重要です。大規模言語モデルは膨大な化学空間から高い精度と速度で有望な分子を特定するのに役立ちます。化学に対する大規模言語モデルの関心が高まる中で、これらのモデルを効果的に学習するために、十分な化学および構造情報を提供できる大規模で多様かつ高品質の化学データセットの必要性が増しています。例えば、MoLFormerは、1.1億のラベルなし分子のSMILESシーケンスを用いて学習され、既存のベースラインを上回る性能を示しています。

大規模言語モデルの進化に伴い、教育分野における可能性と課題も明らかになりつつあります。しかし、ベトナムのように主要言語がベトナム語である国では、これらのモデルを教育に効果的に導入するためはに、その能力を総合的に評価することが重要です。特に高校化学の分野では、これまでこのトピックに関する研究が行われておらず、高校化学で大規模言語モデルを評価するためのデータセットもほとんど存在しません。

このギャップを埋めるために、ベトナムの全国試験から9科目をカバーするデータを含む「VNHSGEデータセット」を開発しています。このデータセットには、19,000の選択式問題と300の文学エッセイが含まれ、テキストと画像の両方が提供されています。今後の大規模言語モデルが教育分野にもたらす変革とその未来について深く探究している論文です。

データセット

この論文で使用したデータセットは、ベトナム教育訓練省、高校、教師から入手した公式および模擬試験問題で構成されています。これらの問題は2019年から2023年にかけて行われた試験から収集され、数学、文学、英語、物理、化学、生物、歴史、地理、公民教育などの幅広い科目を網羅しています。問題は「知識（easy）」、「理解（intermediate）」、「応用（difficult）」、「高応用（very difficult）」の4つの難易度に分類されており、学生の能力と専門知識を評価するための包括的なベンチマークを提供しています。

今回は、ベトナム高校卒業試験における化学テストをベンチマークとしています。ベトナムでは、化学卒業試験は毎年行われる高校卒業試験の重要な部分を構成しています。この試験は自然科学の一部として分類されており、学生は40問、50分で問題を解きます。

この高校の化学試験をベースに構築されたVNHSGEデータセットは、基礎的な知識から情報の分析と統合を必要とする複雑な問題解決まで、さまざまな難易度の問題を含んでいます。大規模言語モデルの性能を評価するために、前述の通り、問題を「知識」、「理解」、「応用」、「高応用」の4つのレベルに分類しています。このアプローチにより、化学教育におけるさまざまな問題に対するLLMの能力と限界を包括的に理解することができます。そして、50セットの試験からなる計2,000問の選択式問題で構成されています。これらの問題は、冶金、アルカリ金属、アルカリ土類金属、アルミニウム、鉄、無機化学合成、エステル、脂質、アミン、アミノ酸、タンパク質、炭水化物、ポリマー、ポリマー材料など、幅広い化学分野を網羅しています。試験は、有機化学の内容として、合成、電解、窒素-リン化学、炭化水素、アルコール、フェノールなどの知識を評価しています。

2019-2022年のベトナム学生のスコア分布は、特定の科目における受験者のスコアを示す方法です。通常、これらのスコアはチャートの形式で表示され、一方の軸がスコアを示し、もう一方の軸がそのスコアを取得した受験者の数を示します。下図は、2022年の全国高校卒業試験の化学試験結果の分析を示しています。

化学試験を受験した327,370人の平均スコアは6.7点、中央値は7.0点でした。最も多かったスコアは8.0点で、1点以下のスコアを取った受験者は43人（0.01％）、平均スコア以下のスコアを取った受験者は49,900人（15.24％）です。スコア分布はベトナム教育省によって毎年発表され、各科目ごとにチャートとして表示されます。このスコア分布は、受験者の習熟度と能力を分類し、既定の基準に基づいて評価するために使用されます。また、試験問題の難易度に基づいて試験の質を評価するためにも使用されます。この論文では2019年から2022年のスコア分布を収集しています。大規模言語モデルの結果をベトナムの学生の結果と比較することで、大規模言語モデルの能力を評価することができます。

VNHSGEデータセットでは、BERTやGPTのような言語モデルに適応するために、数式や方程式、図は、テキスト形式に変換されています。VNHSGEデータセットは、プログラミング知識のない人でも大規模言語モデルの性能を評価できるように、テキスト形式のWordファイルを提供しています。ただし、記号、表、画像も変換されています。また、VNHSGEデータセットは、複数の大規模言語モデルと互換性を確保し、より信頼性の高い言語モデルの開発を支援するために、JSON形式に適しています。JSON形式は、テキスト内の構文情報と内容関連情報の両方を効率的に処理するため、大規模言語モデルの入力データとして理想的です。その柔軟性と拡張性により、数式、方程式、表、画像を含む多様なテキストデータを保存することができます。

ここでは、いくつかのベトナム語の問題を紹介します。問題と回答を英語に翻訳するために、ChatGPTとBingChatを利用しています。最初は知識（easy）レベルのもので、回答を見つけるために推論を必要としません。

次の問題は理解（intermediate）レベルのもので、答えを導き出すために少しの推論が必要です。

その次の問題は応用（difficult）レベルのもので、解決策を見つけるために推論が必要です。

最後に、高応用（very difficult）レベルの問題は、問題を解決するために深い推論が必要です。

実験

ベトナム教育訓練省が2019年から2023年に提供した5つの模擬試験（計200問の選択式問題）を含むVNHSGEデータセットを使用して、ChatGPTとBingChatの性能を評価しています。ここでは、このサブデータセットに対するChatGPT（2月13日版）とBingChat（3月28日版）の評価結果を示しています。

ここでは、前述のサンプルから得られたChatGPTとBingChatの回答を示しています。まず、知識（easy）レベルの問題に対して、ChatGPTは正しい答えを出力していますが、BingChatは部分的なサポートに留まっています。BingChatは解決策を出力していませんが、問題解決の方向性を示すサポートを行っています。

次の問題では、一般的な化学反応式であるものの、ChatGPTとBingChatが正しい答えを見つけられなかったことが示されています。

応用（difficult）レベルの問題では、正しい答えを導くために総合的な知識が必要であり、ChatGPTとBingChatの両方とも解答を見つけることができていません。

深い推論が必要な問題に対して、ChatGPTとBingChatのいずれも有用な情報を提供できず、そのアプローチも全く合理的ではありません。

また、問題の順序は、その難易度レベルに関連しています。問題は、は次のように分類されています。問題1-20は知識レベル、問題21-30は理解レベル、問題31-40は応用および高応用レベルとなっています。下表には、ChatGPTとBingChatが取得した結果を問題の順序に従って示しています。

さらに、MaxとMinという2つの値を導入しています。MaxはChatGPTとBingChatの最良のシナリオ、つまりモデルが正しい答えを提供する能力を表しています。一方、Minは最悪のシナリオ、つまりモデルが誤った答えを提供する能力（1-Min）を表しています。

これらのMaxとMinの値を使用することで、VNHSGEデータセットに対する大規模言語モデルの最良および最悪のパフォーマンスを評価できます。例えば、問題「x」に対してChatGPTが正しい答えを提供し、BingChatが誤った答えを提供した場合、Maxは真（値「1」）であり、Minは偽（値「0」）となります。問題の順序がその難易度にリンクしているため、問題順序に基づいて回答の正確性を評価し、問題の難易度レベルに基づいて大規模言語モデルの能力を判断することができます。

下図に示されている5年間の平均結果によれば、ChatGPTが50%以上の正確な回答を提供できるのは問題1-21までです。しかし、問題20-40に関しては、ChatGPTの正答率は著しく低下します。一方、BingChat、Min、およびMaxはそれぞれ問題1-24、1-16、1-27で50%以上の正答率を示しています。

しかし、問題24以降では、Minの正答率はほぼ0%になります。ChatGPTとBingChatが提供する回答の正確性を分析した結果、両モデルとも知識および理解レベルの問題にのみ答えることができ、応用および高応用レベルの問題に苦戦していることが分かります。

また、下表には、各年の大規模言語モデルのパフォーマンスとその平均値が示されています。ChatGPTは2021年に最高得点62.5を達成し、2019年には最低得点40を記録しています。一方、BingChatは2020年に最高得点57.5を達成し、2022年には最低得点47.5を記録しています。MinとMaxの値は、それぞれ2022年と2021年に最高および最低のパフォーマンスを示しています。ChatGPTは2021年にのみBingChatを上回っています。

下図は、VNHSGEデータセットに対するChatGPTとBingChatの回答の一貫性を示しています。結果は、BingChatがChatGPTに比べて高い安定性を示していることを示しています。この観察結果は、BingChatが検索エンジンのメカニズムを採用しているのに対し、ChatGPTはより創造的なアプローチを持っていることを考慮すると予想されます。

また、下図は、VNHSGEデータセットに対するChatGPTとBingChatのパフォーマンスを、OpenAIが提供するAP化学データセットにおけるChatGPTのパフォーマンスと比較したものです。OpenAIの報告によると、ChatGPTはAP化学データセットで22%から46%のスコア範囲を達成しています。一方、VNHSGEデータセットでは、ChatGPTは48%、BingChatは52.5%のスコアを記録し、この論文によるテストケースでは最高67.5%、最低33%のスコアを達成しています。

ベトナムの学生との比較も行なっています。大規模言語モデルの性能を評価するために、その結果をベトナムの学生の結果と比較しました。下表には、ChatGPTとBingChatの変換スコア、平均スコア（AVNS）、および最優秀ベトナム学生（MVNS）のスコアが示されています。

ChatGPT、BingChat、Min、Maxの平均スコアはそれぞれ4.8、5.25、3.3、6.75です。2019年から2022年のベトナム学生の平均スコアは、それぞれ5.35、6.71、6.63、6.7です。このことから、ChatGPTとBingChatのスコアは、ベトナム学生の平均スコアよりも低いことがわかります。しかし、Maxはベトナム学生の平均スコアよりも良い結果を示していますが、最優秀ベトナム学生のスコアには及んでいません。

下図には、ChatGPT、BingChat、Min、Maxのスコアとベトナム学生のスコアが比較されています。このグラフは、高校化学分野におけるChatGPTとBingChatのパフォーマンスがベトナム学生のそれに劣ることをさらに強調しています。

まとめ

この論文では、高校化学で大規模言語モデルを評価するため、2019年から2023年に行われたベトナムの高校化学試験を用いたベトナムの全国試験から9科目をカバーするデータを含む「VNHSGEデータセット」を開発しています。そして、ChatGPTとBingChatの性能を評価しています。結果は、両モデルとも応用（difficult）および高応用レベル（very difficult）の問題に対して限定的なパフォーマンスを示しており、推論と知識の応用に不足が見られています。また、ChatGPTとBingChatを比較したところ、BingChatの方が一般的に正確性が高いことがわかりました。また、両モデルのスコアをベトナムの学生のスコアと比較すると、大規模言語モデルのスコアは学生の平均スコアよりも低く、化学教育において人間の知能に代わるには限界があることが示されています。

それでも、大規模言語モデルは学生や教師に対して即時フィードバックや個別の学習体験を提供するなど、教育活動を支援する可能性があります。さらに、練習や評価のための問題や教材の生成にも役立つと考えられます。大規模言語モデルは、より専門的な知識を取り入れ、推論および応用能力を強化することで、さらに改善される可能性があります。全体として、大規模言語モデルは教育の分野で将来性を示していますが、まだ克服すべき課題が存在します。今後の研究では、大規模言語モデルの推論および知識応用能力を改善する方法や、学生の学習成果を向上させる効果を調査することが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。