大規模データセットSMolInstructで化学LLM「LlaSMol」を開発

Large language models 2024年12月02日

3つの要点
✔️ 大規模で高品質な命令チューニングデータセット「SMolInstruct」を構築
✔️ SMolInstructを用いた化学タスク向け大規模言語モデル「LlaSMol」の開発と優れた性能の実証
✔️ 分子キャプションや分子生成タスクの評価の限界と今後の研究課題を提示

LlaSMol: Advancing Large Language Models for Chemistry with a Large-Scale, Comprehensive, High-Quality Instruction Tuning Dataset
written by Botao Yu, Frazier N. Baker, Ziqi Chen, Xia Ning, Huan Sun
(Submitted on 14 Feb 2024 (v1))
Comments: Accepted by COLM 2024
Subjects: Artificial Intelligence (cs.AI); Computational Engineering, Finance, and Science (cs.CE); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

化学は、創薬、材料科学、エネルギー生産など、現代生活の多くの側面を支える基礎科学です。この分野の研究と応用を促進するために、グラフニューラルネットワークやトランスフォーマーモデルといった深層学習モデルが、反応予測やレトロシンセシス、特性予測など様々な化学タスクで応用されています。しかし、これらは、タスク固有のモデルであることが多く、別のタスクに適応することが難しいのが現状です。

一方、大規模言語モデルであるGPT-4やLlamaシリーズ、Mistralは、汎用的な基盤モデルとして登場し、自然言語処理タスクで驚異的な能力を示しています。しかし、化学タスクに適用すると、その能力は限られたものにとどまります。例えば、ある研究では、GPT-4が他の大規模言語モデルよりも優れているものの、タスク固有の深層学習モデルには及ばないことが観察されています。特に、分子を表すテキスト表現であるSMILESの正確な理解が必要な場合、GPTモデルの性能は低いことが分かっています。

さらに、事前学習された大規模言語モデルを直接適用することに加えて、命令チューニングデータセットで大規模言語モデルをファインチューニングする試みも行われていますが、その性能は非常に低く、特定のタスク用に設計された最新モデル（SoTA）には遠く及んでいません。これらの結果を踏まえると、大規模言語モデルが実際に化学タスクを効果的に実行できるのか、それとも根本的な制限があるのか、検証が必要と考えられます。

この論文では、開発した大規模言語モデルが包括的な化学タスクセットで非常に高い性能を達成し、最先端のGPT-4やClaude 3 Opusを大幅に上回る結果を示しています。その鍵となるのは、大規模で包括的かつ高品質な命令チューニングデータセットである「SMolInstruct」の構築です。このデータセットに基づき、Galactica、Llama 2、Code Llama、Mistralの4つのオープンソースの大規模言語モデルをSMolInstructでファインチューニングし、「LlaSMol」という化学向けの大規模言語モデルを構築しています。

包括的な実験を通じて、これらのモデルを評価し、いくつかの興味深い発見や示唆を得ています。特に、Mistralベースのモデルが他を大きく上回り、ベースモデルが化学タスクの性能に大きな影響を与えることが示されています。また、SMILESを分子表現として使用することで、生成される分子の有効性が確保され、SELFIESを使用するよりも良い性能を達成しています。

さらに、モデルの学習やアプリケーションにおいて、標準化されたSMILESを使用することで学習負担が軽減され、性能が向上することが分かりました。命令チューニングは、化学タスク関連の知識をモデルに注入するのに効果的ですが、データセットが重要な役割を果たしています。SMolInstructでの学習は、過去のデータセットによる学習に比べて大幅に良い性能を達成し、データセットの貢献を示唆しています。

LlaSMolモデルは、各個別タスクに特化して設計された最新のタスク固有モデルには、依然として劣るものの、わずか0.58％のパラメータをファインチューニングした状態でSoTAに匹敵する性能を示しています。この結果から、さらなる改良の大きな可能性と、化学分野の強力な基盤モデルとしての役割を示唆しています。

データセット「SMolInstruct」

ここでは新しく提案されたデータセット「SMolInstruct」と、その構築について紹介します。SMolInstructは、小分子に焦点を当てた大規模な命令チューニングデータセットであり、合計14の化学タスクを含んでいます。

名前変換タスク
- IUPAC名を分子式に変換（NC-I2F）
- IUPAC名をSMILESに変換（NC-I2S）
- SMILESを分子式に変換（NC-S2F）
- SMILESをIUPAC名に変換（NC-S2I）

これらのタスクは、分子構造と表現の深い理解を助け、化学の大規模言語モデルの基礎知識を形成します。

特性予測タスク
- 水溶解度を予測するPP-ESOL（Mobley & Guthrie, 2014）
- オクタノール/水分配係数を予測するPP-Lipo（Poole & Poole, 2003）
- 血液脳関門透過性を予測するPP-BBBP（Martins et al., 2012）
- 人体への毒性を予測するPP-ClinTox（Gayvert et al., 2016）
- HIV複製抑制を予測するPP-HIV（Institute, 2004）
- 薬物の副作用を予測するPP-SIDER（Kuhn et al., 2015）

これらの特性は特に創薬において重要です。

分子のテキスト記述に関するタスク
- 分子キャプション（MC）は、指定された分子のテキスト記述を生成
- 分子生成（MG）は、指定されたテキスト記述に基づいて分子を生成

これらのタスクは、分子の構造と特性を理解することを要求し、自然言語と分子の間のギャップを埋める役割を果たします。

化学反応知識に関するタスク
- 前進合成（Forward Synthesis）は、反応物と試薬から生成物を予測
- レトロシンセシス（Retro Synthesis）は、生成物から反応物を予測

これらのタスクは、実世界の応用において重要な役割を果たします。例えば、レトロシンセシスは合成計画に不可欠であり、前進合成はレトロシンセシスの提案を検証するために使用されます。

SMolInstructは、合計3.3Mのサンプルを含んでおり、各サンプルはクエリ-レスポンスのペアとして構成されています。クエリはタスクとタスク固有の情報（入力分子、テキスト記述など）を説明し、レスポンスはクエリに対する回答を含む文です。すべてのタスクにおいて、明示的に定義されていない限り（NC-I2F、NC-I2S、NC-S2F、NC-S2I）、分子のデフォルト表現としてSMILESを使用しますが、SELFIES（Krenn et al., 2019）表現も提供しています。SMolInstructは、化学に関する広範な知識を網羅し、今後の研究や実践的応用において重要なリソースになると考えられます。

そして、SMolInstructデータセットは、4つのステップ（データ収集、品質管理、データ分割、命令構築）で構築されています。まず、専門家に相談し、重要なタスクを特定しています。次に、これらのタスクに必要なデータを下表に示す様々なソースから収集しています。なお、「Qry.」および「Resp.」は、それぞれクエリと応答の平均長さを表しています。

具体的には、名前変換タスク（NC-I2F、NC-I2S、NC-S2F、NC-S2I）には、包括的な分子データベースであるPubChem2（Kim et al., 2019）を利用しています。このデータベースからランダムに選んだ分子のIUPAC名、SMILES表現、分子式を抽出し、タスクの入力出力ペアとして再編成されています。

分子記述関連タスク（MCおよびMG）には、ChEBI-20、Mol-Instructionsのデータを使用しており、これらは共に高品質な分子テキストペアデータを含んでいます。特性予測タスク（PP-ESOL、PP-Lipo、PP-BBBP、PP-ClinTox、PP-HIV、PP-SIDER）には、確立されたMoleculeNetデータセットを利用しており、これらのデータセットは、創薬などの実世界の応用において重要な特性を表します。化学反応タスク（FSおよびRS）には、USPTO-fullから反応データを収集しています。このデータセットは、米国特許から抽出された1M以上の反応サンプルを含む広範なデータセットです。これらのデータセットは、すべて以前の研究でも広く使用されています。

また、データセットの品質を確保するために、収集したデータを厳格に審査しています。収集データには多くの問題のある低品質なサンプルが含まれており、それらは以下の3つのタイプに分類されます。

化学的に無効なSMILES
- SMILES文字列に化学的に無効なものもあり、SMILES文法に逸脱したり、化学的な原子価を超えている場合があります。この問題を解決するために、RDKit（RDKit, 2023）というツールを使用して分子を解析し、エラーを検出しています。
誤ったまたは不正確な情報
- 手動チェックを通じて、データに記録された誤った情報や不正確な情報を特定し修正しています。例えば、USPTO-fullデータセット内では、生成物との原子マッピングを比較して誤ってラベル付けされた反応物と試薬を修正しています。MCおよびMGタスクでは、ワードパターン、長さ、キーワードに基づくルールセットを用いて、関連性のない情報を欠くテキスト記述をフィルタリングしました。PP-SIDERについては、曖昧な名前の障害を排除しています。
重複サンプル
- 重複サンプルを検出して削除しています。

また、マルチタスクデータセットのデータ分割には、タスク間のデータ漏洩を防ぐために慎重な取り扱いが必要です。例えば、FSとRSは逆タスクであり、学習セットにあるFSサンプルとテストセットにあるRSサンプルが同じ化学反応である場合、データ漏洩が発生し評価が偏る可能性があります。そのため、関連タスク（FSとRS、MCとMG、および4つのNCタスク）間で同じ分子/反応に対応するサンプルペアを特定し、それらを学習セットまたは評価セットにまとめて配置しています。

同じ入力を持つが異なる出力を持つサンプルも存在します。例えば、RSタスクでは、同じ生成物（同じ入力）が複数の反応物セット（異なる出力）から合成されることがあります。これらのサンプルが学習セットとテストセットの両方に配置されると、結果が誇張される可能性があります。そのため、同じ入力を持つサンプルはテストセット内外のどちらかにまとめて配置しています。

また、Mol-instructions（Fang et al., 2023）と公平に比較するため、両データセット間で共有されるタスク（MC、MG、FS、RS）については、その学習データをテストセットに含めず、直接評価できるようにしています。これらの制限を適用した後、サンプルは学習、検証、テストセットにランダムに分割しています。ただし、PPタスクのサンプルは標準的方法（Wu et al., 2018）に従ってスキャフォールド分割しています。

さらに、命令チューニング用のクエリ応答テキストペアを作成するため、クエリと対応する応答を含むテンプレートを手動で作成し、GPT-4を用いて言い換えています。また、すべてのSMILES表現を標準化し、データフォーマットを統一しました。

また、自然言語テキスト以外にも多種類のシーケンス（SMILES、分子式、数値など）を含むデータセットを考慮し、対応するセグメントをカプセル化するために特殊タグを使用しています。（例：<SMILES>...</SMILES>、<MOLFORMULA>...</MOLFORMULA>、<NUMBER>...</NUMBER>）。このデザインは、モデルに情報タイプを明示的に伝え、評価時の答え抽出を容易にすることができます。なお、下図は、SMolInstructに含まれる分子の統計分布です。

実験概要

この論文で提案している「SMolInstruct」データセットを使用し、ベースモデルをファインチューニングすることで、化学タスクを実行できる大規模言語モデルを作成しています。このモデルを「LlaSMol」（小分子に対する大規模言語モデル）と名付けています。次の4つの異なる大規模言語モデルをベースモデルとしています。

Galactica 6.7B (Taylor et al., 2022): 科学用途向けに学習され、化学関連データに既に触れている
Llama 2 (Touvron et al., 2023b) 7B: 汎用の大規模言語モデル
Code Llama (Roziere et al., 2023) 7B: Llama 2に基づき、コードのために学習されている
Mistral (Jiang et al., 2023) 7B: 汎用の大規模言語モデル

これらのモデルにSMolInstructデータセットを用いた命令チューニングを行い、結果として得られたモデルをそれぞれLlaSMolGalactica、LlaSMolLlama 2、LlaSMolCode Llama、LlaSMolMistralとしています。

また、ここで構築したLlaSMolモデルを2種類のモデルと比較しています。1つは、SMolInstructでファインチューニングされていない大規模言語モデルです。4つのベースモデル（Galactica、Llama 2、Code Llama、Mistral）に加え、現行の最先端の大規模言語モデルであるGPT-4（OpenAI, 2023）、最新のClaude 3 Opus（Anthropic, 2024）と比較しています。Llama 2、Code Llama、Mistralについては1ショット、GPT-4およびClaude 3 Opusについてはゼロショット設定での結果を調査しています。また、化学タスク専用に調整されたMolinst（Fang et al., 2023）およびChemLLM（Zhang et al., 2024）とも比較しています。

2つ目は、SoTAのタスク専用モデルです。NC-I2SおよびNC-S2Iについては、SMILES-IUPAC名前対データで学習されたSTOUT（Rajan et al., 2021）と比較しています。NC-S2Fについては、RDKit（RDKit, 2023）を用いてプログラムを実装し、その結果を報告しています。NC-I2Fについては、STOUTとRDKitを組み合わせたベースラインSTOUT+RDKitを構築しています。PPタスクについては、分子3D表現を組み込み、事前学習およびファインチューニングのパラダイムに従うUni-Mol（Zhou et al., 2023）と比較しています。

MCおよびMGについてはMolT5（Edwards et al., 2022）と比較し、そのリリースされたチェックポイントを使用しています。FSおよびRSについては、RSMILES（Zhong et al., 2022）およびMolecular Transformer（Schwaller et al., 2019）を再学習し、2つのタスクに適応したトランスフォーマーエンコーダ-デコーダモデル（Vaswani et al., 2017）を使用します。

過去の研究で一般的に使用されている次の評価指標を採用しています。

完全一致（EM）：ゴールドスタンダードと完全に一致する予測結果の割合
フィンガープリントベースのタニモト類似度（FTS）：モーガンフィンガープリントのタニモト類似度を用いて分子間の構造的類似性を定量化
METEORスコア：MCにおいて完全一致と意味的類似性の両方を考慮する包括的なテキストベースの指標
平均二乗誤差平方根（RMSE）：PP-ESOLおよびPP-Lipoの予測値と実際の値の平均二乗誤差の平方根
精度（Acc）：二項分類タスク（PP-BBBP、PP-ClinTox、PP-HIV、およびPP-SIDER）の正しい予測の割合
有効性（Valid）： SMILES出力を伴うタスク（NC-I2S、MG、FS、およびRS）でSMILES文法および化学価則に従う有効な予測の割合

実験結果

ここでは主な実験結果を紹介しています。全ての大規模言語モデルの中で、LlaSMolモデルが最も優れた性能を示しています。これは、提案するSMolInstructデータセットとファインチューニングの有効性を示しています。特に、ベースモデル（Galactica、Llama 2、Code Llama、およびMistral）と比較して、LlaSMolモデルは大幅に性能が向上しています。これは、分子表現とタスク関連知識の理解を深めるSMolInstructの有効性を示しています。さらに、LlaSMolは全てのタスクでGPT-4を大幅に上回り、ほとんどのタスクでClaude 3 Opusも超えた性能を示しています。また、化学指示データで学習された他の2つの化学大規模言語モデル（ChemLLMおよびMolinst）を上回る結果を示しています。特に、同じベースモデルとLoRA設定を使用するMolinstに対しても、共有学習タスク（MC、MG、FS、およびRS）で優位性を示しています。

また、4つのLlaSMolモデルは、それぞれの性能に大きな違いを示しており、ベースモデルが下流タスクに与える影響の大きさを強調しています。同じ学習および推論設定、そして比較可能なモデルサイズを共有しているにもかかわらず、LlaSMolMistralは一貫してLlaSMolLlama 2を大幅に上回り、Mistralの化学タスクにおける潜在能力を示しています。また、LlaSMolCode LlamaはほとんどのタスクでLlaSMolLlama 2を上回り、Code Llamaのプログラム言語知識と分子表現の間の相乗効果を示唆しています。さらに、LlaSMolGalacticaは多くの場面でLlaSMolLlama 2およびLlaSMolCode Llamaを上回り、化学関連の文書に基づく事前学習の利点を示しています。

LlaSMolモデルはSoTAモデルを上回ることはありませんが、さらなる改善の可能性を示しています。具体的には、LlaSMolMistralはPP-ClintoxおよびPP-SIDERでSoTAモデルを上回っていますが、他のタスクではまだ成功していません。しかし、LlaSMolは、以前の取り組み（Fang et al., 2023; Zhang et al., 2024）と比較して、LLMとSoTAタスク専用モデルの間の性能ギャップを大幅に縮めています。

特に注目すべきは、LlaSMolMistralがそのパラメータのわずかな割合（41.9M、パラメータの0.58%）のみをファインチューニングしてこの性能を達成していることです。学習可能なパラメータの数を増やすことで性能が大幅に向上する可能性があるため、LlaSMolMistralはより広範なファインチューニングを通じてタスク専用モデルを上回り、化学アプリケーションのための強力な基盤モデルとして機能する潜在能力を持っていると言えます。

以上が、SMolInstruct上での異なるモデルの主な性能結果です。各モデルの詳細な比較と考察を通じて、この論文が提案するデータセットとファインチューニングの優れた有効性が確認されています。

まとめ

大規模言語モデル（LLM）は多用途なアシスタントとしての可能性を示していますが、化学関連のタスクにおいてはその性能が依然として低いままです。この問題に対処するために、この論文では、「SMolInstruct」という大規模で包括的かつ高品質な命令チューニングデータセットを紹介しています。このデータセットは、現実世界のアプリケーションに非常に関連する14のタスクで構成されており、厳選された300万以上のサンプルが含まれています。

SMolInstructを使用して、化学タスクを実行するための大規模言語モデルであるLlaSMolを開発しました。実験結果では、LlaSMolが既存の大規模言語モデルよりも優れた性能を示し、SMolInstructが性能向上において重要な役割を果たしていることが確認されています。

しかし、いくつかの限界も明らかになっています。まず、分子キャプション（MC）と分子生成（MG）のタスクの評価は、化学的に正しい説明や分子を生成するモデルの能力を正確に評価できません。これは、分子の説明の定義が曖昧であり、利用可能なデータが限られているためと考えられます。また、この論文では、学習したタスク以外のモデルの一般化能力については検証されておらず、今後の研究課題とされています。

また、この論文が開発したモデルは依然として最先端（SoTA）のタスク専用モデルを上回ることはできていません。これは、学習可能なパラメータの割合が少ないことや、最適でない学習手順が原因である可能性があると考えられます。しかしながら、品質が高い命令チューニングデータセットを提案し、その有効性を実証しています。このデータセットとモデルにより、将来の研究に役立つ深い洞察が示唆されています。

今後の研究では、これらの課題に対処し、さらに性能を向上させるための取り組みを進められていくことが期待されます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。