「実際に合成可能な分子」を生成する画期的な分子生成モデル

論文 2019年10月07日

3つの要点

✔️分子生成を「反応物選択と反応予測の組み合わせ」として捉え直す
✔️反応物の候補から「実際に使えそうな分子」を選び、そこから合成される分子を予測する
✔️安定な分子を合成方法と共に生成することに成功

近年、AI創薬の研究の1分野として「分子生成」が活発に研究されています。これは、深層生成モデルを使って所望の性質を持つ分子を直接生成するという試みで、未発見の分子も探索範囲に入れられるという利点があります。

しかし、これまでの研究では「生成された分子をどうやって合成するか」、あるいは「生成された分子はそもそも合成可能なのか」といった問題には意識が向けられてきませんでした。

本記事では、所望の特性を持つ分子を生成するだけでなく、同時にその合成方法も出力できる画期的な研究を紹介します。なお、この論文はNeurIPS 2019に採択されています。

分子生成を「反応物選択と反応予測」として捉え直す

従来の分子生成モデルは、VAEなどで獲得した潜在空間の探索により、興味のある性質が最適化された分子を生成していました。これらのモデルでは、分子はSMILESと呼ばれる文字列表現や、原子をノード、結合をエッジとするグラフ表現として生成されます。ただし、生成されたSMILESやグラフが分子として正しい形になるとは限りません。例えば、炭素原子Cから手が5本以上生えている分子は結合価を守っていないので「無効な分子」とされます。

したがって、分子生成モデルの性能評価には、「生成したSMILESやグラフのうち、有効な分子を生成できた割合」（validity）が使われていました。しかし、「理論的に有効な分子」が必ずしも実際に合成できるとは限りません。例えば、左のベンゼンは有効かつ安定に存在する一方、右の立方体の構造を持つオクタニトロキュバンは有効であっても不安定です。

PubChemの図を改変

このように、分子生成タスクでは「実際に合成可能かどうか」を考慮できていないという問題がありました。

そこで本論文では、分子生成タスクを、「反応物候補から実際に使う反応物を選択するタスク」と「反応物が化学反応してできる生成物を予測するタスク」に分解して考えます。そして、前者を担うモデルとしてMolecule Chefを提案します。Molecule Chefを既存の反応予測モデルと組み合わせることで、より合成可能な（安定な）分子を生成できるようになります。