最新AI論文をキャッチアップ

香りの科学、グラフニューラルネットワークを活用した混合物の香り予測モデルの提案

香りの科学、グラフニューラルネットワークを活用した混合物の香り予測モデルの提案

chemistry

3つの要点
✔️ グラフニューラルネットワークを活用した混合物の香り予測モデルを提案、公開
✔️ GoodScentsのデータセットを用いた16万以上の分子ペアのデータ収集と分析
✔️ モデルの高精度な予測性能を検証し、香りのデザインの新たな可能性を示唆

Olfactory Label Prediction on Aroma-Chemical Pairs
written by Laura Sisson, Aryan Amit Barsainyan, Mrityunjay Sharma, Ritesh Kumar
(Submitted on 26 Dec 2023 (v1), last revised 5 Jun 2024 (this version, v2))
Comments: Published on arxiv.

Subjects: Machine Learning (cs.LG); Chemical Physics (physics.chem-ph); Quantitative Methods (q-bio.QM)

code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

私たちの日常生活には、食べ物、飲み物、衛生用品など、香りを活用されているもので溢れています。しかし、これらの香りの分子を設計したり、希望通りの香りを作り出すには、非常に手間がかかり、時間がかかります。香りに関する研究分野では、香り分子に関する説明可能な特徴を探し出し、それを利用して香りを予測する研究が進められています。しかしながら、化学の世界は非常に広大であり、約1060個もの分子が存在すると言われています。つまり、それだけ、予測対象となる分子の候補があるということです。

香り分子の予測において、研究者たちはこれまで芳香族性や、そのほか特定の官能基など、特定の分子構造に基づいて、香りの分子を特徴づけていました。そして、これらの手法は、DREAM Olfactory Challengeなどのベンチマークで一定の成功を収めていました。しかし、現在では、グラフニューラルネットワーク(Graph Neural Network、GNN)が利用されるようになり、その予測性能は大幅に向上しています。

最近では、人手による特徴抽出ではなく、確率論的な手法やディープラーニングが主流になっています。分子をグラフィカルまたはテキストで表現する新しい機械学習の手法が登場し、分子特性予測、新規分子設計など、新しい薬や素材の開発分野が著しく進化しています。そして、2022年にLeeらは、グラフニューラルネットワークを用いて高精度で香りのラベルを予測し、各分子のベクトル埋め込み表現から「香りマップ(Odor Map)」を構築しています。このような香りのラベルを予測する技術やデータセットの進歩によって、研究者たちは、香りと分子構造の関係について、より深い洞察を得ることができるようになっています。

しかし、この分野の研究は、単一の分子の予測に限定されています。実用上では、多くの食品や衛生用品では、分子が混合されることがほとんどです。そして、香り分子の混合物における非線形で複雑な関係は、まだ解明されていません。この論文では、グラフニューラルネットワークを適用し、香りの分子の混合物のベクトル埋め込みを生成する新しい技術を提案しています。

これまでは化学分野で利用されているグラフニューラルネットワークは特定の予測に特化したモデルがほとんどであるため、タスクに応じて、様々なアーキテクチャを探索する必要がありました。この論文では、グラフニューラルネットワークを、単一の分子に対する予測タスクから、分子の混合物に対する予測タスクまで応用可能と進展させています。

この論文によって、香りと分子構造の関係をさらに深く理解され、香りのデザインにおける新たな可能性が広がることが期待されます。

データセットとモデル

香り分子の混合物のデータセットを構築するために、GoodScentsのオンライン化学リポジトリから分子構造(SMILES形式)と香料のラベルを収集しています。GoodScentsのウェブサイトには約3,500の分子がカタログ化されており、それぞれの香りの分子には、特定の香りを持つ補完的な香料(ブレンダー)が提案されています。これにより、独特の香りを作り出す分子の組み合わせを見つけることができます。このようにして、16万以上の分子のペアのデータを収集しています。

PythonのBeautifulSoupを使用して、GoodScentsの香料の名前、匂いのラベル、提案されているブレンダーを解析するクローラーを作成しています。SMILESの記載がない場合や解析できないデータは除外しています。なお、このような不正確なデータは全体の0.05%に過ぎないため、削除しているとしています。

データベース内のすべての分子のペアはメタグラフを形成し、各ノードは分子グラフで、ノード間のエッジはブレンドのラベルを示しています。学習データとテストデータを分離するために、メタグラフを2つのコンポーネントに分割しています。各コンポーネントにはすべてのラベルを網羅するデータが含まれている必要があり、さらに、使用可能なデータの量を最大化するためにエッジ数を最小限に抑えています。

生成されたデータセットには109個の匂いのラベルが含まれています。中にはラベルのないペア(「これらに対してラベルが見つかりません」というマーク)が含まれており、これらのラベルのないペアは削除されています。また、「anisic」はより一般的な「anise」に置き換え、「medicinal,」(末尾のカンマ付き)は「medicinal」に修正し、「corn chip」は「corn」に置き換えています。これらの修正により、最終的に104個のノートが得られています。さらに、提案モデルの転移学習の能力を調べるために、LeffingwellとGoodScentsから単一の香りの分子のデータを取得し、統合して利用しています。

メタグラフをランダムに分子のセットに分割して、学習データとテストデータに分割しています。この切り分けは、すべてのラベルに対して少なくとも1つの学習データとテストデータが生成されるまで繰り返されています。学習データとテストデータの匂いのラベルの分布と、全体のグラフの分布との間のカルバック-ライブラー発散を使用して、グラフの切り分けをスコアリングしているものの、これらの類似性よりも使用可能なデータ数を最適化することを優先しているとしています。最終的に44,000個の学習ペアと40,000個のテストペアが得られ、83,000個のデータが削除されています。109個の匂いラベルのうち、切り分けに十分な分子に現れたのは74個のみとされています。

そして、匂いの予測に最適なモデルを特定するために、切り分けた学習およびテストのコンポーネントに対してさまざまな実験を実施しています。実験手順の概要は下図のとおりです。これにより、効率的にデータを収集・解析し、モデルの性能を検証するための確固たる基盤を構築しています。

図(a、b)では、香りを構成する分子の特性と、その混合の非線形な関係を示しています。同じ分子が単一および混合のデータセットに現れますが、分子が組み合わさることで新たな香りのノートが生じたり、他のノートがブレンド内で弱まったりしています。

図(c)では、混合のメタグラフの最も密集した領域のサンプルを示しています。ここでは、メタグラフのノードの0.5%が視覚化されており、7つの学習分子(青)と7つのテスト分子(赤)が表示されています。平均次数は6で、各分子に多くのデータ/エッジが存在するため、メタグラフは非常に密で、切り分けが難しくなっています。

図(d)は、グラフ切り分けの概要を可視化しています。分割のアルゴリズムは、ラベルの分布シフトを引き起こさずに、使用可能なペアの数を最大化することを目指しています。

図(e、f)は、実験の概要です。(e)はこの論文で使用された全体の最適化および学習パイプライン、そして、(f)は、ハイパーパラメータの最適化に使用された50:25:25の学習/テスト/検証の5分割の様子を表しています。

図(g)では、単一の匂い分子に対するグラフニューラルネットワークの予測の様子を示しています。分子グラフ全体にメッセージパッシング層が適用され、その後、リードアウト層と多層パーセプトロン(MLP)を経て最終ラベルを予測します。図(h)は混合のペアに対するMPNN-GNNの予測の様子を表しています。分子グラフは1つのグラフとして扱われ、図(g)と同様にリードアウト層と多層パーセプトロンが適用されます。最後に図(i)は混合のペアに対するGIN-GNNの予測の様子を表しています。分子グラフは別々にメッセージパッシング層およびリードアウト層を経て、多層パーセプトロンに結合されています。

さらに、香り分子のペアからブレンドされた香りのラベルを予測するために、さまざまなグラフニューラルネットワークを学習しています。ここて利用しているモデルは、主に2つのアーキテクチャから派生たものです。

まず、新しいグラフ同型ネットワーク(Graph Isomorphism Network、GIN)をベースにモデルを開発しています。このモデルは、各分子ペアの分子ごとに独立して埋め込みを生成し、最終的にブレンドペアを予測する段階でこれらの埋め込みを組み合わせます。次に、メッセージパッシングニューラルネットワーク(Message Passing Neural Network、MPNN)をベースにモデルを開発しています。このモデルでは、分子ペアの構造を1つのグラフにまとめてから、メッセージパッシング層に入力します。

これらのモデルによって、香り分子のブレンドの予測精度が大幅に向上しています。今後もさらなる改良によって、より高精度な予測モデルの開発が期待されます。

実験

各モデルの予測能力を評価するために、匂いラベルに対してAUROCを使用しています。結果を比較するために、すべてのテストデータに対してマイクロ平均を算出しています。まず混合物のラベル予測について評価しています。MPNN-GNNは平均AUROCが0.77、GIN-GNNモデルは0.76というスコアを達成しています。また、ベースラインモデルとして、各分子ペアに対して半径4の2048ビットのモルガンフィンガープリント(MFP)を生成し、それらを連結してロジスティック回帰に入力し、混合ペアの匂いラベルを予測してます。

GIN-GNNは一部のラベルでは非常に正確に予測しましたが、その他のラベルではラベースラインと比較して大幅に劣っていることがわかりました。一方、MPNN-GNNはすべてのラベルにわたって一貫して高いパフォーマンスを示すことがわかりました。

また、単一の分子の予測タスクにおけるモデルの性能も評価しています。このタスクにGIN-GNNモデルを適応させるために、各分子のグラフレベルの埋め込みを生成し、同じ74の香りラベルを予測するためにロジスティック回帰分類器をトレーニングしました。グラフレベルの埋め込みと元のペアレベルの埋め込みは異なる次元を持つため、アーキテクチャのMLP部分は転用できませんでした。MPNN-GNNでは、メッセージパッシングフェーズに1つの分子を入力する以外は変更が必要ありませんでした。全体のトレーニング済みアーキテクチャを再利用することができました。

単一分子タスクでは、MPNN-GNNは平均AUROCスコア0.89を達成し、GIN-GNNおよびモルガンフィンガープリントモデルはそれぞれ0.85および0.82のスコアを達成しています。すべてのモデルにおいて、単一の分子の予測タスクが、ブレンドペアの予測タスクと比較して大幅に改善したことは、単一の分子の予測タスクの方がブレンドペアの予測タスクよりもはるかに難しいことを示唆していると言えます。また、このタスクにおいて、MPNN-GNNとGIN-GNNの性能差が広がった理由として、GIN-GNNの予測層が再利用できなかったことが考えられるとしています。

まとめ

この論文では、グラフニューラルネットワークを活用して、香り分子の混合物に対する非線形で複雑な特性を正確に予測できるモデルを提案しています。このグラフニューラルネットワークは、分子の混合物だけではなく、従来の単一の分子を予測するタスクにも利用できることを示しています。また、このモデルは、この分野における研究を活発にし、さらに推し進めるためにGitHubで公開されています。

この論文の著者らは、最終的な研究目標は、様々な濃度で混ぜられた香り分子の混合物に対して連続的なラベルを予測できるモデルを作成することとしています。これによって、食品や医薬品、衛生用品など、匂いを扱うさまざまな分野で行われる匂いの活用に貢献することができると考えています。

しかしながら、この研究を実現にするために必要な匂い分子に関する公開データセットは不足しています。単一の分子でさえ、いまだに不足しているのが現状です。香料を扱う企業は、おそらく豊富な分子の混合に関するレシピを持っていると考えられますが、これらの情報は当然企業秘密であり、公開は期待できません。そこで、この論文の著者らは、公開データセットの不足を解消することも目指すとしています。

機械学習が発展し、さまざまな知覚情報のデジタル化が試みられています。その中でも匂いに関するデジタル化は遅れており、難しいものと考えられています。その応用範囲の広さからも伺えるように、人の生活において、匂いの嗜好品としての重要性は非常に高いものと考えられます。好みの匂いを嗅ぐことで、集中力が増したり、リラックスしたりします。匂いに関する公開データセットの充実と、それを活用した研究が進むことで、その解決が進むことが期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする