人間とAIの協力で知識グラフが進化！新しいリンク予測技術『KG-HAIT』の全貌

Neural Network 2024年11月01日

3つの要点
✔️ 知識グラフ埋め込み（KGE）モデルにおける人間とAIの協力の重要性。
✔️ 人間設計の動的プログラミング（DP）を用いた人間洞察特徴（HIF）ベクトルの生成。
✔️ KG-HAITシステムによるリンク予測タスクの性能向上とトレーニング効率の改善。

Harmonizing Human Insights and AI Precision: Hand in Hand for Advancing Knowledge Graph Task
written by Shurong Wang, Yufei Zhang, Xuliang Huang, Hongwei Wang
(Submitted on 15 May 2024)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

知識グラフ（KG）は、その表現力を活かして関係発見、質問応答、推薦システムなど、さまざまな分野で応用されています。しかし、その巨大なスケールにもかかわらず、KGは本質的に不完全であり、手動で知識を収集することは決して十分ではありません。このため、KGを拡充するための追加情報を発掘する戦略として知られる知識グラフ完成（KGC）が注目を集めています。そして、KGCの核心であるリンク予測（LP）は、既存の知識に基づいて新しい信頼性のある知識を抽出することに専念しており、機械学習（ML）技術によって大きく促進されています。

この論文では、知識グラフ埋め込み（KGE）の分野で先端を行く技術と人間の洞察力を融合させることで、LPタスクの性能向上を図る新しいアプローチを提案しています。具体的には、完全に人間が設計した動的プログラミング（DP）を利用して知識グラフの構造的特徴と意味的類似性を捉える人間洞察特徴（HIF）ベクトルを生成し、これをKGEモデルのトレーニングに組み込むことで、モデルの精度と収束速度を大幅に向上させました。

このアプローチは、AIの計算力と高精度の能力を活かしつつ、人間の概念的な分析能力や創造力を活用することで、従来のLP方法が抱える限界を克服することを目指しています。論文の結果は、さまざまなベンチマークにおいて顕著な改善を示しており、KG分析技術のさらなる探求と革新の可能性を示唆しています。これにより、AIと人間の協力によるより効果的で洞察に富んだ知識グラフの解析手法の開発に向けた新たな道が開かれることが期待されます。

提案手法(KG-HAIT)

本研究では、人間とAIの協力によるリンク予測（LP）を目的とした新しいシステム「KG・HAIT」を提案します。このシステムは、人間の洞察力を活用して知識グラフ（KG）の特徴を抽出し、それをAIモデルのトレーニングに組み込むことで、パフォーマンスを向上させます。提案手法は以下の3つの主要な部分で構成されています（図2参照）。

1. 人間洞察特徴ベクトル（HIF・entity）の構築

まず、完全に人間が設計した動的プログラミング（DP）を利用して、各エンティティ周辺のグラフ構造情報を集約し、HIF・entityを生成します。これにより、エンティティの局所的なサブグラフ特徴と意味的類似性を捉えることができます。DPの計算プロセスは以下の通りです。

・初期化ステップでは、各エンティティの周囲の出入エッジの重みを計算します。
・続くステップでは、エンティティの近傍との相互作用を繰り返し、各エンティティの最終的なHIF・entityを得ます。

詳細な計算手順はアルゴリズム1に示されています。

2. 次元削減

次に、HIF・entityの次元を調整して任意の次元数に合わせるための変換行列を見つけます。具体的には、HIF・entityのペアごとのコサイン類似度を保ちながら次元を圧縮します。これにより、元の高次元空間での情報を保ちながら、AIモデルが使用できる低次元ベクトルに変換します。

3. 人間洞察特徴ベクトル（HIF・relation）の構築

HIF・relationの構築は難しいため、HIF・entityとAIモデルそのものを利用します。具体的には、HIF・entityで初期化されたKGEモデルを複数エポックにわたってトレーニングし、その結果として得られる関係埋め込みベクトルをHIF・relationとします。これにより、関係埋め込みは人間の洞察を反映し、AIモデルのトレーニングを円滑に進めることができます。

提案手法により、KG・HAITはリンク予測タスクにおいて顕著な性能向上を実現し、人間の洞察がKGEモデルのトレーニングに与える影響を示しています。

実験

実験の詳細

本研究では、提案したKG・HAITシステムの有効性を評価するために、FB15k・237、WN18RR、およびLastFM・9の3つのデータセットを使用しました。各データセットの詳細は以下の通りです（表II参照）。

・ FB15k・237: FreeBaseから抽出され、テストリーク問題を回避するために改良されたデータセット。
・ WN18RR: WN18を基に構築され、テストリーク問題が修正されたデータセット。
・ LastFM・9: オンライン音楽プラットフォームlast.fmから収集された音楽リスニングデータセット。

各データセットのエンティティ、関係、およびトリプルの数は表IIに示されています。

実験では、3つのKGEモデル（TransE、TransH、TransR）を使用し、提案したHIFを適用した場合としない場合の比較を行いました。すべてのモデルはPyTorchで実装され、NVIDIA GeForce RTX 3090 GPU上でトレーニングされました。トレーニングはミニバッチ（バッチサイズ2000）で行われ、オプティマイザとしてAdamを使用しました。ハイパーパラメータはグリッドサーチで選択されました。

結果

1. リンク予測: HIFを適用した場合、すべてのKGEモデルで大幅な性能向上が見られました。表IIIは、HIFの有無による各モデルの結果を示しています。特に、MR（平均ランク）が平均で42.8%減少し、H@1（ヒット@1）がWN18RRで約4倍、LastFM・9で平均44%、FB15k・237で20%以上向上しました。

表IIIは、 HIFを適用した場合としない場合のTransE、TransH、TransRモデルの結果です。

2. 意味的類似性: HIFがエンティティの意味的類似性を捉える能力を持つことを実証しました。

図1は、同じタイプのエンティティが似たサブグラフ構造を示す例を示しています。選択された2つのエンティティタイプ（国/地域と教育機関）の間のコサイン類似度を計算し、その結果を混同行列として図4に示しています。

国/地域内の平均類似度は71.36%、教育機関内の平均類似度は72.30%でした。

3. 収束率: HIFを適用したTransEモデルは、収束速度が大幅に向上しました。

図5は、LastFM・9データセットでのH@10とMRのエポックごとの変化を示しています。H@10の指標では、HIFを適用したTransEは最初の100エポックで急速に成長し、200エポック後に収束しました。一方、HIFなしのTransEは400エポックまで収束の兆候を示しませんでした。

考察

実験結果は、KG・HAITシステムがリンク予測タスクにおいて顕著な性能向上をもたらすことを示しています。特に、人間の洞察がエンティティの意味的類似性を捉える能力があり、それがKGEモデルの性能向上に寄与していることが分かりました。また、収束速度の向上により、トレーニング効率も大幅に改善されました。今後の研究では、より高度なモデルへの適用やHIFベクトルの詳細な解析を通じて、人間とAIの協力メカニズムをさらに深く探求する予定です。

結論

本研究では、人間の洞察とAIの計算力を融合させた新しいリンク予測システム「KG-HAIT」を提案しました。KG-HAITは、人間が設計した動的プログラミング（DP）を利用して知識グラフ（KG）のサブグラフ特徴と意味的類似性を捉える人間洞察特徴（HIF）ベクトルを生成し、これをKGEモデルのトレーニングに組み込むことで、リンク予測性能の向上を図ります。実験結果から、HIFは複数のベンチマークデータセットにおいてモデルの精度を大幅に向上させ、トレーニングの収束速度も加速することが確認されました。

今後の展望としては、まず、KG-HAITの適用範囲を広げ、より高度で複雑なKGEモデルへの適用を目指します。また、HIFベクトルの詳細な解析を行い、その性能向上のメカニズムを明らかにすることが重要です。さらに、人間とAIの協力を深化させ、より効果的かつ洞察に富んだ知識グラフ解析手法の開発を推進します。これにより、データマイニング、意思決定、推薦システムなど、多様な分野での応用が期待されます。最終的には、人間とAIが緊密に協力する新しいシステムを構築し、知識グラフタスクのさらなる進展に貢献したいと考えています。