知識グラフとChatGPTを組み合わせた製造業サービス推薦の最前線
3つの要点
✔️ 知識グラフとLLMを統合し、製造業者の特定を迅速かつ正確に行う方法を提案
✔️ ウェブからのデータ抽出と埋め込み技術を活用し、製造サービス知識グラフを構築
✔️ 高精度なQAシステムにより、製造サービス発見の信頼性と効率を大幅に向上
Building A Knowledge Graph to Enrich ChatGPT Responses in Manufacturing Service Discovery
written by Yunqing Li, Binil Starly
[Submitted on 9 Apr 2024]
Comments: Accepted by arXiv
Subjects: Artificial Intelligence (cs.AI)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
概要
この研究では、製造システムのインテグレーターが新しい製造パートナーを特定し、サプライチェーンの多様化を通じてリスクを軽減するための知識グラフの構築方法について探求しています。製造サービス知識グラフ(MSKG)を利用して、ChatGPTの応答の精度と完全性を向上させる手法を提案しています。この研究は、北米全域の小規模製造業者のデジタルフットプリントから得られる構造化および非構造化データを統合して、製造サービス知識グラフを開発するものです。知識グラフと学習されたグラフ埋め込みベクトルを利用して、デジタルサプライチェーンネットワーク内の複雑なクエリに対応し、信頼性と解釈性を向上させます。このアプローチは、複数の業界、地理的境界、およびビジネスドメインを跨ぐ知識グラフを統合するグローバルな製造サービス知識ネットワークグラフをスケーラブルに形成できます。公開されたデータセットには、13,000以上の製造業者のウェブリンク、製造サービス、認証、および場所のエンティティタイプが含まれています。
はじめに
デジタル化の進展により、製造業はますますデータ駆動型のアプローチを採用しています。特に、製造システムの統合者は、新しい製造パートナーを特定し、サプライチェーンの多様化を通じてリスクを軽減するための効果的な手段を求めています。製造サービス知識グラフ(MSKG)は、こうしたニーズに応えるために開発されたツールであり、複雑なクエリに対する信頼性と解釈性を提供します。
製造サービス知識グラフ(MSKG)の概要
MSKGは、北米全域の小規模製造業者のデジタルフットプリントから得られる構造化および非構造化データを統合して構築されます。この知識グラフは、製造業者のウェブリンク、製造サービス、認証、および場所に関するデータを含み、これらのデータを結びつけることで、サプライチェーンの最適化とリスク管理を支援します。
図1. ChatGPTとMSKG強化ChatGPTの反応の比較 |
研究の背景と目的
本研究の目的は、MSKGを活用してChatGPTの応答の精度と完全性を向上させることです。具体的には、製造システムの統合者が直面する以下の課題を解決することを目指しています:
- 新しい製造パートナーの特定
- サプライチェーンの多様化
- リスク軽減
これらの課題に対処するために、知識グラフと学習されたグラフ埋め込みベクトルを利用します。これにより、デジタルサプライチェーンネットワーク内の複雑なクエリに対応し、信頼性と解釈性を向上させます。
アプローチのスケーラビリティ
本研究で提案するアプローチは、複数の業界、地理的境界、およびビジネスドメインを跨ぐ知識グラフを統合するグローバルな製造サービス知識ネットワークグラフの形成にスケーラブルです。このスケーラビリティにより、他の地域や業界にも適用可能であり、より広範なデジタルエコシステムの一部として機能することが期待されます。
関連研究
知識グラフ(KG)は、医学、ソーシャルネットワーク、化学などのドメイン間で概念をリンクするために使用されています。KG埋め込みモデルは、エンティティと関係を低次元ベクトルに変換し、KG構造を保持します。これらのモデルは、クラスタリングやリンク予測などの機械学習タスクに役立ちます。Mohamedらは薬物ターゲット予測とクラスタリングのための知識グラフ埋め込みを探求し、Wangらは薬剤推薦に使用しました。
構造化データからのKGの構築はよく確立されていますが、テキストやマルチメディアなどの非構造化データからの構築は、抽出の信頼性の低さやデータセットの不足のために困難です。最近の試みには、COVID-KG(科学文献からの)や中国の自動車部門のテキストからの産業KGが含まれます。ウェブサイトからの正確な情報の抽出は、ノイズや古いHTML構造のために困難です。BERTやGPT-4などの自然言語処理(NLP)およびトピックラベル生成(TLP)技術は、大規模な非構造化テキストの処理に重要です。
産業セクターにおける知識マッピングは、知識、データ、および関係を視覚化するために重要です。LangChainやLlamaIndexなどの方法は、データ処理のためにLLMを使用し、Industrial Ontologies FoundryやIndustry 4.0の製造オントロジーによるオントロジー駆動のアプローチが補完されています。これらは、製造サービス発見や機器クエリなどのサービスの基盤を形成し、産業の問題解決と意思決定を支援します。さらに、Siddharthらは特許からの工学知識の抽出に取り組んでいます。しかし、リアルタイム製造データのマッピング、統合、および分析に関する文献は不足しています。このギャップは、進化する製造データ統合のための産業知識マッピングにおける現在のLLMベースの方法の限界に起因しています。
質問応答(QA)システムは、情報検索および知識ベースの方法を組み合わせて正確な回答を提供します。知識ベースのQAはKGを使用して回答を取得し、グラフ埋め込みはKGデータをベクトルに変換し、MLおよびニューラルネットワークが推論するのを助けます。知識ベースのQAは、構造化されたコンテキストを提供するため、LLMがより正確で文脈に沿った回答を生成および解釈する能力を高めます。
最近の研究は、QAシステムの改善のためにKGとLLMの統合を強調しています。Daullらは、KGがLLMの改善とエラー削減に役立つことを探求し、TruongとColeenは正確な回答生成のためにKGを取り入れることを強調しました。Linyaoらは、KGとLLMを組み合わせることで回答の質と事実推論を向上させることを提案しました。これらの進展はQAシステムの向上と精度に有望であることを示していますが、特に製造業からのサプライソーシングの観点からこれらの方法を適用する研究は限られています。これらの統合を製造業に特化して調整することで、サービス発見とサプライチェーンプロセスの最適化を大幅に改善できる可能性があります。
アーキテクチャ
ここでは、製造サービスの発見を強化するために設計されたMSKG(Manufacturing Service Knowledge Graph)とChatGPTの統合アーキテクチャについて説明します。製造業界のクライアントとChatGPTの間のインタラクションはQAを通じて行われます。クライアントの入力質問を受け取ると、アプリケーションはOpenAI GPT-4エンドポイントに質問を転送し、グラフデータベースで使用できるクエリステートメントに変換するリクエストを行います。OpenAIエンドポイントは、MSKGから関連する製造能力を取得するためのクエリステートメントで応答します。取得されたデータは、クライアントの初期質問に対処するための包括的な回答を構築するのに役立ちます。
図2はMSKGを使用してChatGPTを強化するアーキテクチャを示します。
図2. MSKGを使ってChatGPTをリッチ化するアーキテクチャ |
さらに、MSKGは広範な製造業者のウェブサイトによってほぼリアルタイムで更新されます。製造ドメイン内でSchema.orgボキャブラリー拡張の採用により、製造業者はウェブサイトに特定の製造サービスタグを付けるHTMLタグを使用することができます。製造業者がこれらのタグをウェブサイトに追加すると、MSKGのオントロジーに関連するため、クエリ検索の結果がより最新で正確になります。
プロセスワークフロー
ここでは、MSKGを構築し、ChatGPTのQAを強化するための全体的な手順について説明します。プロセスは4つの主要な部分で構成されています。テキスト知識抽出、KG設計、グラフ埋め込み、および知識駆動のQAです。
図3はインターネット上の情報から設計された知識グラフ(KG)を通じて質問応答(QA)システムを強化するプロセスワークフローです。
図3. インターネット上の情報から、質問応答(QA)システムを強化すべく設計された知識グラフ(KG)へ |
- テキスト知識抽出:製造業者のウェブサイトやその他のデータソースから情報抽出手順を実施し、MSKGにインポートされるデータを取得します。MSKGは、Wikidataから抽出されたエンティティによって導かれたバルクインポート後に構築されます。MSKGから学習されたグラフ埋め込みベクトルに基づいて、次元削減とマルチラベル分類が実施されます。
- KG設計:4種類のノードラベルと4種類の関係ラベルを持つKGが含まれます。ノードと関係のタイプの例が示されています。
- グラフ埋め込み:グラフ埋め込み技術(Node2VecおよびGraphSAGE)を使用して、MSKGのサブグラフから埋め込みベクトルを学習します。埋め込みベクトルは、メーカー推薦とマルチラベル分類の下流タスクに使用されます。
- 知識駆動のQA:MSKGに基づくQAシステムを構築し、製造サービスの発見に関する複雑な質問に対応します。QAシステムの評価は、メーカー推薦のためのP@NおよびMRRメトリクスによって実施されます。
データ統合およびエンリッチメント
収集したデータを標準化し、統合して知識グラフを構築するためのプロセスです。このプロセスは以下の手順で行われます:
-
データ標準化:
- 異なるソースから収集されたデータを一貫した形式に変換します。これにより、データの整合性を保ちます。データ標準化では、データフォーマットの統一、単位の変換、データフィールドの統合などが行われます。例えば、日付形式の統一や数値データの単位変換などが含まれます。
-
エンティティマッチング:
- 同一エンティティに関する異なるソースのデータをマッチングし、統合します。これにより、重複データを排除し、データの完全性を向上させます。エンティティマッチングは、名前の類似性、住所の一致、製品IDの共通性などの基準を用いて行われます。例えば、異なるソースから収集された同じ製造業者のデータを一つのエンティティとして統合します。
-
エンリッチメント:
-
外部データソースから追加情報を取得し、データを豊かにします。これにより、知識グラフのノードとエッジに含まれる情報が拡充されます。エンリッチメントでは、企業の財務情報、業界レポート、特許データなどを追加します。これにより、知識グラフの内容がより詳細かつ包括的になります。
-
表1は、抽出されたエンティティタイプを示しています。
表1 抽出されたエンティティ・タイプ |
表2は、サービス抽出のサンプルを示しています。
表2 サービス抽出サンプル |
知識グラフ構築
統合されたデータを使用して知識グラフを構築します。知識グラフは、ノード(エンティティ)とエッジ(関係)から構成され、製造業者、製品、サービス、認証、地理的位置などの情報を含みます。
-
ノードの生成:
- 製造業者、製品、サービス、認証、地理的位置などのエンティティをノードとして生成します。これにより、各エンティティが個別に識別され、相互関係が明確になります。ノード生成では、データの属性を基にエンティティを識別し、それぞれを個別のノードとして定義します。
-
エッジの生成:
- エンティティ間の関係をエッジとして表現します。例えば、製造業者とその提供するサービス間の関係などです。エッジ生成では、エンティティ間の相互作用や依存関係を基に関係を定義します。例えば、製造業者AがサービスXを提供する場合、AとXの間にエッジが形成されます。
図4は、MSKGの一般的な構造を示しています。
図4. 一般的なMSKGの構造 |
表3 KGの総エンティティーと関係 |
グラフ埋め込み
グラフ埋め込みモジュールは、ノード間の関係を学習し、ノードを高次元のベクトル空間に埋め込みます。これにより、ノードの類似性を計算しやすくなり、複雑なクエリに対する応答の精度が向上します。
-
node2vecの使用:
- GroverとLeskovec(2016)の手法に基づき、ノードの近傍情報をランダムウォークでキャプチャし、埋め込みベクトルを生成します。node2vecは、ネットワーク内のノードの文脈を捉えるための手法であり、類似したノードを近接ベクトルとして表現します。これにより、ノードの特徴を効率的に学習できます。
-
グラフ畳み込みネットワーク(GCN)の使用:
- KipfとWelling(2017)の手法に基づき、ノードの特徴とその近傍情報を統合することで、予測精度を向上させます。GCNは、グラフ構造データに対するディープラーニングアプローチであり、ノードの属性と隣接ノードの情報を組み合わせて学習します。これにより、ノードの分類やリンク予測の精度が向上します。
知識駆動のQA
背景
製造サービス発見のためのQAシステムを構築するには、製造業の複雑で動的な特性に対応する必要があります。主な課題は、詳細な業界固有のデータをKGに統合し、新しい進展や市場動向を反映するために継続的に更新することです。また、製造サプライチェーン内の複雑な関係を正確にモデリングすることも求められます。製造業では高い精度と信頼性が求められ、さらに専有データへのアクセスが限られているため、効果的なQAシステムの構築は困難です。
評価方法
QAシステムの評価には、Mean Reciprocal Rank (MRR)、Precision at N (P@N)、Recall、F1スコア、および人間評価など、いくつかの方法があります。P@Nは、リコメンダーシステムが返す上位N件の回答のうち正しいものの割合を測定します。製造業者のリコメンデーションの性能を評価するために、Precision at N (P@N)指標(N=10,100,300)が使用され、システムの能力を評価します。P@Nは次のように表されます:
ここで、NrelevantN_{relevant}はトップN結果の中で対象製造業者に関連するサービスの数、NtopN_{top}はトップN結果が提供するサービスの数です。MRRもリコメンデーションの有効性を評価するために使用されます。MRRは次のように表されます:
ここで、rank_iはi番目のクエリに対する最初の関連製造業者の順位です。
これらの指標を選択する理由は、製造業者発見において正確かつ上位にランクされた回答が必要とされるためです。P@Nは上位リコメンデーションの精度を評価し、MRRは最も関連性の高い製造業者を最初に特定するシステムの効果を評価します。
QAシステムの構築
この研究では、KGの構築プロセスで使用される多くの技術を基に、製造業者のウェブサイトから取得したテキストを分類および整理するインデックスアプローチを採用しています。主な貢献は次の通りです:
-
小規模製造業者の独立したウェブサイトからドメイン固有のテキストを抽出し、それを組織化するメカニズムを提案します。これにより、技術ドメイン固有のテキストと自然に対話できるようになります。
-
継続的に進化するKGをLLMに統合し、製造能力の特定と製造業者のリコメンデーションの風景を変える新しいソリューションを提供します。
-
構造化および非構造化データソースからMSKGを効率的に構築するための、ボトムアップのオントロジー構築と高度な機械学習モデルの新しい統合を提示します。このアプローチにより、多様なデータの統合が効率化され、KGの精度と関連性が向上します。
-
デジタルサプライチェーンネットワークに関連する複雑なクエリに対処するために設計された、先進的なグラフベースのQAシステムです。KGとグラフ埋め込み技術を組み合わせることで、詳細な分析を行い、製造業のユニークな要求にカスタマイズされた高精度の類似性ベースのリコメンデーションを実現します。
システムのパフォーマンス
図5は、MSKGとChatGPTを組み合わせて簡単な質問を解決する例を示しています。
図5. MSKGとChatGPTを組み合わせた易しいレベルの問題を解く |
図6は、MSKGとChatGPTを組み合わせて難しい質問を解決する例を示しています。
図6. MSKGとChatGPTを組み合わせたハードレベルの問題を解く |
結果
テキスト抽出結果の検証
テキスト抽出の結果では、メーカーのウェブサイトのメインページにテキスト情報が欠如しているため、負のクラスの数が正のクラスの数よりも多くなる可能性があります。ROC曲線とPR曲線を計算してモデルの信頼性を示します。ROC曲線とPR曲線は、抽出モデルが高いパフォーマンスを持つことを示しています。特に、認証抽出モデルは最も高いAUC-ROCスコアを示しており、位置情報抽出モデルは最も低いパフォーマンスを示しています。
図7:ROC曲線とPR曲線 |
特定のデータ抽出モデルの精度、再現率、F1スコアの計算のためのカットオフ値は、各データタイプに最適化されています。このアプローチにより、データ抽出の全体的なパフォーマンスが向上し、MSKGの構築に使用されるデータの信頼性が高くなります。
グラフ埋め込みとその下流タスクの結果
100次元ベクトル空間がNode2VecとGraphSAGEの埋め込み結果から得られ、次元削減のためにT-SNEが使用されました。図8と図9は、サービス関連の属性を持つメーカーのクラスタリングパフォーマンスを比較しています。GraphSAGEはNode2Vecよりも優れたクラスタリング定義を示しており、サービスの特徴をより明確に区別する能力を持っています。
図8. メーカーのサービス関連属性に対するGraphSAGEを用いたT-SNEの可視化 |
図9. メーカーのサービス関連属性に対するnode2Vecを用いたT-SNEの可視化 |
マルチラベル分類タスクでは、Node2Vec生成の埋め込みベクトルが使用されました。これらのベクトルは、MLPモデルを使用してトレーニングおよび評価されました。トレーニング精度は98.90%であり、マルチラベル予測の精度、F1スコア、再現率、および精度は、それぞれ98.72%、94.62%、99.93%、および89.85%でした。
MSKGベースのQAの評価
Appendixには、製造サービス発見に関連する質問とその対応するMSKGからの回答をGPT-4の回答と比較した詳細な分析が含まれています。シンプルな質問に対しては、GPT-4またはMSKGのどちらも回答できますが、Q13およびQ14のような複雑な質問には、MSKGとGPT-4の統合が不可欠です。
表5は、メーカー推薦の評価結果を示しています。Q13ではGraphSAGEがNode2Vecを若干上回り、Q14ではNode2Vecが優れていました。メーカーが提供するサービスの数によって、推薦機能のパフォーマンスが異なることが示されています。
表5 メーカー推奨の評価 |
ディスカッション
本研究では、メーカーのウェブサイトからの生データを収集し、4種類のエンティティタイプとその対応する関係を持つ知識グラフ(KG)を構築するボトムアップアプローチを採用しています。しかし、基本的なSEOコードが欠如しているウェブサイトがあるため、17,000社のうち13,000社以上からしか情報を抽出できませんでした。今後の課題として、MSKGの拡張と他の関連データの統合があります。
未来の研究では、現行のフレームワークを拡張し、LLMのトレーニングとプレトレーニング戦略を通じてKGコンテキストの理解を高めることを目指します、としています。
結論
この論文では、ほぼリアルタイムで更新される知識グラフ(KG)を活用して、製造サービスの特定とメーカー推薦を強化するフレームワークを紹介しました。構築されたMSKGは、製造サービスを含む4つのエンティティタイプとそれに対応する関係タイプを持ち、北米の一部の製造業者からのテキストコンテンツを含む合計13,240のエンティティと58,521の関係を持っています。
知識グラフと学習されたグラフ埋め込みベクトルは、ChatGPTのQAをサポートし、人間の自然言語とグラフクエリ言語の間の変換を活用して、製造業界のクライアントからの質問に回答するために使用されています。評価結果より、提案されたMSKGベースのQAが製造サービス発見における複雑な質問に効果的に対応できることがわかります。
MSKGの規模は、製造供給チェーンに隣接するドメインや特定の産業供給チェーンを含むように拡張できます。今後のフレームワークは、LLMと知識モデルの統合を目指し、より豊富な検索を可能にする、としています。
この記事に関するカテゴリー