ウェブサイトと視聴者の関係をプロファイリングすることで、フェイクニュースとポリティカルバイアスの検出が可能に！

GNN 2023年04月12日

3つの要点
✔️ ウェブサイト間の視聴者の重なりをモデル化することで記事の事実性とポリティカルバイアスを予測するグラフ学習モデルを提案
✔️ Alexaを用いることで、ウェブサイトと視聴者の関係を表した大規模グラフを作成
✔️ 2つの標準的なデータセットにおいて、既存モデルと比較して大幅な精度改善を達成

GREENER: Graph Neural Networks for News Media Profiling
written by Panayot Panayotov, Utsav Shukla, Husrev Taha Sencar, Mohamed Nabeel, Preslav Nakov
(Submitted on 10 Nov 2022)
Comments: Accepted by ACL 2022
Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

SNSが急速に普及した現代において、フェイクニュースがもたらす社会への影響は甚大なものになっており、近年こうした悪質なフェイクニュースの検出はさらに注目を浴びています。

しかし、テキストに焦点を当てた研究はたくさん行われてきた反面、個々のテキストや記事ではなく、メディア全体をプロファイリングする研究はほとんどされてきませんでした。

本稿では、フェイクニュース検出に対してより粗い粒度での解決策を提案し、ニュースメディア間の関係を視聴者の重なりからモデリングを行い、3種類のグラフ学習モデルを用いてプロファイリングする手法であるGREENER(Graph Networks for News Media Profiling)を提案した論文について解説します。

フェイクニュースの研究の歴史

前述した通り、既存のフェイクニュース検出タスクでは、主に自然言語処理の技術を用いたテキストコンテンツの分析に焦点を当てていました。

こうしたテキストに基づく手法は、文脈を考慮した記事の分析を行うことには役立ちますが、その記事で述べられている主張の信憑性を検出することは難しく、state-of-the-artのモデルを使用してもデータセットによっては事実性(その記事が正しいかどうか)の検出については65〜71%、ポリティカルバイアス(特定の政治的立場に偏った言動)の検出については70〜80%程度の予測精度しか達成できないという問題点がありました。

このような背景から、ソーシャルメディアプラットフォームにおけるフェイクニュースの検出に対して、ニュースメディアのフォロワーの情報を取得・比較し、これらのフォロワーが対象となるニュースメディアのコンテンツに対してどのようなコメント・投稿で反応するかをプロファイリングすることによってニュースメディア間の類似性を予測するというアプローチがいくつか提案されてきました。

これらの研究は、あるグループの人物があるウェブサイトに共通の関心を持っている場合、それらのウェブサイトは何らかの点で類似しているはずだという考えに基づいており、事実性の低いウェブサイトを検出するためにテキストや視覚的な特徴だけでなく、対象となるウェブサイトのネットワーク・デザイン・データに関連する特徴を用いることで、より包括的な分析が可能になります。

本論文ではこうした手法を発展させ、Alexaの機能であるAlexa siteinfo toolに基づいた大規模モデルと3種類のグラフ学習手法により視聴者の類似性をモデリングすることを提案しました。

GREENER - Graph Neural Networks for News Media Profiling

本論文でグラフの作成に用いたAlexa siteinfo toolは、対象となるウェブサイトのアドレスを入力すると、視聴者の重複度に基づいて入力されたウェブサイトに対して類似度が高い4〜5つのサイトのリストを返すツールです。

例としてwsj.comというウェブサイトのアドレスを入力すると、{ marketwatch.com 39.4 cnbc.com 39.4 bloomberg.com 35.9 reuters.com 34.5 }といったように類似のサイトとその類似スコアを得ることができます。

本論文では、これらのウェブサイトのペアと重複スコアを用いて、ウェブサイトをノード、2つのウェブサイトの視聴者の重複関係とその度合いをエッジで表現することで下図に示すようなグラフを作成しました。

これらのグラフは、サイトの情報の事実性を確かめるサービスにより手動で分類されたリストを用いて作成されており、ウェブサイト間の関係をより詳細に識別するために、上記のような初期グラフを基に前述したステップを繰り返すことで新たなノードとエッジを追加する拡張を行いました。

その結果、下図に示すような各ウェブサイトと視聴者の関係を表した大規模グラフが得られました。(赤が事実性が低いサイト、緑が事実性が低いサイト、白が事実性が曖昧もしくは不明なサイト)

上記の大規模グラフより、事実性が高いサイトと低いサイトが明確に区別できるような分布になっている事が確認できます。

グラフ上の表現学習

本論文では、上述した大規模グラフのノードとエッジの表現を学習する事を目的に、以下の3つのモデルを用いて実験を行いました。

Node2Vec: 最も初期のグラフ学習フレームワークの一つであり、各ノードに対して固定した最大長のランダムウォークをサンプリングしてグラフ用のシーケンスを生成するモデル
Graph Convolutional Networks(GCN): グラフニューラルネットワークモデルの1つであり、Node2Vecがグラフ構造のみに基づく埋め込みを行うのに対し、GCNは全ての隣接するノードに対して畳み込み演算を行う事で、グラフ構造とノード・エッジの両方に対して埋め込みを行う事ができる。
GraphSAGE: グラフニューラルネットワークモデルの1つであり、GCNとは違いサンプリングされた隣接ノードのサブセットのみに対して畳み込み演算を行う。

これらの3つのグラフ表現学習アルゴリズムを用いて、グラフの各ノード(ウェブサイト)の低次元ベクトル表現(Node2Vecは512、GCNとGraphSAGEは128)を得る事ができました。

実験と評価

本論文ではデータセットとして、既存研究で使用されているEMNLP-2018(Baly et al., 2018)とACL-2020(Baly et al., 2020)の2つのデータセットを用いて、本実験で得られたモデルと既存モデルの比較実験が行われました。

どちらのデータセットも事実性やポリティカルバイアスに関するラベル付けがされており、事実性に関しては記事の正当性を基にhigh, mixed, lowの3段階に、ポリティカルバイアスに関してはlift, centre, rightの3段階に分類されています。

また、上述した3つのモデルの個別およびモデル同士の組み合わせでの予測精度を評価するために、five-fold cross-validationを採用し、ノード埋め込みと事実性・ポリティカルバイアスのラベルを用いて評価を行いました。

EMNLP-2018を用いた事実性を予測するタスクの実験結果を下図に示します。

このように、3種類のモデルはすべて既存モデルよりも良い精度を出しており、特に3つのモデルを組み合わせることでより高い予測精度が得られることが確認できました。

続けて、EMNLP-2018を用いてポリティカルバイアスを予測するタスクの実験結果を下図に示します。

こちらではNode2Vecが他の2つのGNNモデルよりも良い精度になりましたが(これはノードのスパース性が原因と考えられる)、事実性の予測と同じく3つのモデルの組み合わせが最も高い予測精度を得る結果となり、本手法の有効性を立証する結果となりました。

まとめ

いかがだったでしょうか。今回は、ウェブサイトと視聴者の関係を表した大規模グラフを作成し、ニュースメディア間の視聴者の重なりをモデル化することで記事の事実性とポリティカルバイアスを予測するグラフ学習モデルを提案した論文について紹介しました。

今回の実験では、あるウェブサイトに対して類似度が高い上位5つのウェブサイトのみに限定していることや、視聴者数が少ないサイトに対しては誤差が生じやすいといった問題もあり、これらを改善することでより良い結果が得られる可能性があります。

また、本実験ではウェブサイトのみ焦点を当ててグラフを作成しましたが、TwitterやFacebook、YouTube、Wikipediaなどの様々なメディア媒体に対して有効であると考えられ、これらを統合したより大規模なグラフを作成する事も視野に入れていると述べられているため、今後の動向に注目です。

今回紹介したモデルのアーキテクチャや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。