観光産業に特化したBERTモデル、TourBERTが登場！

BERT 2023年01月23日

3つの要点
✔️ 世界20ヵ国以上の360万件の観光レビューと約5万件の観光サービスやアトラクションの説明文に対して事前学習を実行
✔️ WordPieceトークナイザーを使用したBERT-Baseアーキテクチャ＋BERT-Baseと同じ語彙サイズでクローリングした観光特有の語彙を用いて1MステップでTourBERTをゼロから学習
✔️ 定量的および定性的な評価により、全てのタスクでBERT-Baseを上回る結果が得られた

TourBERT: A pretrained language model for the tourism industry
written by Veronika Arefieva, Roman Egger
(Submitted on 19 Jan 2022 (v1), last revised 19 May 2022 (this version, v3))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

BERT(Bidirectional Encoder Representations from Transformers)は、Googleが2018年に発表して以来最も重要な自然言語モデルであり、事前学習とファインチューニングにより、テキスト分類・質問応答・感情分析・要約などの多数のタスクを実行することができます。

加えて、BERTの事前学習時に大規模なドメイン固有のコーパスで事前学習することが有効であることが既存研究で明らかになっており、金融分野(FinBERT)、医療分野(Clinical BERT)、生物医学分野(BioBERT)、生物医学とコンピュータサイエンス分野(SciBERT)など、様々なBERTの派生モデルが開発されてきました。

本稿で紹介するTourBERTは、世界20ヵ国以上の360万件の観光レビューと約5万件の観光サービスやアトラクションの説明文に対して事前学習を行うことで、観光産業特有の語彙を学習したBERTモデルになります。

観光産業の時代背景

観光産業は世界で最も重要な経済分野の一つであり、そのサービスには他の産業と異なる多くの特徴が知られています。

例として、観光産業におけるサービスは有形ではないため、顧客はその旅行が本当に面白いかどうかを事前に検証することができないという点や、観光サービスは日常的な商品と比較して比較的高価であることが挙げられます。

また、最近ではツイッターやフェイスブック、インスタグラムのようなソーシャルメディア上で世界中の人々が自身の旅行体験を共有しており、こうした情報が他のユーザーに影響を与えていることから、このようなコンテンツを適切に運用することが観光事業者にとって特に重要になってきています。

このような背景から、自然言語処理を用いたテキストの自動解析は、学術的にも観光産業的にもその重要性を増していると言えます。

TourBERTの概要

TourBERTはBERT-Base-uncasedを基本アーキテクチャとしており、上述したFinBERTやBioBERTのような初期チェックポイントは使用されていません。

全コーパスは、データを小文字にしてから区切り符号で文ごとに分割することで前処理されており、WordPieceトークナイザーを使用したBERT-Baseアーキテクチャ＋BERT-Baseと同じ語彙サイズでクローリングした観光特有の語彙を用いて、1Mステップで事前学習を行いました。

また、本モデルはHugging Face Hubにて公開されており、以下の3行のコードを使用してTourBERTモデルとトークナイザーを簡単にロードすることができます。

BERTとTourBERTの比較実験

TourBERTを評価するために、複数の定量的および定性的な実験が実施されました。

感情分類

はじめに、旅行レビューデータセットに対するTourBERTの性能が通常のBERTよりも優れていることを実証するために、以下の2つのデータセットを用いた感情分類タスクを行いました。

Tripadvisor hotel review dataset(RAy et al. 2021): アメリカの旅行会社であるTripadvisorのホテルのレビューをまとめたデータセットであり、negative、neutral、positiveの3つでラベル付けされた合計69308件のレビューで構成されている(マルチラベル分類)
515K reviews from Europe hotels dataset: オランダの旅行会社であるBooking.comからスクレイピングしたレビューから構成されたデータセットであり、本実験ではデーセット中のnegativeまたはpositiveのいずれかのラベルをもつレビューのみを使用する(2値分類)

それぞれのデータセットの評価結果を下に示します。

表より、TourBERTは通常のBERTと比較してどちらのデータセットに対してもより良いスコアになっている事が分かります。

観光写真を用いたクラスタリング

次に、Tensorboard Projectorを用いた観光写真のクラスタリングおよびその可視化による比較実験を行いました。

622人による手動ラベリングにより、スポーツ活動・観光地訪問・ショッピングなど、様々な観光活動を示す48枚の写真のデータセットが用意され、これらを各モデルでクラスタリングした後、Tensorboard Projectorにより可視化する事で評価を行いました。

両モデルのクラスタリング結果を下に示します。(上：通常のBERT　下：TourBERT)

両者の結果を比較すると、通常のBERTを使用した結果は写真がまばらに混在しているのに対し、TourBERTを使用した際は適切にクラスタリング出来ており、同じクラスタ内の写真は類似した内容になっていることが確認できます。

同義語検索

観光関連の用語の同義語検索タスクにおいて、一般的なコーパスで学習されたBERTよりも観光に特化したコーパスで学習されたTourBERTの方が良い結果になるという仮定のもと、両モデルによる比較実験が行われました。

両モデルの検索結果は以下のようになりました。(表の1行目が検索する単語であり、類似度の高い上位8つの単語を表示しています)

通常のBERT

TourBERT

両モデルの結果を比較すると、通常のBERTは「destination(目的地)」という単語に対して「choice(選択)」、「address(住所)」、「exit(出口)」のように一般的な単語を検索していますが、TourBERTは「spot(スポット)」、「attraction(アトラクション)」、「itinerary(旅行日程)」のように観光に特化した意味を適切に捉えている事が確認できます。