以旅游为重点的BERT模型，TourBERT，就在这里!

BERT 23/01/2023

三个要点
✔️ 对来自20多个国家的360万条旅游评论和大约5万条旅游服务和景点描述进行预训练
✔️ BERT-Base架构使用WordPiece标记器+抓取的词汇量与BERT-Base相同使用旅游专用词汇
✔️ 定量和定性评估显示，它在所有任务上的表现都优于BERT-Base，从头开始训练TourBERT，共进行了100万步。

TourBERT: A pretrained language model for the tourism industry
written by Veronika Arefieva, Roman Egger
(Submitted on 19 Jan 2022 (v1), last revised 19 May 2022 (this version, v3))
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

BERT（Bidirectional Encoder Representations from Transformers）是谷歌在2018年推出的最重要的自然语言模型，它使用预训练和微调来进行文本分类、问题回答、情感分析和总结和许多其他任务。

此外，现有的研究表明，在对BERT进行预训练时，对大型特定领域的语料进行预训练是有效的，在金融领域（FinBERT）、医学领域（Clinical BERT）、生物医学领域（BioBERT）、生物医学和计算机科学领域，已经开发了BERT的各种衍生产品(SciBERT)，以及BERT的各种衍生物已经被开发出来。

本文介绍的TourBERT是一个BERT模型，它已经对全球20多个国家的360万条旅游评论和大约5万条旅游服务和景点描述进行了预训练，从而形成了一个已经学会了旅游专用词汇的BERT模型。

旅游业的历史背景

旅游业是世界上最重要的经济部门之一，众所周知，其服务具有许多区别于其他行业的特点。

例如，旅游业的服务不是有形的，所以客户无法事先验证旅行是否真的有趣，而且旅游服务与日常商品相比相对昂贵。

此外，如今世界各地的人们都在Twitter、Facebook和Instagram等社交媒体上分享自己的旅行经历，这些信息会影响到其他用户，因此旅游业者妥善管理这些内容就显得尤为重要。这对旅游经营者来说正变得越来越重要。

在这种背景下，使用自然语言处理的文本自动分析在学术界和旅游业中都越来越重要。

TourBERT概述。

TourBERT使用BERT-Base-uncased作为其基本架构，并不像上述FinBERT和BioBERT那样使用初始检查点。

整个语料库通过小写字母数据进行预处理，然后通过分隔符将其分割成句子，使用带有WordPiece标记器的BERT-Base架构+与BERT-Base相同的词汇量抓取的旅游专用词汇，分1M步进行预处理。进行了培训。

该模型也可以在Hugging Face Hub上使用，在那里可以使用以下三行代码轻松加载TourBERT模型和标记器。

BERT和TOURBERT之间的比较实验。

为了评估TourBERT，进行了几个定量和定性的实验。

情感分类

首先，为了证明TourBERT在旅游评论数据集上的表现优于普通BERT，在以下两个数据集上进行了情感分类任务。

Tripadvisor酒店评论数据集（RAy等人，2021年）：来自美国旅行社Tripadvisor的酒店评论数据集，标有负面、中性和正面，总计它包括69308条评论（多标签分类）。
515K欧洲酒店评论数据集：该数据集由从荷兰旅行社Booking.com刮来的评论组成，在该实验中只使用数据集中带有负面或正面标签的评论（二元分类）。(二元分类)。

每个数据集的评估结果显示如下。

从表中可以看出，与普通的BERT相比，TourBERT在这两组数据上的得分更高。

利用旅游照片进行聚类。

接下来，对旅游照片的聚类和使用Tensorboard Projector的可视化进行了比较实验。

通过622人的手工标记，准备了48张显示各种旅游活动的照片的数据集，这些照片在每个模型中进行聚类，然后用Tensorboard Projector进行可视化评估。

两个模型的聚类结果如下所示。(上图：普通BERT下图：TourBERT)

比较两者的结果，可以看出，使用普通的BERT的结果显示了照片的稀疏混合，而使用TourBERT时，照片被适当地聚类，同一聚类中的照片在内容上是相似的 。

同义词搜索

我们对这两个模型进行了比较实验，假设在旅游专用语料库上训练的TourBERT在旅游相关术语的同义词检索任务中比在一般语料库上训练的BERT表现更好。

两种模式的搜索结果如下所示。(表的第一行显示了要搜索的词和相似度最高的前八个词）。

正常BERT

巡回演唱会

比较两个模型的结果，可以看出，常规的BERT搜索的是"目的地"这个词的一般词汇，如 " 选择"、"地址 " 和 "出口"，而TourBERT则适当地捕捉了旅游的特定含义，如 "景点(景点）、吸引力（attraction）和行程（itinerary），TourBERT能够正确地捕捉旅游的特定含义，如 "景点"、"吸引力 "和 "行程"。