介绍SBERT-WK,它结合BERT的输出创建一个句子向量。
三个要点
✔️ 演示 BERT 的嵌入式表示法在每一层捕捉不同的信息
✔️ 提出整合每一层信息以构建句子向量的方法。
✔️ 利用所提出的方法提高关键任务的准确度
SBERT-WK: A Sentence Embedding Method by Dissecting BERT-based Word Models
written by Bin Wang, C.-C. Jay Kuo
(Submitted on 16 Feb 2020 (v1), last revised 1 Jun 2020 (this version, v2))
Comments: Accepted at arXiv
Subjects: Computation and Language (cs.CL); Machine Learning (cs.LG); Multimedia (cs.MM)![]()
Official
![]()
Comm
![]()
介绍
近年来,自然语言处理已经在庞大的语料库上预先训练过的模型取得了巨大的成功。一个典型的例子是 BERT (双向的)。Encoder Representations from Transformers),BERT是变形金刚的多层模型,通过解决大量无监督文本的预训练任务,获得对下游任务有用的表示。原文中提出的两个预训练任务是:。
- 选择文中15%的单词,并将其作为正确答案来预测单词(MLM:Masked LM)。每一个选定的令牌都会被处理如下
- 用一个叫[MASK]的特殊标记代替80%。
- 用一个随机令牌代替10%。
- 10%保持不变。
- BERT标记化过程中,在句子开头给出的特殊标记[CLS],用于在输入两个句子时预测第二个句子是否是第一个句子的延续(NSP:Next Sentence Prediction)。
BERT得到的词的向量表示法称为上下文化词嵌入表示法,它提供了一种多义词向量表示法,这是现有的词嵌入表示法如Word2Vec、 GloVe 和 fastText 等无法捕捉的。
例如,"银行"这个词有多个意思,如"安全"或"银行",在Word2Vec中只能用一个向量来表示,但BERT可以根据这个词出现的上下文,给你不同的向量。
在原论文中,我们使用了BooksCorpus(8亿字)和英文维基百科(25亿字)来训练上述内容,并在一些任务上取得了比现有研究明显的准确性提升。
我们还回顾了上述BERT训练方法,并加入了各种技术来提高 RoBERTa 的鲁棒性,如论文 RoBERTa:A Robustly Optimized BERT Pretraining Approach 中提出的。它使用了更大的数据、批次规模,并通过从预训练任务中移除下一句预测来提高各种任务的性能。
还有一个模型 XLNet ,在论文 XLNet: Generalized Autoregressive Pretraining for Language Understanding 中提出,它引入了一种新的学习方法来克服BERT的问题。关于这种模式的详细解释可以在本站的文章中找到。
顺便说一下,在自然语言处理中,我们有时想创建句子嵌入表达式。句子的内嵌式表示可以用于,例如,推荐类似文章的文章,或者从句子中推断作者的情感极性。现有的方法是通过简单地将Word2Vec中的单词向量相加或平均相加来创建句子向量,但如前所述,这种方法可能不能很好地考虑到单词的模糊性。另外,BERT的[CLS]向量和输出向量的平均值作为句子向量的性能并不好,需要一种有效的生成句子向量的方法。
针对这一问题,在论文《 Sentence-BERT:Sentence Embeddings using Siamese BERT-Networks 》中提出的 SBERT(Sentence-BERT) 提供了一种利用BERT生成句子向量的方法。允许预先训练好的BERT通过进一步训练来创建有用的句子向量表示。
在本文中,我们将介绍一个模型 SBERT-WK ,该模型通过充分利用BERT捕获的信息,进一步改进了SBERT。作为前奏,我们先对SBERT进行概述,并对论文进行评述,然后再对SBERT-WK论文进行评述。所有的数字和表格都来自于文件。
要阅读更多。
你需要在AI-SCHOLAR注册。
或与本文相关的类别