歴史に忘れ去られた過去の古代文字を解読する自然言語処理モデル

明確に文法などが分かっていない言語では、その言語の専門家でも翻訳を行うのは簡単ではありません。これまでも、未知の言語解読は、 数十年の歳月と辞書ほどのその言語に関する専門知識を必要とします。その上、一つの言語を機械学習によって解析ができたからといって、その技術をそのまま他の言語に利用することはできません。

今回紹介する手法では、ニューラルネットワークを用いることで、解読できてない文字を解読するモデルを提案しています。さらに、今回のモデルは1つのモデルで複数の言語に対応することができます。このモデルの鍵となるのは、”編集距離”という概念を解析に用いてるところです。これにより、正解データが少ない未知言語の解析に対しても精度の向上目指します。

未知の言語とは?

 

ウガリット語


Linear B

 

今回の論文は、2つの未知の忘れ去られた言語についての話なので、はじめに簡単に紹介しておきます。

一つ目は、「ウガリット語」です。地中海東岸にあった古代の都市国家ウガリットで使用されていた言語であり、現在は(おそらく)全く使われておりません。

二つ目は、紀元前1450年の古代ギリシャ言語「Linear B」(線文字B)です。文字ではない絵画的な記号、および数字と単位記号から構成されています。Linear Bの自動的な解析はこれまで良い結果を出すことができていませんが、論文ではこの解読にも挑戦していきます。

コメント

kishimoto  @nan_an
2019/07/16 14:36

前にインダス文字解読チャレンジの話は読んだことあったけど、線文字Bの自動翻訳タスクなんてものがあって精度がかなり上がってきてるとな 歴史に忘れ去られた過去の古代文字を解読する自然言語処理モデル|AI-SCHOLAR https://t.co/AQdLutw2gz