ChatGPT は良き翻訳者か？性能向上に向けた提案

Computation and Language 2024年02月08日

3つの要点
✔️ 機械学習モデルであるChatGPTの翻訳能力について検討しています。
✔️ ChatGPTの性能向上のために、ピボットプロンプティングと呼ばれる戦略が提案されています。
✔️ GPT-4エンジンの導入による改善が提案されました。

Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine
written by Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Xing Wang, Shuming Shi, Zhaopeng Tu
(Submitted on 20 Jan 2023)
Comments: Analyzed/compared the outputs between ChatGPT and Google Translate; both automatic and human evaluation
Subjects: Computation and Language (cs.CL)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

この論文では、機械学習モデルであるChatGPTの翻訳能力について検討しています。翻訳能力の評価では、翻訳プロンプトの効果、多言語翻訳の実行、および翻訳の堅牢性（つまり、異なる状況下での性能）に焦点を当てています。ChatGPTが翻訳を行う際には、モデル自体が提案する指示文（プロンプト）が必要であり、そのプロンプトによって翻訳の品質が影響を受けます。

様々なベンチマークで評価した結果、ChatGPTは、一部の言語では商用の翻訳ツールとほぼ同等の性能を示しますが、他の言語や遠隔地の言語ではまだ改善の余地があることがわかりました。特に、医学の要約やオンラインコミュニティのコメントなど、話し言葉に関しては、かなり良い結果が得られました。

さらに、ChatGPTの性能向上のために、ピボットプロンプティングと呼ばれる戦略が提案されています。これは、翻訳前に高リソースの中間言語に翻訳する方法です。GPT-4エンジンの登場により、ChatGPTの翻訳能力は大幅に向上し、遠い言語でも商用の翻訳ツールと同等の品質を提供できるようになりました。

最後に、GPT-4を使用したChatGPTは、以前のバージョンよりもエラーが少なく、より信頼性の高い翻訳を行うことが示されています。つまり、ChatGPTはますます優れた翻訳者としての地位を確立しています。

導入

ChatGPT1は、OpenAIによって開発されたチャットマシンです。このモデルは、InstructGPT（OpenAIが提供する自然言語処理モデル）に基づいて訓練されており、プロンプトの指示に従って詳細な応答を提供するように設計されています。ChatGPTは、対話形式であり、質問に答えたり、間違いを認めたり、不適切な要求を拒否したりすることができます。このシステムは、質問応答、ストーリーテリング、論理推論、コードのデバッグ、機械翻訳など、さまざまな自然言語処理機能を統合しています。

翻訳プロンプトは、翻訳モデルが翻訳を開始するためのガイダンスを提供し、翻訳の品質に影響を与える可能性があります。多言語翻訳では、リソースの違いや言語ファミリーの違いを考慮し、さまざまな言語ペアでのChatGPTのパフォーマンスを評価します。

最後に、改良されたエンジンであるGPT-4を使用した場合のChatGPTの翻訳能力の再評価が行われ、GPT-4を使用するとChatGPTの翻訳パフォーマンスが大幅に向上することが示されます。これにより、ChatGPTは市販の翻訳製品と同等の品質を提供することが可能となります。

評価指標

提供する評価設定は、主にChatGPTと他の翻訳製品を比較することに焦点を当てています。これらの製品は、言語の翻訳能力を評価するために、さまざまな評価設定が用いられます。この評価設定には、主に比較されたベースラインとテストデータが含まれます。ベースラインは、通常、翻訳製品と比較される標準的なモデルやシステムを指します。この場合、ChatGPTはGoogle Translate、DeepL Translate、Tencent TranSmartと比較されます。これらの商用システムは、それぞれ133、29、16言語の翻訳をサポートしています。

テストデータには、多言語翻訳セットであるFlores101と、WMT19バイオメディカル翻訳タスク（Bio）とWMT20ロバストネスタスク（Rob2およびRob3）のセットが含まれます。Bioテストセットは、医療文書の要約から構成されており、Rob2セットはソーシャルメディアのコメントから抽出されました。これらのテストセットは、ChatGPTや他の翻訳製品の翻訳能力を評価するための基準として使用されます。

主な評価指標としては、BLEUスコアが挙げられます。BLEUスコアは、翻訳結果が正解とどれだけ一致するかを測定する指標で、0から100の範囲で表されます。他にも、ChrF++（Character F-score）やTER（Translation Edit Rate）などの指標が報告される場合もあります。

また、ChatGPTの翻訳機能をトリガーするためのプロンプトも設計されています。これらのプロンプトは、ChatGPTに翻訳を行うように要求する際に使用されます。さまざまな言語の翻訳性能をテストするため、さまざまな言語ペアでプロンプトが提供されます。

この評価設定によって、ChatGPTの翻訳能力がより包括的に評価され、他の翻訳システムとの比較が可能になります。

機械翻訳(MT)用ChatGPT

MT用のChatGPTの改善に関して、3つの主要な改善点が提案されています。まず、ピボットプロンプティングという戦略を使用して、異なる言語間の翻訳品質を向上させる方法が提案されました。これは、ソース言語からピボット言語（通常は英語）への翻訳を経て、最終的にターゲット言語への翻訳を行う方法です。これにより、言語ペアのリソースの違いによる課題が軽減されます。

次に、GPT-4エンジンの導入による改善が提案されました。GPT-4は、ChatGPTの背後にあるGPT-3.5モデルよりも強力で、4つの翻訳方向すべてで大幅なパフォーマンス向上が見られます。

さらに、翻訳出力の自動分析と人手による分析が行われ、ChatGPTとGPT-4の翻訳結果の比較が行われました。結果として、GPT-4は過剰翻訳や誤訳のエラーが少なく、総合的に優れた翻訳パフォーマンスを示しています。

これらの改善点により、MT用のChatGPTはより高度な翻訳を実現し、さまざまな言語間でのコミュニケーションの円滑化に貢献する可能性があります。以下の表では、商用システムとの比較や、GPT4との比較がされています。(De:ドイツ語,En:英語,Zh:中国語,Ro:ルーマニア語)

結論

この研究では、ChatGPTの機械翻訳の能力が検証されました。結果から、ChatGPTはヨーロッパの主要言語では商用製品と競合できる一方で、リソースの少ない言語や遠い言語では劣っていることが分かりました。しかし、ピボットプロンプティングという新戦略を導入することで、遠い言語の翻訳を改善する可能性が示されました。さらに、GPT-4エンジンの導入により、ChatGPTの翻訳性能が大幅に向上し、商用製品に匹敵するレベルになりました。したがって、ChatGPTは優れた翻訳者として確立されています。

この研究の結果から見ると、ChatGPTは機械翻訳において大きな進歩を遂げていますが、まだ改善の余地があります。翻訳品質のさらなる向上や、さらに広範な言語への対応が望まれます。ChatGPTは現在も進化を続け、将来的にはより優れた翻訳者としての地位を確立するでしょう。