最新AI論文をキャッチアップ

LLMを活用したユーザー主導の文章改善ツール「Textfocals」

LLMを活用したユーザー主導の文章改善ツール「Textfocals」

Large language models

3つの要点
✔️ 大規模言語モデルを活用し、ユーザーが自らの文章を見直しながら修正できる「Textfocals」の提案
✔️ カスタマイズ可能なプロンプトメニューとカード形式のサイドバーにより、ユーザーが大規模言語モデルの出力を利用しやすく設計

✔️ ユーザーテストにおいて、大規模言語モデルビューがユーザーの独自性を維持しながら執筆の改善を支援可能であることを実証

Towards Full Authorship with AI: Supporting Revision with AI-Generated Views
written by Jiho Kim, Ray C. Flanagan, Noelle E. Haviland, ZeAi Sun, Souad N. Yakubu, Edom A. Maru, Kenneth C. Arnold
(Submitted on 2 Mar 2024)
Comments: 
15 pages, 2 figures; Accepted to 5th Workshop on Human-AI Co-Creation with Generative Models (HAI-GEN) at ACM IUI 2024
Subjects: Human-Computer Interaction (cs.HC); Artificial Intelligence (cs.AI); Computers and Society (cs.CY)

code: 

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

大規模言語モデルは、プロの作家が書いた文章に匹敵するテキストを生成することができます。現在、主に2つの対話技術が使われています。1つは、対話型(例:OpenAIのChatGPTやGoogleのGemini)、もう1つは、予測テキスト補完型(例:GitHub Copilot)です。これらの技術は多くのタスクで優れた性能を発揮します。しかし、一方で、執筆においては、創造的な意思決定の一部または全てをシステムに委ねることになります。

例えば、OpenAIのChatGPTを使うと「自己紹介するための短いメモを書いてほしい」といった目的に基づいて希望する出力を指定することができますが、このようなシステムは、ユーザーの創造性や独自性を損なう可能性があり、独自のアイデアや表現に影響を与えることがあると言われています。

この論文では、執筆を支援するための人間中心の大規模言語モデル活用システム「Textfocals」を提案しています。Textfocalsは、ユーザーがコンテンツを生成するという原則に基づいて設計されたUIプロトタイプで、大規模言語モデルがユーザーの執筆を修正することを制限しています。代わりに、大規模言語モデルによって生成された要約、質問、執筆に関するアドバイス(以下、大規模言語モデルビュー)を通じてユーザーに改善や詳細化の案を提示し、修正の検討を促すことができます。

Textfocalsは、ユーザービリティを考え、2つのUI機能を提供します。1つは、執筆者が現在修正している箇所にビューを適応させることで、修正作業を効率化することができます。もう1つは、執筆者が適切なプロンプトを作成することは難しいため、事前に設計されたプロンプトを選択または修正する機能を提供し、現在の修正ニーズに合った大規模言語モデルの機能を簡単に利用できるようにしています。

従来の研究では、テキストエディタ内で大規模言語モデルが生成した要約をインタラクティブなサイドバーに表示するUIや、ユーザー定義のフィードバックを向上させるテンプレートベースのプロンプトエンジニアリングを支援するUIが研究されてきました。しかし、Textfocalsは、本人主導の修正を促すためのUI機能を研究する初めてのプロトタイプです。 

また、4人の参加者を対象に行った形成評価によって、大規模言語モデルによる要約、質問、アドバイスビューが執筆修正を支援する有効性を定性的に評価しています。その結果、大規模言語モデルビューがユーザーに検討中のアイデアを洗練しさせ、執筆を効率化させるのに役立つことが明らかになっています。

この研究は、大規模言語モデルが執筆における創造性と独自性をどのように支援できるかを示す重要なステップであると言えます。

デザインと実装 

執筆において、自分で文章を見直し、新たな発見をすることは非常に重要です。しかし、OpenAIのChatGPTやGoogleのGeminiのような大規模言語モデルが搭載された執筆ツールは、プロ作家に匹敵する文章を生成できるものの、ユーザーが適切な質問をする(プロンプトエンジニアリング)を考えるのは、難しく、負担がかかってしまいます。また、生成された応答を文章に組み込む際には、著作権や独自性が担保されるよう工夫する必要があります。

Textfocalsでは、これらの課題を解決するために、以下の2つの機能を提供しています。

  • カスタマイズ可能な事前プログラムプロンプトのメニュー:大規模言語モデルにテキストを生成させるのではなく、「観察」させるプロンプト
  • カード形式のサイドバー:ユーザーが大規模言語モデルの応答(ビュー)と対話できるインターフェース

下図は、Textfocalsにおける全体的な対話の流れを示しています。Textfocalsのプロトタイプは、Microsoft Wordのタスクペインアドインとして開発されています。ReactとMicrosoftのJavaScript APIを使用し、ドキュメント内のカーソル位置の変化を確認します。段落のテキストを取得し、それをプロンプトと共にバックエンド(Python FastAPIサーバー)に送信します。バックエンドはOpenAI APIのGPT-3.5にクエリを送り、その出力をフロントエンドにストリーミングし、パース(Markdownレンダリングなど)を行って生成されたビューを表示します。

また、下図はTextfocalsのプロトタイプのUIイメージです。Textfocalsには、事前に定義されたプロンプトを選択するボタンがあり、ユーザーのテキストに関する観察を大規模言語モデルに依頼します。プロンプトのボタンには機能の簡単な要約があり、ユーザーが内容を確認し編集できるプロンプトエディタも提供しています。このアプローチは、ユーザーにプロンプトを修正するよう促し、執筆プロセスを支援することを目的としています。

有用なビューカテゴリの例として以下のものが挙げられています。

  • 要約ビュー
    • Thesis Statement:「段落の論旨と思われる文を1文書き、さらに簡潔に繰り返す。」
    • Important Concepts:「段落の重要な概念をリストアップし、最も関連性の高い3つの概念をMarkdown形式で表示する。」
  • 質問ビュー
    • Questions the Writer Was Attempting to Answer:「作家がこの段落で答えようとしていた質問をリストアップする。」
    • Questions a Reader Might Have:「読者として、定義や論理的つながりについての質問を作家に投げかける。」
  • アドバイスビュー
    • Advice:「段落を改善するためのアドバイスを箇条書きで提供する。」

また、生成されたビューと対話するために、スクロール可能なサイドバーを実装されています。ユーザーの執筆と大規模言語モデルのビューを接続する中間インターフェースです。対話プロセスを開始するために、大規模言語モデルには最初の段落と「Thesis Statement」のプロンプトが入力されます。その後、特定のテキストセクションが選択されると、それを含む段落が大規模言語モデルに入力として渡されます。大規模言語モデルは前後の段落のビューも生成し、ユーザーが近くの段落のコンテキスト内でビューをブラウズして対話できるようにしています。また、カードにホバーすると関連する段落がハイライトされ、ドキュメントのナビゲーションが容易になります。 このようにして、Textfocalsはユーザーが自身の執筆を見直し、改善するためのツールを提供しています。 

研究結果 - 大規模言語モデルビューが執筆者にどのように役立つか 

大規模言語モデルの生成ビューがユーザーの執筆にどのような影響を与えるかを調べるため、大学のスタッフや教授4人を対象にフ形式的評価を実施しています。参加者は、それぞれニュースレター、助成金申請書、論証エッセイ、ブログ投稿に取り組んでおり、自分の執筆草稿(約1ページ)を持参しています。参加者はTextfocalsとチャットボットインターフェースと対話しながら思考を口述するように説明されています。

Textfocalsには、各段落のThesis StatementとImportant Conceptsを要約するプロンプトが含まれており、これが文書の再構成を助けるだけでなく、新しいアイデアの発見にも役立っています。例えば、参加者のうちの1人(P4)が短い段落のImportant Conceptsのリストを要求した際、システムは「クリエイターのタグ付け」というConceptを特定し、さらに発展させるべきアイデアとして注目しています。このように、要約ビューはユーザーが特定の領域を深く掘り下げるのに役立っていることがわかりました。

また、要約ビューは、執筆が読者にどのように理解されるかを比較し、意図したメッセージとの違いを特定するのに役立っています。参加者は要約ビューを外部の読者が書いたものとして扱い、読者が執筆をどのように受け取るかを理解しています。例えば、参加者のうちの1人(P4)は「このビューは、読者がこの文章をどのように理解するかを助けてくれる」とコメントしています。このように、要約ビューは意図したメッセージを明確に伝えるための修正に役立っていることがわかります。

また、Textfocalsには参加者の執筆に対して擬人化された質問を投げかける問いかけのビューも含まれており、これも読者の視点から執筆を見直すのに役立っています。例えば、参加者のうちの1人(P3)は現在の執筆が質問ビューに対して十分に答えられない場合には修正を加えると述べています。このように、問いかけビューもユーザーが読者に適した文章を作成するの役立っていることがわかります。

さらに、参加者は、表面的および実質的な改善のためのアドバイスビューを一般的に有用と感じましたが、多くの参加者はこれらの改善を具体的に実装する方法の実例を見たいと要望しています。例えば、「段落を論理的かつ滑らかに流れるように再構成する」というアドバイスビューを読んだ後、参加者のうちの1人(P4は「どうすればもっと論理的になれるか」と考えを巡らせましたと言っています。このような実例の需要は、予想外の対話を引き起こすこともあります。また、例えば、参加者のうちの1人(P2は「段落をより読みやすくするために分割する」というビューに対して、Textfocalsに具体的な提案を求めています。

このように、明確さのための修正や他のアドバイスには、システム応答に具体例を含めることが求められています。対話型インターフェースは、これらの具体例を提供する自然な方法となる可能性があります。例えば、参加者のうちの1人(P3)はAIビューからのテキストをチャットボットインターフェースに複数回コピー&ペーストして具体例を得ようとしていました。

この研究の初期結果から、大規模言語モデルの生成ビューは執筆において未発展のアイデアの発見、読者に合わせた執筆、明確かつ具体的な改善に役立つことが示されています。TextfocalsとそのUIインターフェースは、執筆者が自分の考えやアイデアを維持しつつ、執筆を改善するための効果的なツールとなる可能性があると言えます。

研究結果 - デザインの課題と改善事項 

システムがどのようにビューを提示し、ユーザーが対話できるかについて、いくつかのデザインの課題と改善事項が明らかになっています。

システムが大きなスペースを必要とするフィードバックを提供し、ユーザーのドキュメントのさまざまな部分に適用する場合、デザイナーはフィードバックとドキュメントの関係をどのように視覚化し、どのエリアに対してフィードバックを表示するかを考慮する必要があります。研究では、参加者がドキュメントのさまざまな部分に焦点を当てたビューを要求しましたが、すべてのフィードバックを一度に画面に収めることはできていないとしています。

プロトタイプでは、各ビューに関連するドキュメントの部分をハイライト表示して視覚化していますが、ハイライトがビューと直接的にリンクされておらず、他の状況ではハイライトが関連性を示すことが多いため、参加者がわかりにくいと感じることが多いことがわかりました。

例えば、P1はテキストにカーソルを置いた際の黄色いハイライトをエラーの表示と誤解し、「良いか悪いかを示しているのか分からない」とコメントしています。また、同様に、P3はカードの黄色いハイライトを最も関連性の高いビューと誤解し、「黄色でマークされているものが最高の関連性を持つものだと思う」とコメントしています。他の参加者も、この機能が混乱を招き、直感的ではないと感じていることがわかりました。このため、サイドバーがドキュメントのどの部分に関連するかを示す場合は、追加の意味を示さない微妙で無色のアウトラインが良いと考えられます。

また、サイドバーを使用する際、一部の参加者は、大規模言語モデルに入力として提供されるテキストの範囲(スコープ)が不明確であると感じていることがわかっています。例えば、P1は「プロトタイプがドキュメント全体を見ているのか、それとも選択した部分だけを見ているのか」とコメントしています。同様に、P2も「ドキュメント全体を見ているのか、選択した段落だけを見ているのか」とコメントしています。これは、大規模言語モデルがビューを生成するために使用するテキストの範囲を明確に示す視覚的な手がかりが有用であることを示唆しています。

さらに、参加者は、ビューに対して事前に定義されたさまざまなプロンプトを使用しており、その多様性が有用であることが示されました。中には、事前に定義されたプロンプトを編集したり、新しいプロンプトを作成したりして、自分のニーズに合わせる参加者もいました。例えば、ある参加者は「読者が持つかもしれない質問」のプロンプトを編集して読者のタイプを指定し、別の参加者はビュー機能を再利用して大規模言語モデルにテキストを改善するよう依頼しました。しかし、プロンプトの作成と管理はユーザーにとって困難でした。FeedbackBuffetのような穴埋め方式のアプローチはこの課題の一部を解決するかもしれませんが、ユーザーが新しいプロンプトを作成し、それを後で思い出すための支援も必要になります。この点は、さらなる研究が必要と考えられます。

まとめ

この論文では、執筆を支援するための人間中心の大規模言語モデル活用システム「Textfocals」を提案しています。修正は、書いたものを批判的に見直し、評価するプロセスです。これによって改善点や新たな発展の機会を見つけ出し、適切な修正を加えることができます。事前に作成されたプロンプトを使用して、大規模言語モデルに出力を生成させることで、ユーザーは自分の文章を客観的な視点から見直し、新しい発見をすることができます。ユーザーテストでは、参加者はこの方法で生成された出力を有用と感じさせることができています。また、意図したメッセージと読者の理解のギャップを特定し、読者に合わせて文章を調整する方法についても洞察を得ることができています。これらの結果は、文章の改善に役立ち、内容を充実させるものであることが示されています。

さらに、事前に定義されたプロンプトとプロンプトエディタが、ユーザーが自分の文章を置き換えたり続けたりするのではなく、外部の視点を生成するよう促すのに効果的であることも示しています。このUIの工夫により、ユーザーは大規模言語モデルを利用して思考プロセスを強化し、大規模言語モデルに自分の考えを置き換えさせるのではなく、自分自身の思考を維持することができます。これにより、ユーザーは著者としての自律性を保ちながら文章を修正できることが示されています。 

この論文が提案する「Textfocals」が、ユーザーが自分の文章を見直し、新たな発見をすることで、内容を充実させるための有用なツールであることが示されました。さらに研究が進むことで、このツールの有効性がさらに明確になることが期待されます。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする