AI に何ができるかではなく、AI が何をすべきかを問おう

その他 2019年10月17日

3つの要点

✔️どんなタスクならば AI に委譲可能かという問いを人間の嗜好も含めて研究
✔️タスクの委譲度合いを判断するためのフレームワークを構築し、クラウドソーシングで分析用のデータを作成
✔️AI に全てを任せたいというタスクはかなり少なく、人間が主導して AI がサポートするという関係を好むことが判明

AI (機械学習と呼ぶべきものを対象としますが、論文に合わせて AI という呼称で統一します) はあらゆる分野に進出して目覚ましい発展を遂げています。Andrew Ng 氏は “artificial intelligence is the new electricity” と述べ、今後もより生活の中に溶け込んで様々な場面で使われていくものと思われます。

AI が浸透していくにつれて、AI にどのようなタスクをさせるべきか、という問題の重要性が増してきています。
これまでは、AI にはどのようなタスクを解くことができるのか（画像認識、自然言語処理、etc）、という点に重きを置いて研究が進められてきました。その結果、解けるタスクも多様な広がりを見せていますが、そもそもどういうタスクを AI に任せるべきかはあまり議論されていません。それを踏まえて、この論文では、どんなタスクを委譲させるのが良いかという視点からアプローチしています。

どんなタスクを委譲すべきかを決めるには様々な観点があります。
既に研究が進められている観点として、AI の信頼性を考慮する、というものがあります。これは自動運転や医療診断に代表されるように、AI による判断によって人命に影響が出るようなタスクの場合に特に重視されます。このような場合、説明可能性や解釈可能性を担保できるようなモデルの構築を模索したり、全て AI がやってしまうのではなく人間のサポートとして使われたりします。

その他にも、これまであまり検討されてはいませんが重要な観点として、人間の嗜好があります。
例えば、自分で曲を作るのが大好きな人がいたとして、その人は自分よりも上手く作曲ができる AI に曲を作って欲しいと思うでしょうか？創作自体に喜びを見い出す人ならば、AI にそのタスクを委譲したいとは思わないでしょう。
一方で、複数人で開催されるビジネス上の重要なミーティングのスケジューリングを嬉々としてやる人は少ないと思われます。煩雑な割に楽しくないタスクであれば、積極的に AI にやってもらいたいと感じるでしょう。

このように、AI にどんなタスクを委譲すべきかは色々な要因を含むことが理解できます。
この論文では、AI にタスクを委譲するかどうかを判断するための 4つの要素 (動機、難易度、リスク、信頼性) を提案し、それらに基づいて具体的にどのようなタスクなら委譲させたいかを分析した結果、AI に全てを任せるのではなく人間が主導して AI がサポートすることを好むことを明らかにしました。

以降では、その内容について解説していきます。

タスク委譲を判断するためのフレームワーク

ここでいうタスク委譲のためのフレームワークとは、タスク委譲を決定するために必要な要素とその要素を構成するより具体的な項目を抽出することを指します。これをするためのお手軽な指導原理は存在しないため、ここでどのような根拠に基づいてフレームークを構築するかは一つの腕の見せ所となります。

この論文では、まず重要な要素と予想される4つの要素を天下り的に導入します。
それは、動機、難易度、リスク、信頼性、となっています。これらはかなり納得感があるものですが明確な理由に基づくものではないので、自分ならば適切に理由づけできるとか、より良い要素を提案できるという場合は論文を書くチャンスかもしれません。
次に、これら4つの要素に対して、それぞれの要素を構成するより具体的な項目を提案しています。ここではその一つ一つを説明することはしませんが、例えば心理学の研究から動機要素の項目を決定していたりして、かなり多岐に渡る先行研究に基づいて提案していることが見て取れます。

そのようにして構築された4要素と全14項目は以下のようになります。
各項目の評価は5段階で実施し、各項目は同一要素内であれば相関が高く、異なる要素間では相関が低い、という仮説を持っています。

タスク委譲を決定するための4つの要素と、それぞれを構成するより具体的な項目（全14項目）。論文 (https://arxiv.org/abs/1902.03245) に基づいていますが、日本語訳したものになっています。

これらの項目と要素に基づいて、タスクをどれくらい AI に委譲させることができるかを判断できるという仮説です。
ここで、どれくらいタスクを委譲させることができるかを測る必要が出てきます。この論文では、シンプルに以下の4段階で評価をすることにしています。

タスクの委譲度合いを測る4段階の指標。論文 (https://arxiv.org/abs/1902.03245) に基づいていますが、日本語訳したものになっています。

これでフレームワークが整いました。
一旦要素と項目が提示されればシンプルなもので、以降の実験では各タスクに対して、アンケートデータで委譲度合いの4段階評価と各項目の5段階評価をしてもらい、それらの関係性を見ていくことでフレームワークの妥当性を検証します。

データの作成

データはクラウドソーシング (Amazon Mechanical Turk) で作成します。

「ガンの有無判断」のような専門的なタスクから「冗談を言う」のような日常的なタスクまで、合計100個のタスクのリストを準備します。
それぞれのタスクに対して5人にアンケートを回答してもらい、タスクの委譲可能度合いとして4段階、各項目をそれぞれ5段階、評価をしてもらうことで500件のラベル付きデータを作ります（1件は委譲可能度合いの4段階評価と合計14個の項目の5段階評価から成る）。これを論文では Personal データと呼びます。
人間の嗜好は動機の部分に色濃く出て、それは個人差が大きいため、それを抑えるために動機の項目を除いて同様の500件のラベル付きデータを作ります（1件は委譲可能度合いの4段階評価と動機の項目を除く合計11個の項目の5段階評価から成る）。これを論文では Expert データと呼びます。

データは https://delegability.github.io/index.html で公開されています。これは Web 上でソートなどができるテーブルとしても提供されているので、どんなタスクが含まれているかや各要素でソートして眺めたりするだけでも面白いものです。

タスクの委譲度合いをカウントしたヒストグラムデータを見てみましょう。
単純な集計ですが興味深い結果になっており、全部 AI にやらせるというのは好まない人が多いことが分かります。一番多いのは人間が主導して一部 AI がやるというものになっています。自分の感覚と離れているかどうか、データを眺めながら確認してみるのも面白いかもしれません。
ちなみに、一番委譲度合いが大きいのは「金融市場の分析と売買の執行」と「倉庫から商品を包装して送付」になっており、一番委譲度合いが低いのは「歯磨き」と「知人の誕生日プレゼントの選定と購入」になっています。

タスクの委譲度合いをカウントしたヒストグラム。左側は一件ずつカウントしたヒストグラムで、右側は同一のタスク（これは5件のデータを含む）に関して平均を取ったヒストグラムになっています。論文 (https://arxiv.org/abs/1902.03245) より引用。

実験のデザインとその結果

主に以下の2つの実験をしています。
一つは相関分析で、もう一つは各項目の点数を入力とするタスクの委譲度合いの予測です。前者はタスクの委譲度合いと項目の相関を見ることでどの項目が特に効いているのかを調べたり、項目間の相関を見ることでフレームワークの妥当性を検証するのが目的です。後者はランダムに委譲度合いを選ぶことよりも性能が良いモデルを作り、各項目と委譲度合いが確かに関係づいていることを示してフレームワークの妥当性を検証するのが目的です。予測性能が高いモデルを作るのが目的ではないことに注意が必要です。

相関分析

タスクの委譲度合いと各項目の相関を調べたものが以下の表となります。
信頼性の項目が特に相関が強いことが分かり、タスクの委譲に際して AI への信頼性が重視されているのではないかと想像できます。
また、難易度は負の相関を持っている項目が多く、難しいタスクは AI に任せづらいという傾向が現れていると思われます。ただしこの中の Human Ability (自分自身にとって解けるタスクか) は正の相関があり、自分が解けるタスクに関しては AI に任せられると考えているのかもしれません。
Personal データでは相関が優位でない項目が多く、個人の嗜好が多様であることを示唆しています。

タスクの委譲度合いと各項目の相関。Expert データでは動機の項目はないので N/A となっています。Personal データにおける NS は優位な相関が見られなかったことを意味しています。論文 (https://arxiv.org/abs/1902.03245) より引用。

次に各項目の相関を調べたものが以下の表となります。
フレームワーク構築時にはこの対角項が大きくなるという仮説を持っていましたが、それは結構うまくいっています。しかし、難易度に関しては値が小さくなってしまっています。難易度の項目は十分適切には設定されておらず、改善の余地があると言えます。
また、難易度とリスクの間には相関があり、これは専門性を要求するような難易度の高いタスクはリスクの高さにつながるものが多いのではと考察しています。

各項目の相関。表の値は項目間の相関を要素毎に平均したものになっています。論文 (https://arxiv.org/abs/1902.03245) より引用。

タスクの委譲度合いの予測

項目の点数を入力にしてタスクの委譲度合いを当てるモデルを構築します。
データ量が少ないため、5-fold nested cross validation でモデルもシンプルなものを使用しています。評価指標は accuracy と macro F1 score を採用します。
結果は以下のグラフの通りで、特に F1 score に関しては明らかにランダムなベースラインよりも良い性能であることが見て取れます。
そもそも予測対象が独立なカテゴリでなく順序集合を成すものだったりしてモデリングとしては雑ではありますが、狙い通り各項目と委譲度合いが関係づいていて、提案したフレームワークがある程度妥当であるとは示せています。

タスクの委譲度合いを予測する実験の結果。論文 (https://arxiv.org/abs/1902.03245) より引用。

まとめ

この記事では、AI にどのようなタスクを委譲できるかを人間の嗜好を含めて分析した論文について紹介しました。
タスクの委譲度合いを決定するために、動機、難易度、リスク、信頼性、という4つの要素とそれらの具体的な項目として計14個の項目を導入し、クラウドソーシングでオープンデータを作成しました。得られたデータを用いて相関分析や予測モデルの構築実験を実施し、提案したフレームワークの妥当性を検証しました。

人間の嗜好に応じて委譲タスクを検討するという方向性は、今後重要性が増していくものと思われます。
この論文の延長という意味では、精緻なフレームワークの構築を目指したり、より大規模な実験をしたり、などの研究が進むものと期待されます。個人の嗜好という観点をより深めていけば、タスク委譲に関してもレコメンデーションのような技術が適用されていくでしょう。
別の視点として、AI に対する理解度が及ぼす影響も面白いかもしれません。一般の人と AI 研究者でどのような違いがあるかなどは気になるところです。

AI がより身近になっていくにつれて、性能面だけでなくこのような研究の重要性が増していくと思われるので、今後の進展が楽しみです。

Ask Not What AI Can Do, But What AI Should Do: Towards a Framework of Task Delegability
written by Brian Lubars, Chenhao Tan
(Submitted on 8 Feb 2019)

Accepted to Thirty-third Conference on Neural Information Processing Systems
Subjects:Artificial Intelligence (cs.AI); Computers and Society (cs.CY); Human-Computer Interaction (cs.HC)