網羅的サーベイから見るAI論文とは Part2

インタビュー 2020年08月06日

前月行われましたCVPR2020の論文に対して、cvpaper.challengeは実際に1047/1467本の論文をサーベイしました！その中からトップクラスの論文読破数を叩き出した上位一部の方にインタビューをさせていただきました。第二弾となる今回はこの方にインタビューさせていただきました。

名前：山本晋太郎
経歴：産業技術総合研究所リサーチアシスタント
　　　早稲田大学　先進理工学研究科　博士後期課程
専門：vision+language系自然言語処理 & 画像
論文読破数：28本

CVPR2020注目論文
1.In Defense of Grid Features for Visual Question Answering

Code Summary1

Q1.リサーチしながらの生活はどんなものになるんですか？

私は決まった時間とかでは論文は読まないですね。他の作業と並行しながらやってたり、本作業に疲れたので論文を読んで箸休めしたりすることが多いですね。なのでintroductionを途中まで読んで、そこから時間を置いてからまた読み始めたりしますね。時間的には、他の作業をせずに論文を読むことだけなら30分あれば読めますね。

ー結構自由な感じに読んでるんですね。

そうですね。時間と言うよりは私としてのイメージはウォーミングアップですね。例えば、朝起きてすぐにはやる気が出ないので、論文を読むことで目を覚ますとか、昼食後の眠くなってきたときに読んだりして、やる気が出るのを待つって感じにやっています。

Q2.実際どんな風に論文を読むのでしょうか？

まず、リサーチするときは幅広く、情報をキャッチアップすることを大切にしています。

ー具体的にはどんな感じに読んでいくんですか？

大体はこんな感じですね。

タイトルから論文を探す (単語ベースで気になるものを探す。Ex.VQA)
abstractを読みます。
Figuare.1を見る。(ある程度直感的に内容がわかる)→読むか読まないかの判断を行う。
introductionを全部読みます。
conclusionを読みます。
2~5の段階で理解ができない場合は、MethodsやResultsを見ます。

ーこれで大体30分って感じなんですね。またFiguare.1を見ることはCVPRではもしかすると特異的な論文の読み方かもしれませんね。

Q3.論文リサーチをなぜ行うのか？

根本な部分は”自分の知らない世界を知りたい”ですかね。いいことなのかはわからないですが、学部生時代の時と博士課程の今で少しこの論文リサーチの考え方も変わりましたね。

学部時代は、研究のことも知らないながら論文をリサーチしていました。その時は、「研究ってこんな感じなんだ。面白いな。世界的にはこんなことが行われているんだ」って言う風な感じでしたね。なんで、知的好奇心のために論文リサーチをしていましたね。

博士課程の今は学部時代の純粋な気持ちでは読めなくなりましたね(笑)。論文の再現性は？著者の主張は本当に正しいのか？と言う疑いの目線がメインになってきていますね。

ーそれってある意味研究者らしくなったって感じですね。

そうですね。なので博士課程の今の論文リサーチは技術知識のキャッチアップをしないとついていけないために行っています。

ー知的好奇心やキャッチアップだとして、なぜそのリサーチ先にCVPRがあるんですか？

現実問題、全てのCVPRの論文が質が担保されてるとは言いませんが、ある程度はやはり担保されていると思っているのが理由ですかね。一時期arXivの論文を毎日リサーチしている時はあったんですが、arXiv論文の中だとCVPRに通るような高品質なものもあれば、そうではないものもあって、キャッチアップの段階でその判断までやるのはしんどく、時間的コストも高くなってしまうのでやめましたね。

ーすなわち、CVPRが選んだ査読者が一旦フィルターになると言うことですね。そこを通ったから、質もある程度信頼が置けると言う感じですかね。

先ほども全てのCVPRが担保できているわけではないと言ったのは、査読者がいてもそのフィルターの網が大きすぎてその役割が果たせていないものもどうしてもありますね。

ーそうですよね。査読付きって表現が本当か疑いたくなるものもかなり多いのがAI論文の印象ではありますね。

Q4.個人的なCVPRの気になる点や流行はありましたか？

CVPRに限った話ではないのですが、”スピード感”が大切だと感じました。実際に私が今年の春先に考えていたアイデアがありまして、調べていくとまだ行われていなかったんですよ。そろそろ手を動かして初めて行こうかなと考えていたら、今年のCVPR2020にそのアイデアが出てきていました。なのでアイデアから論文化までが早いと感じました。こんなに研究されていれば、似たようなアイデアは出てくるとは思いますが、スピード感がないとついていけないなと感じましたね。

他にはvision+language系をリサーチして思ったのは、CVPRだけを見ていても足りないなと感じました。例えば、自然言語処理で有名なBERTはCVPRだけ読んでいたら得られない知識になるんですよ。どんどん自然言語処理のAI技術も発展している分、リサーチの幅を広げる必要があるなと感じましたし、CVPRに通すためにもそう言った知識が必要になる可能性があるのでCVPRを通すためにCVPRだけを読んでいてもダメなんじゃないかなと思いました。

ーCVPRに通すにはCVPRを読むのは当たり前で、分野によって他分野の技術が入ってくるので他の分野もキャッチアップしなければいけないよってことですね。確かにGANも元々は好奇心と言った分野をAIにさせてみたって考え方なので他分野の考えや知識が生きてくることは多いですよね。

Q5.どんな学会をリサーチ対象にしていますか？

私の場合は自然言語処理やっているのでそう言った学会も見ますね。例えば、今ぱっと考えると以下のものがありますね。

EMNLP
ACL

Q6.学会のオンライン開催についてはどう感じますか？

メリット

他の作業をしながら参加できる
自由に参加できるし、時間的猶予がある

デメリット

オンラインで開催できると言うことは、リアルタイムで参加すれば時差の影響をかなり受ける
私の周りは関係ないのでいつも通り対応しなければいけない

オンライン開催はジャーナルを投稿するだけで終わりで、あとは質問をメールで投げたりすれば良いので、オンライン開催は意外と有効とは感じませんでしたね。オフラインならではのコミュニケーションやコネクションができないのはやはりきついですね。時差の影響を受けながら発表を聞くことになるのですが、それは私の都合であって周りは関係ないのでいつも通り連絡や研究室のゼミがあるのでしんどいですね。

ー確かに自由すぎて意外と参加しづらいって矛盾はありますよね。学会って発表とともにその付加価値を見に行っているとも言えますよね。

Q7.AIに期待していることは？

人間がやりたくない作業とかをやってほしいですね。仕事を奪ってほしいですね。例えば、大学教授たちが事務作業に追われているのはかなり無駄な気がするのでそう言ったところにAIが入ることで本来人間がやるべき作業の時間を増やすことに期待していますね。

ー確かに大学の教授や研究者の時間を増やすって意味でAIが働けると面白いですね。

今思うと例えば、ブラック企業とAIって相性がいいんじゃないかなって。そう言った企業からすると人件費を削りたいってところからきてると思うんですが、それこそAIに対してよく言う「人の仕事を奪う」と相性がいいんじゃないかなと思いますね。ターゲットをそこにして売れるかはわかりませんが(笑)。

ー逆にAIに感じる課題ってありますか？

少し大きくなってしまいますが、社会が求めるAIと現時点でのAIの技術に大きな解離があることですね。またはそう言った解離を生んでしまっていることが課題になるんですかね。例えば、ニュースで「今この技術がAIで進化しています。」ってよく言うじゃないですか。それってポジティブなことじゃないですか。逆に研究者たちは「バイアスが…」などのネガティブなことを聞くじゃないですか。それを続けていけば、社会全般はAIは万能なものって認識をされてもおかしくないのでこう言った情報のキャッチアップのバイアスが気になりますね。こう言った潜在的な問題を抱えて今からAIが社会に出てきたときに、1度でもAIが失敗すると一気に評価が落ちるのが怖いですね。

Q8.AIがもっと流行るには？

日本人が変化を好まないのではないか？ハンコがいまだに使われていますし、電子マネーもまだ使いたい人が使うって感じで実際に便利であっても、不便を感じないのでそこまで変化する必要性がないって考えているのではないかと思いますね。

ーもしAIが便利なんだって気付いたらもっと社会にAIは導入されていくってことですか？

ここがまた難しくて、単純に便利と気付いても導入はされないとも思います。便利か不便かって軸があって、その次に買える、買えないと言う軸がまたあると思います。そこで次はコストに比重が置かれて判断されると思います。

Q9.ビジネスサイドはAIとどうやって関わるといいと思いますか？

今大学で5年制のあるプログラムに参加しているんですが、そこでビジネスの授業を受けるんですね。そこの経験から言うと、ビジネスサイドがAIを学んできて、少しづつAIに関する理解の解離を無くしていこうと言うだけではダメだと思うんですね。研究者サイドやビジネスサイドの両方が互いに理解しないといけないと思います。ある講義でも「ビジネスモデルを考えなさい」って講義をやったのですが、教授の方に「やっぱり君たちは研究的な目線でものを考えている。ビジネスだとこう言う風に考えることができるよね？」って指導を受けて、双方に解離があるなと思いますね。解離がある状態で開発などをすれば実装してみてその解離の影響を受けてしますので、双方が理解することも重要だと思いますね。もちろん、理解して絶対に反映させなきゃいけないわけではないです。知的好奇心で研究を続けることも大切ですし、これがなんの役に立つのかは二の次でやるべきことややっていくこともあると思いますね。

ー両方の経験があるからわかることですね。私自身も、双方の経験をしているからこそ本当にそこは感じますね。

Part1へ