CVPR2020_覗いてみるpart1

論文 2020年06月09日

CVPR（Computer Vision and Pattern Recognition）は、ECCV、ICCVと並ぶComputer Vision（CV）分野における世界三大国際会議の一つです。CVとは人間の視覚をコンピュータを用いて表現することを目的とした技術分野です。なので画像や映像認識技術全般がここに当てはまります。近年採択される論文のほとんどがCV分野でDeep Learningを使用します。

cvpaperchallengeによる論文サマリ！(現在1000本突破！)

CVPR2020技術報告会資料公開！！

技術資料

論文採択変遷

2018年の同学会は3300本の論文が提出され、そのうち979本が採択されました。すなわち、29.7%の採択率となっています。2019年の同学会は5165本の論文が提出され、そのうち1300本が採択されました。すなわち、25.2%の採択率となっています。そして、2020年の同学会は6656本の論文が提出され、そのうち1470本が採択されました。すなわち、22.1%の採択率となっています。下の表は今の内容をまとめたものになります。

年	投稿論文[本]	採択論文[本]	採択率[%]
2018	3300	979	29.7
2019	5165	1300	25.2
2020	6656	1467	22.0

投稿論文数は年をますごとに増えていっていることが分かります。しかし投稿数も採択論文数も増えてはいますが、採択率はかなり落ちていることから、かなり採択されることが難しくなっていることが分かります。このままいくと、あと1,2年で20%を切るかもしれませんね。

採択論文を俯瞰する

採択されている論文のタイトルから、どういう傾向があるのかを見てみることにします。単純にタイトルへの出現回数を見てみます。(for Deepなどは除外しています。)

2019年度_CVPRの上位単語(Top20/80)

2020年度_CVPRの上位単語(Top20/80)

2020年の方が採択論文が多いので、出現回数は全体的に多くなるのでそこは注意してください！

左が2020年の出現回数と単語の関係です(Top20/80)。右が2019年です。

上位8位までは2019年から2020年で特に変化はありません。予想通りではありますが、GANのワードであるAdversarialは採択論文が増えてはいますが2020年の出現回数は明らかに落ちています。これは、流行が落ちているのではなく、落ち着き始めていると言った感じです。

2020年に増加傾向と言えるのはこれらですね。「Human・Semantic・Graph・Point・Attention」
この中でも、注目ポイントは「Graph・Attention」です。ここは増加することが予想されており、予想通りの変化でした。Attentionに関してはすでにビジネスにも昇華されているものもあるので、ここは増えることが容易に予想できました。しかし意外であったのが、TransferやTransformerが2020年で落ちていることです。ここに関しては意外でした。考えられるのは、確かに大きな注目をTransformerは浴びますが、研究するのにも一定のリソースパワーを必要とするため、研究の母数自体は増えづらいがインパクトは大きいのかもしれません。

左が2020年の下位出現回数と単語の関係です(60~80/80)。右が2019年です。

2020年の下位出現回数をみるとかなり面白いですね。Hierarchical (階層)・Re-Identification・End-to-End・Multi-Viewなどの少し意外な言葉が出現しています。

例えば、End-to-Endなんかは少しなんで？と思ったので、どういうことなのか見てみると.....

Learn2Perturb: An End-to-End Feature Perturbation Learning to Improve Adversarial Robustness
End-to-End Learning Local Multi-View Descriptors for 3D Point Clouds
End-to-End Illuminant Estimation Based on Deep Metric Learning
End-to-End Optimization of Scene Layout
Rethinking Zero-Shot Video Classification: End-to-End Training for Realistic Applications
End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection
End-to-End Model-Free Reinforcement Learning for Urban Driving Using Implicit Affordances
SynSin: End-to-End View Synthesis From a Single Image
Hardware-in-the-Loop End-to-End Optimization of Camera Image Processing Pipelines
End-to-End Learnable Geometric Vision by Backpropagating PnP Optimization
An End-to-End Edge Aggregation Network for Moving Object Segmentation
EventSR: From Asynchronous Events to Image Reconstruction, Restoration,and Super-Resolution via End-to-End Adversarial Learning
Scale-Space Flow for End-to-End Optimized Video Compression
End-to-End Learning of Visual Representations From Uncurated Instructional Videos
Sign Language Transformers: Joint End-to-End Sign Language Recognition and Translation
LatentFusion: End-to-End Differentiable Reconstruction and Rendering for Unseen Object Pose Estimation
PnPNet: End-to-End Perception and Prediction With Tracking in the Loop
Self-Trained Deep Ordinal Regression for End-to-End Video Anomaly Detection
End-to-End 3D Point Cloud Instance Segmentation Without Detection
A Spatial RNN Codec for End-to-End Image Compression
End-to-End Camera Calibration for Broadcast Videos
End-to-End Adversarial-Attention Network for Multi-Modal Clustering