f:id:S_aiueo321:20200729155155j:plain

こんにちは，DSOC R&Dの内田です．最近ちゃんと自炊を始めたのはいいものの，土地柄に合わず東南アジア料理ばかりが生産されています．和風なものにトライしていきたいところどす．

この度，7/18(土)に開催されました「第三回　全日本コンピュータビジョン勉強会 CVPR2020読み会（後編）」にて発表してきましたので，今回はその発表報告です．バナーの写真とは一切関係がありません．

全日本コンピュータビジョン勉強会について

全日本コンピュータビジョン勉強会は，その名の通りコンピュータビジョンを勉強する会なわけですが，普段は各地方別々に「コンピュータビジョン勉強会＠関東」，「名古屋CV・PRML勉強会」，「関西CV・PRML勉強会」という勉強会が開催されています．今回は新型コロナの影響で勉強会がオンライン開催となる中で，合同で開催される運びになったそうです．

私自身はコンピュータビジョン勉強会＠関東の方にたまに参加しており，実は2回目の登壇です．鋭い質問も多く飛んでくるので結構ヒリヒリすることもありますが，それも含めて楽しい会になっています．加えて，懇親会で分野の先端を走っている方々ともお話しできるのが醍醐味なので，早くオフラインで開催できるような情勢になって欲しいと願うばかりです．

発表内容

今回私は Meta-Transfer Learning for Zero-Shot Super-Resolution[*1] という論文について紹介しました．発表資料は下記からご覧ください．

speakerdeck.com

以前からちょくちょくブログで紹介している超解像技術ですが，最近はネットワーク構造を探索するような精度競争がひと段落し，実用に向けた動きがたくさん出てきています．具体的には「速度」と「汎化性能」が大きな要件となります．

超解像は，劣化した(解像度が落ちた)画像に対し，劣化の逆変換を学習して元の画像を復元する問題です．これは超解像における汎化性能が，データの生成過程に大きく依存することを意味します．昨年のCVPR2019の動向を伝えた記事でも述べましたが，学習データとテストデータとで適用される劣化が異なる場合，性能が著しく低下します．素直に考えれば，学習時に利用する劣化に多様性を持たせ，あらゆる劣化に対して頑健なモデルを作ればいいかもしれません．しかし実際のところ，この方策ではデータセットの量や計算リソースを際限なく投入することになりかねません．

テスト画像への汎化を目指すにあたり，近年ではテスト画像一枚を利用してモデルを学習する方法(Internal Learning)が注目されています．超解像でもこれは例外ではなく，Internal Learningを用いた手法であるZSSR[*2]は高い汎化性能を示すことで知られます．特に，連続的なパターンが異なるスケールで映り込む場合にZSSRは有効とされています．一方で，テスト画像に対して逐一モデルを学習する性質上，処理時間が長く上述の要件を満たせません．

そこで本論文では、「メタ学習」というスキームを導入します．広義でメタ学習は，「学習の方法を学習する方法」とされ，強化学習の文脈でよく登場します．本論文で利用するMAML [*3]というスキームでは，モデルが幅広いタスクに素早く(少ないパラメータ更新で)適用できるような初期値を学習します．すなわち，MAMLを通して獲得した初期値を用いることで，各テスト画像への適応を高速化し，「速度」と「汎化性能」を実現しようとしています．

個人的に面白かった発表

Proxy Anchor Loss for Deep Metric Learning [*4]

speakerdeck.com

Metric Learningは，分類問題のようにクラスを当てにいくのではなく，「同じクラスのデータ同士は近く，異なるクラスのデータ同士は遠く」なるようにデータ(の埋め込み)間の距離を最適化することで，良い特徴空間への変換を学習する方法です．ここ1-2年かなり盛り上がっている分野で，顔認証や画像検索などへの応用が可能です．本発表では，概念の説明から発展の歴史，最新手法について触れられていました．私自身学部時代に齧っていましたが，Triplet Lossで知識が止まっていたので，すごくわかりやすい発表で大変ためになりました．

PolarMask: Single Shot Instance Segmentation With Polar Representation [*5]

speakerdeck.com

Instance Segmentationは，入力画像の各ピクセルがどのクラスおよびインスタンスに属するかを認識し，そのマスクを出力する問題です．いうなれば物体検出とSemantic Segmenatationの合わせ技のような手法で，実際に2段階に処理する手法がベースラインとなっています．本論文では，ピクセルごとにクラスラベルが付与されたマスクの表現方法を，極座標系に変換して表現することで，バウンディングボックスを推定することなくInstance Segmentationを可能にしています．マスクの表現を変えることに伴い誤差関数の表現の変更も余儀なくされますが，よりシンプルな形に定式化されていて面白かったです．現状ドーナツ状に穴の空いている物体には適用できない欠点もあるそうですが，今後の発展に期待です．

まとめ

以上，全日本コンピュータビジョン勉強会の発表報告でした．少しでも最近の超解像分野における問題意識の共有ができていれば幸いです．他の発表者さんを聞いて，みなさん発表スキルが高く，見習わなければと身の引き締まる思いです．また，数百人規模のオンライン勉強会でしたが，幹事の方々の運営がとてもスムーズで，自社で開催する勉強会でも参考にしたく思いました．

*1:Soh, Jae Woong, Sunwoo Cho, and Nam Ik Cho. "Meta-Transfer Learning for Zero-Shot Super-Resolution." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

*2:Shocher, Assaf, Nadav Cohen, and Michal Irani. "“zero-shot” super-resolution using deep internal learning." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

*3:Finn, Chelsea, Pieter Abbeel, and Sergey Levine. "Model-agnostic meta-learning for fast adaptation of deep networks." arXiv preprint arXiv:1703.03400 (2017).

*4:Kim, Sungyeon, et al. "Proxy Anchor Loss for Deep Metric Learning." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.

*5:Xie, Enze, et al. "Polarmask: Single shot instance segmentation with polar representation." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020.