Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

「画像処理 勉強会」を開催しました

f:id:S_aiueo321:20201207175030p:plain

こんにちは,DSOC研究開発部の内田です. 弊社は表参道周辺にオフィスを構えており,DSOCは表参道沿いのSansan ONEに入居しています. 例年この時期になるとイルミネーションが輝くのですが,ご時世的に今年はかなり控えめで,少し寂しさを感じている今日この頃です.

本記事では,先日主催いたしました「画像処理 勉強会」のレポートをお届けします.

sansan.connpass.com

画像処理 勉強会

DSOC研究開発部では,機械学習・自然言語処理・社会学などの勉強会を開催しており,画像系のグループでも何か開催したいという要望があり開催する運びとなりました.最終的には,1週間前にconnpassページをオープンしたにも関わらず,293人もの方々に参加登録をいただきました!密かに弊社のconnpassの記録更新が目標だったので,ひとまず達成できてよかったです.

裏話的な話をすると,ちょうど私が京都に行く予定があったこともあり,感染対策を施した上で,京都で少人数のオフライン開催も検討していました.結局は世間の動向見てオンライン開催としましたが,私とゲストの笹野さんは京都のSansan Innovation Labより発表をしました.

f:id:S_aiueo321:20201207194131j:plain
勉強会の様子

勉強会後,登壇者間でいろいろ話をしていたのですが,やはり懇親会などのコミュニケーションがあると得るものがあるな感じました. 次回以降はオフラインでの開催ができる世の中になっていると嬉しいですね.

発表1: 広告クリエイティブに関連する近年の研究の紹介(Deep SVGなど)

まず最初に,株式会社サイバーエージェント AI Lab の下田さん (@444shimo) から,DeepSVG [*1] に関してご発表いただきました.

www2.slideshare.net

一口に「画像」といっても,その表現方法によっていくつかの種類に分類されます. まず,画像を色を持った点の集合として表現したものをラスタ画像*2といいます. JPEGやPNGはラスタ画像を扱うためのファイル形式であり,普段の生活で我々が最も目にする機会が多いのではないでしょうか. 他方,画像を幾何的な図形およびそのパラメータの集合として表現したものを ベクタ画像 といいます. ベクタ画像はPDFやタイトルにも登場するSVGなどのファイル形式で知られ,原理上どんなに拡大しても滑らかな曲線やグラデーションが得られます.

近年発展著しい深層生成モデルも主なターゲットはラスタ画像であり,ベクタ画像を生成できる手法はあまりありませんでした. そこで今回紹介された DeepSVG では,SVG-Icons8 というデータセットを提案するとともに,Transformerを使ってSVGの描画コマンドを生成するう方法を提案しています. ベクタ画像を描画コマンドの系列として捉える視点が結構衝撃的で,発表中私はただただ感心していました.

余談ですが,DeepSVGの最終著者であるETH Zurich CVLabのRadu Timofte氏は後述の超解像分野でもトップランナーであり,強い研究者はどこでも強いということを痛感しました.

発表2: 文字と超解像

続いて私内田 (@s_aiueo32) から,文字と超解像について発表しました.

speakerdeck.com

前処理として超解像を導入すると,文字認識精度を向上することが経験的に知られています. 私自身,弊社でのインターン時にこのテーマに取り組み,一定の効果があることを確認しました. しかしながら,文字に対する超解像に関する論文はあまり多くないという現実もあります.

近年,超解像分野は実応用に向けた研究がホットです. 実応用に耐えうる頑健なモデルを作るアプローチとして,高解像度-低解像度画像ペアを実際に観測した real-paired dataset を利用するアプローチが提案されています[*3][*4]. 今回紹介した論文 [*5] では,文字超解像に特化した TextZoom dataset を提案し,結果として文字認識精度を10%以上向上させることに成功しています.

発表3: 自己教師あり学習の新しいアプローチ

最後に,ソフトウェアエンジニアの笹野さん (@SquirrelYellow) から,自己教師あり学習について発表いただきました.

speakerdeck.com

近年深層学習分野において,事前学習済みモデルは研究を加速させる一端を担っています. 事前学習の方法にはいつか種類があるのですが,最近のトレンドとして自己教師あり学習がホットです. その中でも,正の教師データを加工して正解データを作成する類似度ベースの手法について,フォーカスを当てて発表いただきました.

発表中従来手法との差分がしっかり説明されていて,門外漢の私でも大変わかりやすく感じました. そして紹介されていた SimSiam[*6] という手法,何と勉強会の1週間前に投稿された論文で超最新トピックでした. 学生時代に比べてarXivを見る頻度が減ったと感じている自分にとって,シャキッとしないといけないという刺激をもらいました.

まとめ

以上,「画像処理 勉強会」のレポートでした. ゲストの下田さん,笹野さんのコンテンツ力もあり,かなり濃い内容をお届けできたかなと思います. DSOC研究開発部では引き続きこのようなイベントを開催する所存でありますので,今回参加いただいた方もそうでない方も奮ってご参加いただければと思います. 下記リンクもウォッチいただけると幸いです!

▼ connpassページ

Sansan株式会社 - connpass

▼ Sansan DSOC Speakerdeck

Sansan DSOC (@sansandsoc) on Speaker Deck

*1:A. Carlier, M. Danelljan, A. Alahi, and R. Timofte, “DeepSVG: A Hierarchical Generative Network for Vector Graphics Animation,” Adv. Neural Inf. Process. Syst., vol. 33, 2020, [Online].

*2:ビットマップ画像といったりもします.

*3:X. Zhang, Q. Chen, R. Ng, and V. Koltun, “Zoom to learn, learn to zoom,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2019, pp. 3762–3770.

*4:J. Cai, H. Zeng, H. Yong, Z. Cao, and L. Zhang, “Toward real-world single image super-resolution: A new benchmark and a new model,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 3086–3095.

*5:W. Wang et al., “Scene Text Image Super-Resolution in the Wild,” arXiv [cs.CV], May 07, 2020.

*6:X. Chen and K. He, “Exploring Simple Siamese Representation Learning,” arXiv [cs.CV], Nov. 20, 2020.

© Sansan, Inc.