Sansan Builders Box

Sansanのものづくりを支える技術やデザイン、プロダクトマネジメントの情報を発信

「画像処理 × 深層学習 勉強会」を開催しました

こんにちは,DSOC R&Dグループ インターン生の内田です. 今回は,1/29(水)に弊社オフィスで開催いたしました「画像処理 × 深層学習 勉強会」 のレポートをお届けしたく思います. 本イベントはSansan DSOCの2名に加え,ZOZO Researchさんから1名ゲストをお招きしてご登壇いただいたイベントとなります.

sansan.connpass.com

実はSansan側から登壇する吉村と私のセットは,以前京都での勉強会にて登壇しておりまして,二人で「同じようなイベントやりたいですよね~」とポロッと言っていたのが本イベントの発端です. 割とゆるふわな感じではあったものの,多くの方にご尽力いただきまして,なんと定員50名のところ150名程の応募がありました!当日も大変盛況でありがたい限りでした.

f:id:S_aiueo321:20200202143956j:plain
勉強会の様子

さて,以下では勉強会の内容について軽くさらっていきます.

発表1: GANの理論の最新動向

まずトップバッターとして,DSOC R&Dグループ研究員の吉村が「GANの理論の最新動向」と題して発表しました.

GAN (Generative Adversarial Networks) は生成モデルを学習する手法の一つで,GeneratorとDiscriminatorの2つのネットワークをmin-max最適化によって学習することで,学習データの分布を学習する手法です. インプレッシブな結果に注目が集まりがちなGANですが,近年GANの理論解析を行う論文も多く投稿されています. 本発表では,同じく生成モデルを学習するAutoencoderとGANの双対性に関する論文[*1]を紹介しました. 僕的には正直難易度の高い内容でしたが,応用分野において様々なアーキテクチャが乱立している昨今では,理論解析によって汎化限界などが解明されることで研究の方向性がガラリと変わる可能性があるため,勉強しつつキャッチアップしないといけないという気持ちになりました.

発表2: StyleGAN2 までの道のり

続いて,私から「StyleGAN2 までの道のり」と題して発表させていただきました.

Sansanで取り扱う名刺データは基本的にお客様からお預かりしているものであるため,全社的にデータの取り扱いには細心の注意を払っています. 個人情報保護法の規定に沿い,データ消去についても遅滞なく行う必要があるため,R&Dとしては突発的に一部のデータが消去されることを念頭に開発を行う必要があります. とはいえデモ用途などを考えると,永続的に使えるダミー名刺を自動生成できたら嬉しいという要望は根強いです. 本発表では,ダミー名刺生成に向けて,直近の画像生成モデルとして注目を集めているStyleGAN[*2]およびStyleGAN2[*3]について技術調査も兼ねて紹介しました.

発表3: 位置不変ニューラルネットワークによる集合データマッチング

最後に,ZOZO Researchの斎藤さんに,ご自身の研究テーマである「位置不変ニューラルネットワークによる集合データマッチング」について発表いただきました.

コーディネートはファッションアイテムの集合と捉えられ,所有するアイテムに合う新しいアイテムを推薦する場合,候補集合とのマッチングをしたいというモチベーションがあるそうです. 集合データは可変長でかつ順序を考慮しないため,集合データを直接扱うには,位置不変性を持ったニューラルネットワークを用います. 加えてコーディネートにおいては,アイテム間のインタラクションを考慮した特徴抽出も必要になってきます. 本発表では,上記を同時に達成する提案手法について詳しく説明いただきました.

個人的な印象としては,提案手法の内容もさることながら,評価実験の手広さがものすごかったです. 集合データを直接扱うベースラインだけでなく,BERT[*4]やグラフニューラルネットワーク[*5]等の他分野で用いられる手法も比較手法とされていて,まるで違う手法間のどこに共通点/相違点があるのかを見極めながら議論を進めていたように感じました. 私自身,今後研究開発に携わるにあたり,手法に囚われず手法を評価する姿勢には非常に刺激を受けました.

おわりに

以上,勉強会レポートでした! 勉強会後の懇親会に参加された方々ともお話できて大変良い会だったと思っています. ご来場いただいた方,斎藤さんはじめご尽力いただいた皆様に改めて御礼申し上げます.

R&Dでは,今後も定期的に勉強会を開催する予定となっておりますので,社会人・学生問わず多くの方に参加いただければと思います!

sansan.connpass.com

*1:Husain, Hisham, Richard Nock, and Robert C. Williamson. "A Primal-Dual link between GANs and Autoencoders." Advances in Neural Information Processing Systems. 2019.

*2:Karras, Tero, Samuli Laine, and Timo Aila. "A style-based generator architecture for generative adversarial networks." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

*3:Karras, Tero, et al. "Analyzing and improving the image quality of stylegan." arXiv preprint arXiv:1912.04958 (2019).

*4:Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).

*5:Cucurull, Guillem, Perouz Taslakian, and David Vazquez. "Context-aware visual compatibility prediction." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2019.

© Sansan, Inc.