Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

「SIL勉強会 機械学習編」を開催しました

こんにちは,DSOC R&Dグループ インターン生の内田です.

今回は,先日京都で弊社が主催させていただいた「SIL勉強会 機械学習編」のレポートをお送りします.

SIL勉強会とは

Sansanは数年前より京都にオフィスを構えており,現在DSOCの研究員2名とSansan事業部のエンジニア1名がフルリモートで働いております.昨年には町家を改装した「Sansan Inovation Lab」(通称:SIL)をオープンしました.SILオープン後,京都の技術者コミュニティ活性化する目的で定期的に勉強会を開催しております.以前開催した「SIL勉強会 自然言語処理編」の詳細は下記からご覧になれます.

buildersbox.corp-sansan.com

当日の京都はあいにくの雨でしたが,雨の降るSILの庭はまさに「いとをかし」という感じで,むしろ良かったようにも思いました.皆様,雨のSILこそオススメです.

f:id:S_aiueo321:20190606125037j:plain
雨に濡れるSILの中庭
f:id:S_aiueo321:20190606125735j:plain
二階からの眺めはこんな感じ

嬉しいことに勉強会にも雨の中多くの方にお越しいただきました.発表についても皆様真剣に聞いていただいてありがたい限りでした.

f:id:S_aiueo321:20190606132313j:plain
勉強会の様子

さて,以下では発表内容についてレポートをお届けします.

PCAに関する最新動向

まず最初はDSOC R&Dグループ研究員の吉村より,PCAに関する最新動向について発表がありました.

speakerdeck.com

PCA(Principal Component Analysis; 主成分分析)とは,元の高次元観測データ集合から,できるだけ情報を落とさずに低次元で表現するために用いられる手法です.SVMなどのモデルへの入力次元数が計算量などの観点から制限される場合に,入力データの情報を落とさず次元を削減したいときなどに用います.2-3次元に次元削減を行えば,高次元データの関係性を可視化することもできます.

本発表ではPCAの派生を紹介した後,ICML2019で採択されたPCA関連の論文について紹介されていました.個人的に面白いなと思ったのは11ページの論文[*1]で,欠損値のある場合の一般化がすごく単純にできる部分が興味深かったです.また,外れ値についてもかなり検討が進んでいて,画像処理でも幾何的変換の導出に活かせそうだなと思いました.専門外なので勉強しなければ…!

Attention+超解像の論文紹介

続いて同じくDSOC R&Dグループの私内田より,Attention+超解像の論文紹介と題して発表いたしました.

speakerdeck.com

超解像は低解像度画像から高解像度画像を出力する技術であり,近年深層学習を用いた手法が大きな成果を上げています.また,Attentionとは特徴にマスクをかけることで特定領域の特徴を強調する機構のことで,近年自然言語処理やコンピュータビジョンの分野で広く用いられています.超解像も例外ではなく,昨年ごろよりAttentionを用いた超解像手法が良い結果を残すようになってきております.そんな状況の中で,今回はCVPR2019採択のSecond-order Attention Network[*2]について,私自身の勉強も兼ねて発表しました.

Beyond Machine Learning Modeling via SysML

最後に,ヤフー株式会社 大阪オフィスの山本さんより,プロダクション環境に機械学習を導入・運用する上での諸問題とその解決法,ベストプラクティスについてご発表いただきました.

機械学習エンジニアや研究員が注力するモデル構築はサービスの根幹である一方,プロダクション環境での運用においてはそれ以外に注力すべき問題がたくさんあります.発表はまず,それに関連した5つの問いから始まりました.

  1. 新しいアプローチをフル・スケールで即座に検証することが可能か?
  2. 全ての学習データの依存関係を把握しているか?
  3. 変更による影響を正確に測ることができるか?
  4. あるモデルの改善が他のモデルの劣化を引き起こしていないか?
  5. 新しいメンバが加わった際に迅速に業務開始することができるか?

問題であることは認識しつつ,正直なところイエスと答えられないものも結構あります.このような問題に対し,『Machine Learning Logistics』[*3]や『Rules of Machine Learning: Best Practices for ML Engineering』[*4]などを参照しながら,様々な解決策についてご紹介いただきました.

山本さんのご発表は参加者の方々にも大変好評で,普段機械学習に携わっていないエンジニアの方からも「全てのエンジニアが意識しないといけない」という声が聞かれました.私個人としては,名刺データ化プロセスの一処理の改善に取り組んでおりますので,前後の処理との依存関係についてのお話が一番興味深かったです.

おわりに

以上,SIL勉強会のレポートでした.懇親会にも多くの方に参加いただき,いろいろお話できました. ご来場いただいた方,山本さんはじめご尽力いただいたヤフー株式会社の担当者の皆様に改めて感謝申し上げます.

SILでは,これからもDSOCに限らず様々なイベントを開催する予定です. 関西圏で興味のある方は是非connpass等のイベント情報をウォッチいただきたく思います!

Sansan株式会社 - connpass

*1:N. B. Ipson, and L. K. Hansen; “Phase transition in PCA with missing data: Reduced signal-to-noise ratio, not sample size!”, arXiv, 2019.

*2:Tao Dai, Jianrui Cai, Yongbing Zhang, Shutao Xia, Lei Zhang, "Second-order Attention Network for Single Image Super-resolution," in CVPR 2019 (oral).

*3:Friedman E., Dunning T. (2017). Machine Learning Logistics. O'Reilly Media, Inc.

*4:https://developers.google.com/machine-learning/guides/rules-of-ml/

© Sansan, Inc.