こんにちは、DSOC R&Dグループ研究員の奥田です。イクラ丼とスープカレーで胃もたれを起こしてしまい、加齢を感じる今日この頃です。
2018年11月3日から11月7日にかけて北海道で行われた第21回情報論的学習理論ワークショップ (IBIS 2018)にてポスター発表を行ってきましたので、発表の内容やワークショップの様子などを紹介したいと思います。
IBIS2018とは
IBIS2018は機械学習に関する国内最大のワークショップです。主に統計解析や機械学習、最適化など理論寄りの研究が多く、参加者の発表は基本的にポスター形式で行われます。今年はワークショップ全体の参加者が500名、ポスターは200件を超えるなど、年を経るごとにその注目度は上がってきております。また、IBISには幾つかの企画セッションやチュートリアルが設けられており、基礎から応用まで多様な発表が企画されております。
ちなみに、私は学生時代に「第1回 IBISMLチュートリアル」という本ワークショップと同じ研究会が主催している有償のチュートリアルに自費で参加したことがあります。このときに初めて機械学習や生成モデルといった基礎を学び、その後も事あるごとにこのチュートリアルの資料を参考にすることがありました。私にとってIBISのチュートリアルは、そういった意味でも今のキャリアの出発点となる思い出深い研究会となっております。
ポスター発表について
今回Sansanではディスカッショントラックのポスターにて「Bidirectional LSTMを用いた日本語氏名の姓名分割」という題で発表させていただきました。日本語の氏名というものは、ユーザによるフリーテキスト入力やOCRのデータ化の過程など、様々な要因によってその名字と名前という構造が欠損してしまうことがあります。そうした氏名の文字列に対して名字と名前に分割するというのが、本研究の内容です。かなり応用寄りの発表となりましたが、ポスターには様々な方と活発な意見交換や議論ができたと思います。お越しいただいた皆さま、ありがとうございました。
IBISの魅力と企業参加の意義
今回はじめてIBISに参加したのですが、とにかく色々な刺激を受けた4日間でした。
私たちは普段から自社サービスへの展開を視野に入れた応用よりの研究開発をやっておりますが、IBISのような理論寄りの研究に触れることで、その研究の幅広さであったり奥深さを知ることがでると思います。例えば、特殊なタスクでのAUCの最適化、Selective inferenceといった近年研究が始まった統計手法、または深層学習のモデルに電子透かしを埋め込むという面白い発想の研究など、普段は扱うことが無い問題や、異分野のデータセットに対するアプローチを知ることで、自分たちの研究開発に役立てたり、自分たちの立ち位置を再確認するきっかけとなりました。
IBISの開催趣旨には「同化」というテーマがあり、以下のような目標が掲げられています。
単に多様性という表現にとどまらず、機械学習という大きな枠の中で異なる分野が「同化」しつつ新たな研究の方向性を生み出してゆく土壌となるワークショップを目指します。
Sansanとしても独自のデータや解決したい問題を扱う企業として、こういった場で新しい研究の方向性やアイデアを参加者の方に提供できればと考えています。
インターンの募集
そのようなSansanですが、一緒にデータサイエンスをする仲間を募集しております!
特に、下記2テーマを対象にした長期インターンを募集しております。 Sansanには非常にユニークでかつ面白いテーマがたくさんあるだけでなく、今回のように論文や学会への発表も積極的に行っておりますので、企業のデータで研究をしてみたい、スキルの幅を広げたいといった学生の方には、今後の糧となる良い経験をしていただけると思います。興味のある方はぜひご応募ください。
日本屈指のKagglerが集う場で実データでの研究開発を行う長期インターン - Sansan株式会社のエンジニア新卒・インターンシップの求人 - Wantedly
- ビジネスネットワーク構造分析: キーマンの抽出
- 「人脈」の定量評価とその価値の探索
- 転職の傾向把握と、それを応用したリコメンドシステム
- 名刺交換から見える企業のポジションと業績・動向の関係
機械学習/自然言語処理で、数百万ユーザが使うサービス価値を向上させる - Sansan株式会社の新卒・インターンシップの求人 - Wantedly
- ニュース記事からの情報抽出
- ユーザの属性推定
- フィードのレコメンデーション、パーソナライゼーション