こんにちは、DSOC 研究開発部の橋本です。前回から引き続きファイアーエムブレムをぼちぼちやっていますが、全ての攻撃を躱すユニットを作ってしまうと良くも悪くも一気に簡単になってしまい、なんだかなあ、となっています。
さて、今回は3/2(月) ~ 3/4(水) で開催されたDEIM2020に、Sansan DSOC研究員の奥田、糟谷、橋本の3人で協賛企業として参加してきましたので、その報告をいたします。
DEIMについて
DEIM とは「データ工学と情報マネジメントに関するフォーラム」のことで、情報科学における様々な研究トピックについて議論を行えるワークショップです。
例年合宿形式で開催されており、今回は福島県の磐梯熱海ホテル華の湯で開催される予定でしたが、新型コロナウイルスの感染拡大の影響もあり、オフラインでの開催が中止となってしまいました。わずか2週間の準備期間にも関わらずオンライン会議システムを構築および運営していただき、ありがとうございました。DEIM2020の運営の皆様に感謝申し上げます。このような困難を乗り越えたオンライン学会に参加することができて、とても光栄でした。
オンライン会議について
DEIMの通常の発表は、全てWebExを通して行われました。プレナリーセッションは1つのチャンネルで、一般の口頭セッションは各セッションごとにWebExのチャンネルが割り振られ、各自興味あるチャンネルに入っていく、という形です。もちろん全てのチャンネルを確認したわけではないですが、いずれのチャンネルにも30人程度は常に入っていたようです。
また、インタラクティブセッションと呼ばれるポスター発表のセッションですが、こちらはpdfが貼られており、Wherebyのリンクを踏むと発表者に直接質問に行けるシステムになっていました。
さらなる細部の詳細についてはWIkiに記載されていますが、このようにオンライン学会開催についてGithubで知識共有がなされているのは素晴らしいなと感じました。
技術報告での発表
企業協賛を行った各社には技術報告の時間が割り当てられました。昨年は、協賛企業からの発表専用のセッションが設けられてそこで発表するという形でしたが、今回はセッションの1つという形での発表となっていました。 弊社からは[A5] 情報検索のセッションにて研究員の奥田が登壇し、「名刺を超えて人や企業を検索する -Sansanにおける検索システムへの取り組み- 」というタイトルで発表がありました。この発表では、Sansanがなぜ検索に向き合っているか、また人や企業を検索するサービスを展開するためにどのようなアプローチをとっているかについてお話しました。
気になった・参考になった研究
さて、今回参加したメンバーの奥田・糟谷・橋本から、DEIM2020の発表の中から気になった・参考になった研究を一言二言で書いていきたいと思います。
奥田チョイス
・「ウェブ広告閲覧履歴を用いたユーザ属性の推定」
ウェブの閲覧履歴というのは、どういうウェブサイト/ページ単位で集約するのか、どういった順でページを開いたかという系列情報を特徴量として活用するのか、データハンドリングが難しい印象です。取り組まれているタスク自体はスタンダードなものの、複数のタスクについて特徴量の作成方法や分類モデルを変えながら総当り的に調べられており、精度が良い組み合わせには共通点があったりと興味深い結果だったと思います。
・「少量学習データとBi-directional LSTM-CNN-CRFによる参考文献書誌情報抽出」
私の取り組んでいることに近い内容でしたので、ぜひコメントしたいと思います。情報抽出タスクにおけるデータ量という軸に対して、能動学習やデータ拡張、転移学習といった手法を試されており、特にデータ拡張はあまり効果が無かったという結果は興味深いと感じました。固有表現部分の文字列を削除するというデータ拡張を試されていますが、タスク的に系列情報はそれほど必要としないのか、他になにか要因があるのか気になります。
糟谷チョイス
・「ピクトグラミングへの自然文入力および音声入力機能の追加とその評価」
ピクトグラミングはtwitterなどで何度か目にしていましたが、実際に触ってみると想像以上に作りこまれていて、これをプラットフォームにいろいろな研究がされているのを見て興味深く感じました。特に今回、3つのピクトグラミング関係の研究が発表され、それぞれ小学校で実験をしていて、よい循環が生まれているなと感じました。
・「SuperSQLを用いたHTML生成における特定構造生成関数の実装」
SuperSQLについては初めて知りましたが、なかなか便利そうだなと感じました。私の実務でも、SQL+ちょっとした表だけでいいというケースは多いです。現在はJava + PostgreSQLでしか動かないということですが、PythonやMySQLでも動かせるとかなり広がりそうな気がします。画像なども使えるようになるともっと便利になりそうですね。
橋本チョイス
・「商品検索におけるゼロマッチ解消のためのデータセット構築の検討」
一般的に、 ある検索ワードを入力してヒット数が0件(ゼロマッチ)だった、ということはよくあります。この研究では商品の検索データにおいてゼロマッチだったクエリに対し(1) 単語削除,(2) 単語置換,(3) 完全な書き換え,(4) 誤り修正 のどれかでヒットするかどうかの分類問題に落とし込んでいました。精度としてはまだまだこれからのようですが、地道にクラウドソーシングでデータセット構築しており、萌芽的でよい研究だなと思いました。また、Sansanは名刺の検索をコア機能としているため、検索機能の改善にも役立つのではないか、という観点で興味深く聞いていました。
・「変分ベイズにおける最適解探索効率の検証」
一般的なcoordinate ascentの変分ベイズでは局所解にハマることはよく知られていますが、摂動を与えるために期待値のモンテカルロ近似とSGDを行った場合にどうなるかを検証していました。SGDではデータの一部を使っているため効率が良くない一方で、モンテカルロ近似ではデータを全て使った上で摂動を与えているため効率が良いという考察は興味深かったです。データをすべて使った摂動を与えるというのが他の最適化アルゴリズムにも導入できれば、面白くなりそうです。
まとめ
今回はオンライン開催となったDEIMですが、運営の皆様のご尽力もあり、とても楽しむことができました。
Sansan DSOCの研究開発部では、今回発表があった検索技術を始め、様々なデータ活用技術について日々研究・開発しています。ご興味がある方は、ぜひこちらからご応募ください。