Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

「【Sansan×エムスリー】自然言語処理勉強会」を開催しました

こんにちは、DSOC R&Dグループ研究員の奥田です。前回は名古屋でブログを書いてましたが、今回は京都のSansan Innovation Labからお送りしております。

今回は4/24(水)に開催された「【Sansan×エムスリー】自然言語処理勉強会」の様子を紹介したいと思います。

【Sansan×エムスリー】自然言語処理勉強会(ライブ配信あり) - connpass

f:id:yag_ays:20190426101248j:plain
実際にはこの会場がすべて埋まりました!

この勉強会はエムスリー株式会社さんと合同で開催したイベントです。自然言語処理に関する話題について、それぞれの会社から2名登壇する形で発表しました。

connpassでの事前参加者はなんと参加可能人数の2倍以上!勉強会の募集開始後にすぐ埋まってしまうなど、皆さんの興味の高さを感じさせられる人気具合でした。以前Sansan主催の自然言語処理勉強会を開催したときはそれほどでもなかったので、これもひとえにエムスリーさんの影響力の大きさのおかげですね!私たちSansanも、より皆さんに興味を持ってもらえるようプレゼンスを上げていきたいところです。

こんな感じで開催前から大盛況だったため、関係者の協議の上、急遽YouTubeによるライブ配信も行いました。今回のようなセッティングでは初めての試みのため、Switchのゲーム配信でその能力を磨いた弊社高橋が、万全の体制でライブ配信に取り組んでくれました。その甲斐もあってライブ配信は大成功だったのですが、逆に会場の方のプロジェクタの設備不良で参加者の方にご迷惑をおかけすることに……。参加者の皆様申し訳ありませんでした。この経験はぜひとも次に活かしたいと思います。

f:id:yag_ays:20190424190919j:plain
勉強会前の事前準備の様子

さて、ここからは各発表について軽く触れていきたいと思います。

発表1:田中 龍亮さん /エムスリー株式会社

まずエムスリー株式会社の田中さんより「双曲空間への単語埋め込みとQAサービスでの自然言語処理を用いた推薦システムについて」を発表いただきました。

f:id:yag_ays:20190426095508j:plain

田中さんはなんと今年4月に中途入社したばかりとのこと。入って一ヶ月未満で外部発表というのはスゴいですね!今回は双曲空間への単語埋め込みに関する論文解説と、自社のQAサービスへの適用の検討結果をご紹介頂きました。

ICD-10という疾患の分類データに対して双曲空間への単語埋め込みを適用したところ芳しくない結果だったとのことですが、個人的には今後の発展にとても期待しております。この後に紹介する私の発表でも階層構造という話題が出てきますが、やっぱり人の考え方の根幹にあるフレームワークなんですよね。従来はwordnetといった辞書のようなものを人間が頑張って書いてメンテナンスしてきたわけですが、それとは異なった方法で数学的に表現できれば自然言語処理の可能性も広がりますし、ビジネス適用も加速するはずです。

発表2:西場 正浩さん /エムスリー株式会社

次にエムスリー株式会社の西場さんより「Sentence embeddingとExtractive summarization の紹介」を発表いただきました。

最初の論文はQuick-thoughtというSentence Embeddingの手法で、Skip-thoughtという手法の改良版となっています。次の論文は文章要約のなかでも、Extractive Summarizationという文章中から候補文を抜き出す形で要約するタイプの手法において、Sentence Embeddingを利用したという研究です。田中さんの発表テーマが単語なら西場さんは文章ということで、また違った活用事例が考えられるトピックでした。

そういえば西場さんの自己紹介の際に「Twitterのフォロワー数がもう少しで2483人(にしばさん)に到達する」とのことでしたが、その後めでたく到達されたようです 🎉

発表3:高橋 寛治/ Sansan株式会社

そしてSansan株式会社からは高橋が「【論文紹介】Learning Named Entity Tagger using Domain-Specific Dictionary」を発表しました。

固有表現抽出(Named Entity Extraction)というタスクにおいて学習データの作成は非常にコストがかかる作業です。この論文では、Distant Supervisionという手法を用いて自動でラベルを付与し固有表現抽出を学習するという方法を提案しています。実際に高橋が実タスクで実験したところ、残念ながら既存の固有表現抽出器を超えることはできませんでしたが、データがなくともF値0.5を到達するという点では将来性のある研究だと感じました。

発表4:奥田 裕樹/ Sansan株式会社

そして最後にSansan株式会社の奥田から「多値分類における階層構造を利用したマルチタスク学習とその解釈性」という題で発表しました。

今回はマルチタスク学習という枠組みで、目的変数が階層構造を持つ場合の予測精度向上に取り組んでみた話です。あと最近流行りの解釈性についても、単語ごとの重要度を算出する方法を用いてモデルの解釈を試みました。発想としては面白そうだなと思ったのですが、結果としてそれほど精度が上がらず少し残念でした。私ごときがニューラルネットの気持ちを理解するには程遠いようです。

懇親会の様子

さて、最後に懇親会などの様子をご紹介。今回はエムスリーさんがお鮨とお酒を提供くださいまして、いつもより華やかな懇親会になったと思います。夜遅くまで参加いただいた皆さんありがとうございました 🙌

© Sansan, Inc.