Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

NLP2020 言語処理学会にて3件の口頭/ポスター発表を行いました

こんにちは、DSOC研究開発部の奥田です。

今回は3/17から3/20にかけてオンラインで開催された言語処理学会第26回年次大会 (NLP2020)に同僚の真鍋と高橋とともに参加しましたので、その報告をしたいと思います。3月初旬のDEIM2020に引き続きオンライン開催となった学会参加でしたが、NLP2020もなんとか無事終えることができました。

言語処理学会とオンライン開催

今年の言語処理学会は本来であれば水戸の茨城大学で行われるはずでしたが、新型コロナウィルスCOVID-19の流行の影響により、オンラインでの開催となりました。口頭発表とポスター発表はZoomを利用したオンラインミーティング形式となり、講演者や聴講者はバーチャルな会議室に入って発表を聞くというスタイルになりました。

f:id:yag_ays:20200327104916p:plain
開催スケジュールの様子。各部屋にZoomのリンクが記載されています

一方で、チュートリアルや招待講演が中止になったほか、スポンサーとしてはブース展示やスポンサーイブニングなどの参加者との交流の場がなくなりました。奈良先端大出身の私としては*1 、退官前の松本先生の講演をぜひ聞きたかったのですが、それもなくなってしまい少し残念でした。

発表内容

ここからは私たちの発表内容を簡単に紹介いたします。

Supervised Topic Model を用いた B2B 企業ブランド形成要因の分析 (真鍋)

B2B 企業のブランドの機能や要因については、まだ不明な点が多いのが現状です。本研究では、Eight名刺ネットワークを活用した企業ブランドの大規模調査データ Eight Company Score を用い、調査回答者の企業ブランドに対するレーティングと自由記述文の関係から、企業ブランド形成要因の抽出を試みました。具体的には、Supervised LDA 手法を用いて、企業ブランドに影響を与える潜在トピックを抽出し、そのトピックの解釈により、ブランド形成要因を考察しました。さらに、企業に頻出するトピックの差異と、企業の業績・株主価値との関連を明らかにしました。この結果は、企業ブランディング戦略を立案するマーケティング・マネージャーや経営者にとっても、有益な知見であると考えています。

辞書に基づく組織名抽出における辞書整備の影響 (髙橋)

辞書に基づく固有表現抽出手法では、辞書の質と量が重要だと考えられます。組織名を網羅した辞書をすべて用いたり、簡単な辞書整備を行ったりした場合に、組織名抽出の性能にどのような影響を与えるでしょうか。

簡単な実験を行い、結果をまとめた発表となります。なお、本研究は組織名抽出エンジンを開発する際に調査した内容をまとめたものです。

ニュース記事からの企業キーワード抽出 (奥田)

企業活動に関連するサービス名や店舗名といったキーワードは、企業を検索する際に重要になります。今回はニュース記事から企業キーワードを抽出する方法を提案し実験しました。記事文書からルールにより列挙した候補に対して、抽出対象として適するかどうかを固有表現抽出における系列モデルを用いて判定しました。

気になった発表

ここからはSansanにいる私たちから見て面白かった発表を、いくつかピックアップして紹介していきたいと思います。

契約書OCRの単語誤り訂正における漢字の偏旁冠脚を考慮した木編集距離の検討

OCRエンジンに、契約書に関する単語を入力した際に、正しい単語に訂正するために木編集距離を用いたという研究です。漢字を偏旁冠脚で分解し木として構成し、その木と辞書中語彙の木との編集距離を比較しています。実用においては、そもそも単語を切り出すのが難しいとは思いますが、単語レベルだとかなり訂正できることがわかります。

(髙橋)

chiVe 2.0: SudachiとNWJCを用いた実用的な日本語単語ベクトルの実現へ向けて

Sudachiの複数分割粒度で作成した単語ベクトルのモデルサイズを圧縮するために、長い単語を分割した短い単語集合から元の長い単語のベクトルを再構成できるように学習したという研究です。ポスターでは「選挙管理委員会」という長単位の単語は「選挙」「管理」「委員」「会」と短単位に分割できるという事例が紹介されており、短単位の意味から長単位の意味が構成されるというのは直感的です。

業務では文書というよりもう少し短い単位のフレーズや長めの単語を扱うことが多いので、それらに対する埋め込み表現の獲得にはとても興味があります。この研究とは少しずれてしまいますが、このような短単位→長単位の変換が可能になると嬉しいですね。

(奥田)

発表の様子と工夫点

当日はこんな感じでポスター発表しておりました。Sansan DOSCのR&Dグループでは地方拠点との週次ミーティングをリモートで行っており、オンラインでのコミュニケーションには慣れていたため、機材等もこのように準備することができました。

狭い会議室でひたすら画面に向かって喋るのは少々辛いものがありましたが、どのような所属の方が聞きに来られているかという情報がひと目でわかったり、チャット形式での質疑応答の体験はとても良かったと思います。

f:id:yag_ays:20200317131301j:plain
発表準備の様子

オンラインでのポスター発表で個人的に大事だと思ったのは、

  • 常に一定間隔で発表を続けること
    • 「質問を受け付けています」「もし質問がなければ再度頭から説明いたします」など、本編と質疑応答を繰り返す
    • 新しく部屋に入ってきた人が不安にならないよう、ファシリテートも兼ねる必要がある
  • 質問を発表者が読み上げること
    • 「ただいま〜〜〜という質問をチャットでいただきましたが、回答としては〜」みたいな感じで何の質問に答えているかを明らかにする
    • これは物理的な発表時でも大事で、質問者がマイクを使わないケースでは特に重要

あたりでしょうか。こうした配信やオンラインミーティングの経験を重ねていけば、より良いオンラインイベントの開催ができそうですね。

おわりに

最後になりましたが、NLP2020の開催を実現された大会委員会および運営の皆さま、本当にありがとうございました。次回は北九州の小倉で開催とのことなので、来年はぜひ物理的にお会いいたしましょう!


buildersbox.corp-sansan.com

buildersbox.corp-sansan.com

*1:ちなみに私は松本研出身ではありません

© Sansan, Inc.