第14回テキストアナリティクス・シンポジウムで発表しました

こんにちは。 DSOC R&D グループの高橋寛治です。

2019年2月7日と8日の2日間にわたり京都で開催された第14回テキストアナリティクス・シンポジウムに参加しました。

本記事は、参加報告および発表内容の紹介となります。

テキストアナリティクス・シンポジウム

テキストアナリティクス・シンポジウムは、テキストの分析手法や分析のための基礎技術・実応用例などが議論される研究会です。学術側、企業側から多数参加しており、産学交流の場でもあります。

私自身、本学会への参加は3回目(第11回は聴講)、発表は学生の時以来の2回目となる研究会です。

今回は龍谷大学大宮キャンパス（京都）で開催されており、威厳のある建物でした。

f:id:kanjirz50:20190212104853j:plain

2日間で、一般講演11件、特別講演4件と多数の発表がありました。 1日目の夜には懇親会があり、ざっくばらんに研究者間の交流を楽しんだり、2日目は高専の学生さんとランチに行って高専トークをしたりと、研究報告以外でも非常に楽しい時間を過ごさせていただきました。

それでは、学会で興味深かった発表や自身の発表内容について簡単に紹介したいと思います。

興味深かった発表

招待講演や特別講演には特に興味を惹かれたため紹介したいと思います。これらは、いずれも実応用に向けた取り組み事例について紹介されており、課題や解決手段が非常におもしろいです。

一般発表も多岐にわたっており、クロージングでは全発表のタイトルのワードクラウドが公表されました。そこに並ぶキーワードはバリエーションに富んでいました。

f:id:kanjirz50:20190212112349j:plain

コンタクトセンタ向け音声マイニングシステムForeSight Voice Mining

コンタクトセンタにおいて、音声認識が出力したテキストに対して様々なテキストアナリティクスの技術を活用することで、業務改善を行うというものでした。高品質な音声認識や電話器を考慮したシステムなど、NTTさんの力の集結といった印象を受けました。

コンタクトセンタのオペレータの発する会話を顧客体験が良くなる方向に定量的に指示できるというのは便利だと感じました。

防災・減災と自然言語処理：内閣府SIPにおける防災チャットボットの研究開発

チャットボット（対話）だからこそ可能な防災についての研究開発を説明されていました。具体的にはLINE上で動作するボットがユーザとの対話を通じて防災・減災を行うというものです。例えば、災害時にはボットからユーザに対して被害状況の確認メッセージが届き、それに答えていくことで災害情報が蓄積されたり、ユーザを避難所へ誘導できたりします。

対話用の同義語辞書や地名抽出のための辞書などを泥臭く圧倒的な量で集めている点に、すごさを感じました。

製品利用可能な形態素解析器『Sudachi』の現状と今後の展望

製品利用可能(ライセンスと品質)なJava実装の日本語形態素解析器です。言語処理では形態素解析前後に様々な処理を行うのですが、属人化しがちです。そういったノウハウを集約し、手軽にエンジニアが利用できることを目的に開発されています。

私自身Sudachiに似た解析器を学生時代に研究開発していたため、その有益さや苦労には随所で共感してしまいました。 Unidicベースで辞書構築を行ったり、語の連結を行ったりと、話し出すときりがありません。

情報検索と固有表現抽出では実用の際の単語分割単位が異なり、実装はやや面倒なのですがプラグインで切り替えられるというのは非常に魅力的です。スカンクワークとして細く長く継続して開発するとされており、10年間はメンテナンスしたいそうです。 OSSなので私も何か貢献できればと思いました。

発表で最も印象的だったのは、「解析器はすぐに廃れるが言語資源は残る by 松本先生」 という力強い言葉です。

Wikipedia知識の構造化プロジェクト「森羅」

Wikipediaの知識を構造化することで説明可能な自然言語処理システムを作る、ということを目的に進められているプロジェクトです。 Sansanからは奥田と私が参加させていただいておりました。

Wikipediaは豊富な知識源ですが、自然言語で書かれているため、知識間の関係や属性といったものは構造化されていません。本プロジェクトでは構造化するために、参加者が各自で構造化する処理を開発するというコンペ形式を採用し、その出力をアンサンブルすることで高精度な構造化に取り組まれています。

アンサンブルすることでかなり精度があがった例を見て、本プロジェクトに参加してよかったと感じました。

発表内容

「要望分析のための投稿テキストのカテゴリ分類支援」というタイトルで発表しました。

研究の概要は、社内のテキスト分類業務支援のために、作業者は分類器が出力した結果を修正するという方法で作業することで、分類器がない場合と比べて最大で作業時間が半分になるというものです。近年、AutoMLを始めとして機械学習がより簡単に実現できるようになってきたため、その有効性を定量的に結果を示しておきたいという思いから、原稿の執筆に至りました。

質問をたくさんいただくことができました。例えば、「(ご自身の経験から)分類モデルの出力のほうが人間よりも正しい場合があるが(当研究においても)あったか」という質問をいただき、実際に学習時の誤りを見ているとそういった事例がありました。他には、「精度の良いモデルで答えを提示すると、人間が不正確になってくるのではないか」という質問もいただき、実験する価値があると感じました。

発表することで勉強する

学会や研究会で実際に発表することで、プロフェッショナルの皆様から様々な意見や質問をいただくことができ、非常に勉強になります。

次は言語処理学会年次大会でポスター発表を行う予定ですので、ぜひみなさまからご意見やご質問をいただければ嬉しいです。よろしくお願いいたします。

執筆者プロフィール

高橋寛治 Sansan株式会社 DSOC (Data Strategy & Operation Center) R&Dグループ研究員

阿南工業高等専門学校卒業後に、長岡技術科学大学に編入学。同大学大学院電気電子情報工学専攻修了。在学中は、自然言語処理の研究に取り組み、解析ツールの開発や機械翻訳に関連する研究を行う。大学院を卒業後、2017年にSansan株式会社に入社。現在はキーワード抽出など自然言語処理を生かした研究に取り組んでいる。

Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信