【神山通信vol.4】冬の神山とメール解析技術の論文調査

こんにちは。技術本部研究開発部の高橋寛治です。

「神山通信」の連載は、私が表参道での勤務に戻るためにvol.4で最終回となります。

最終回は、神山の楽しいドライブルート･･･ではなく、神山の様子を紹介した後に、少し技術的な内容を含めて締めくくりたいと思います。

こちらの写真は、お正月に神山ラボに門松が立てられていた時のものです。

門松だぁ、と眺めていたところ、そもそも門松が何者なのか気になってきました。いざ門松が何かを自分に問いかけてみると、斜めに切られた竹を数本束ねて飾っているくらいしか知らなかったのです。いろいろ調べたくなりましたが、縁起物だと改めて思うことにしました。

さて、1月半ばになると寒波が到来し、神山も雪景色となりました。

気温も低く、夜の帰宅の際には、運転席のドアロックが凍ってしまいました*1。また車は雪落としが必要なほど、雪が積もっていました。まさか、徳島でこのような経験をするとは思いませんでした。

通勤快速スイフトスポーツで雪道を運転するのは初めてでした。さすがはスイフトスポーツ、安心感のある走りで、雪道は問題なかったです。車の話はいろいろ書きたいですが、この辺にとどめておきましょう。

最近は、営業DXサービスSansanの一機能であるメール署名取り込みのエンジン開発に取り組んでいます。

下図に表すように、受信したメールから送信者の情報を抽出し、名刺としてお客様が接点を蓄積できるようになるものです。

このようなエンジンに関連する技術について、論文を2件紹介をします。

Brunoらが2021年に発表した、Eメール中のテキストの領域分割を行う手法の提案です。

文をXLM-RoBERTaによりエンコードし、そのエンコードされた文の系列に対してBiLSTM-CRFによるラベリングを行う、というアプローチを取っています。領域は、挨拶や段落、引用、表など15種類定義されています。

本論文は、3言語で評価可能なデータセットを作ったことと、多言語の事前学習モデルを使ったことによる多言語対応が可能なことを示したことが、貢献となります。

Vitorらが2004年に発表した、Eメール中のテキストから署名行と返信行を抽出する方法の提案です。

メールアドレスの正規表現にマッチするか、電話番号の正規表現にマッチするかなどを特徴量とし、機械学習を用いて文末に署名を含むかどうかを分類します。次に、署名行か否かを様々な機械学習手法で分類し、その結果を提示しています。

返信行の抽出については、よく引用を表す記号として使われる > が出現するかどうかと、特徴量に基づく機械学習による分類を比較しています。

本論文は、署名や返信行の抽出を行単位の分類問題として取り組み、様々なモデルによる分析結果を示したことが、貢献となります。

改めて、リモートワークが普及した現在では、表参道と同様に神山ラボでも快適に仕事を続けることができました。とても静かで集中しやすい環境だったと思います。また、周囲の緑や薪ストーブなど、気分転換となる刺激もありました。

またいつか、神山通信を再開できればと思います。

以下は、過去記事一覧とSansan公式メディアmimiでのインタビュー記事になります。

高橋寛治 Sansan株式会社技術本部研究開発部 Data Analysisグループ

阿南工業高等専門学校卒業後に、長岡技術科学大学に編入学。同大学大学院電気電子情報工学専攻修了。在学中は、自然言語処理の研究に取り組み、解析ツールの開発や機械翻訳に関連する研究を行う。大学院を卒業後、2017年にSansan株式会社に入社。キーワード抽出など自然言語処理を生かした研究に取り組む。

*1:運転席は鍵穴があるため、そこから凍結してしまうようです。

Sansan Tech Blog