Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

言語処理学会第31回年次大会(NLP2025)に参加しました

こんにちは。研究開発部の大田尾です。

2025年3月10日(月)から3月14日(金)にかけて、長崎県の出島メッセ長崎にて言語処理学会第31回年次大会(NLP2025)が開催されました。弊社からは、プラチナスポンサーとして大田尾・齋藤・橋本・保坂・Loemの5名のメンバーが現地で参加し、スポンサーブースの出展と3名によるポスター発表をしました。本ブログではその様子をお伝えします。

言語処理学会第31回年次大会(NLP2025)について

言語処理学会とは、言語処理に関する研究成果を発表する国内最大の学会であり、年次大会として年に一度、国内の言語処理の研究者が集まります。近年のLLMの盛り上がりもあり、今年度の発表件数は777件、参加登録者数は2320人と過去最大の規模でした。懇親会やスポンサーイブニングも公式で開催され、学生や企業を問わず多くの研究者による交流がなされる場となっています。

言語処理学会第31回年次大会(NLP2025)

スポンサーブース

弊社のスポンサーブースでは、メールや請求書や契約書など、さまざまな文書を対象にした自然言語処理の取り組みを紹介しました。特に、メールからの情報抽出におけるLLM活用や、事前学習から行っている内製のVision Language ModelであるViolaの活用について紹介しました。また、その場で名刺やレシートの写真を撮り、Violaによる実際の出力結果を確認できるデモも設置し、多くの方に体験してもらいました。

スポンサーブース

Violaについてより詳しく知りたい方は、以下の資料をぜひご覧ください。

speakerdeck.com


また、ブースに来ていただいた方には、Sansan研究開発部の成果をまとめたTech Reportや、ステッカーやお菓子などのノベルティをお配りしました。

パンフレット・ノベルティ

ポスター発表

弊社からは、3名の研究員によってポスター発表をしました。いずれの発表も多くの方に足を運んでいただき、さまざまな議論ができました。以下では、順に発表の概要を説明します。より詳細な内容が気になった方は是非原稿を読んでみてください。

質問応答によるメールからの送信者情報抽出

大田尾からは、「質問応答によるメールからの送信者情報抽出」というタイトルで発表をしました。メールから送信者の氏名や会社名などの情報を抽出できると、メールの送受信履歴の解析や企業間関係の把握が容易になり、メール管理の効率化に繋がります。このような背景のもと、質問応答によってメールから送信者情報を抽出する手法を提案し、GPT-4oでのfew-shot推論に加え、複数のアーキテクチャでファインチューニングを行い、抽出性能を比較しました。実験の結果、GPT-4oによるミスの傾向や、Decoder-onlyアーキテクチャとEncoder-Decoderアーキテクチャにおける抽出性能の違いを確認しました。

原稿PDF: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/P6-10.pdf

大田尾の発表の様子

視覚的質問応答による文書情報抽出における同時多項目推論

Loemからは、「視覚的質問応答による文書情報抽出における同時多項目推論」というタイトルで発表をしました。視覚言語モデル(VLM)を用いた視覚的質問応答(VQA)に基づく情報抽出で、複数の項目を同時に推論する手法の有効性を検証しました。従来の手法では各項目を独立に推論するため、たとえばレシート上の「合計金額と税額」のように強く関連する項目同士の依存関係を十分に活用できていませんでした。そこで、関連性の高い項目をまとめて処理するアプローチを導入し、実世界のレシートデータを用いて評価したところ、依存度の高い項目の抽出精度が大幅に向上し、多数の項目を扱う場合でも安定した性能を確認できました。

原稿PDF: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q10-9.pdf

Loemの発表の様子

ニュース記事中の企業名のEntity LinkingにおけるQuestion Answeringを用いた曖昧性解消

齋藤からは、「ニュース記事中の企業名のEntity LinkingにおけるQuestion Answeringを用いた曖昧性解消」というタイトルで発表をしました。既存手法では、ニュース記事と、企業情報のベクトルの類似度が最も大きい法人番号を出力していますが、企業データベースが持つ他のテキスト情報を有効活用できる手法ではありません。そこで、GPTによるQuestion Answeringを利用し、In-Context Learningを用いた他のテキスト情報を適切に活用可能なEntity Linkingを提案しました。提案手法により、既存手法に対し性能改善を確認しました。

原稿PDF: https://www.anlp.jp/proceedings/annual_meeting/2025/pdf_dir/Q10-25.pdf

齋藤の発表の様子

まとめ

本ブログでは、NLP2025における弊社の取り組みを紹介しました。学生や企業を問わず多くの人と交流・議論ができ、とても良い機会となりました。来年のNLP2026においても研究成果を発表できるように引き続き取り組んでいきます。

また、長崎は海鮮が有名であり、弊社の参加メンバーで絶品のお刺身を食べました。この学会参加によって参加メンバー内での仲も深まったと思っています。

長崎で食べたお刺身

最後に、Sansanでは一緒に働く仲間を募集しています。Sansanでの研究開発に興味を持たれた方は、ぜひご応募ください!

newgradsevents.corp-sansan.com

media.sansan-engineering.com

© Sansan, Inc.