こんにちは。研究開発部の佐藤です。
2026年3月9日(月)から3月13日(金)にかけて、栃木県のライトキューブ宇都宮にて言語処理学会第32回年次大会(NLP2026)が開催されました。弊社からは、プラチナスポンサーとして佐藤・齋藤・橋本・大田尾・Loem・根本の6名のメンバーが現地で参加し、スポンサーブースの出展と5名によるポスター発表をしました。本ブログではその様子をお伝えします。
言語処理学会第32回年次大会(NLP2026)について
言語処理学会とは、言語処理に関する研究成果を発表する国内最大の学会であり、年次大会として年に一度、国内の言語処理の研究者が集まります。
今年度の発表件数は過去最多の797件、参加登録者は2,317人と過去最大規模の開催となりました。懇親会やスポンサーミートアップも公式で開催され、学生や企業を問わず多くの研究者による交流の場となっています。

スポンサーブース
弊社のスポンサーブースでは、メールや請求書や契約書など、さまざまな文書を対象にした自然言語処理の取り組みを紹介しました。特に、事前学習から行っている内製のVision Language Model(VLM)であるViolaの活用や、視覚接地した文書特化VLMであるCelloの開発、メールからの情報抽出におけるLLM活用について紹介しました。また、その場で名刺やレシートの写真を撮り、Violaによる実際の出力結果を確認できるデモも設置し、多くの方に体験してもらいました。

Violaについてより詳しく知りたい方は、次の資料をぜひご覧ください。
また、ブースに来ていただいた方には、Sansan研究開発部の成果をまとめたTech Reportやステッカー、お茶などのノベルティをお配りしました。

ポスター発表
弊社からは、5名の研究員によってポスター発表をしました。いずれの発表も多くの方に足を運んでいただき、さまざまな議論ができました。以下では、順に発表の概要を説明します。より詳細な内容が気になった方はぜひ原稿を読んでみてください。
因果追跡に基づくVLMのモジュール重要度推定とLoRA適用先選択の検証
佐藤からは、「因果追跡に基づくVLMのモジュール重要度推定とLoRA適用先選択の検証」というタイトルで発表をしました。VLMをファインチューニングする際、LoRAをどの層に適用するかは経験則や総当たりに頼ることが多く、効率的な選択指針が求められていました。本発表では、モデル内部の「どこが予測に効いているか」を因果追跡によって定量化し、知識依存タスクと知覚依存タスクで重要なモジュールが異なることを示しました。しかし、その重要度に基づいてLoRA適用先を絞り込んだとしてもランダム選択と同等以下の結果となり、因果的重要度と学習効率の関係は単純ではないことを明らかにしました。
原稿PDF: https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/B4-8.pdf

いつ考え,いつ即答するか。文書理解視覚言語モデルにおける推論ルーティングの評価
Loemからは、「いつ考え、いつ即答するか:文書理解VLMにおける推論ルーティングの評価」というタイトルで発表をしました。「推論過程を出させれば精度が上がる」というChain-of-Thought(CoT)推論の効果は、タスクの性質によって大きく異なります。文書理解タスクを知覚中心と推論中心に分類して検証したところ、推論中心タスクではCoTが性能向上をもたらす一方、知覚中心タスクでは効果がほぼ見られないことが分かりました。さらに、タスクの性質に応じてCoTを選択的にオンにするだけでも常時CoTと同等以上の性能が得られることを示しました。
原稿PDF: https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/C3-5.pdf

LLMの出力を用いた擬似ラベル学習による契約書OCRテキストの圧縮
齋藤からは、「LLMの出力を用いた擬似ラベル学習による契約書OCRテキストの圧縮」というタイトルで発表をしました。契約書のOCRテキストはノイズを多く含み、かつ長文のためLLMの入力上限を超えることも多いです。そのため、重要情報を落とさずに圧縮するという課題が存在します。そこで、ファインチューニング済みLLMの出力変化を利用して「このチャンクが必要かどうか」を自動でラベル付けし、小型モデルを圧縮器として学習する手法を提案しました。低コストで実装できる実用上の強みを持ち合わせながら、人手やLLMによる要約データを用意しなくとも既存の圧縮手法を上回る情報保持率と抽出精度を達成しました。
原稿PDF: https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/C6-11.pdf

メールからの送信者会社名抽出に特化した報酬設計に基づくGroup Relative Policy Optimization
大田尾からは、「メールからの送信者会社名抽出に特化した報酬設計に基づくGroup Relative Policy Optimization」というタイトルで発表をしました。メールから送信者の会社名を正確に抽出するタスクでは、法人格の有無や略称など日本語特有の表記揺れが大きな障壁となっていました。強化学習(GRPO)による追加学習と、法人格を除いた部分一致報酬というドメイン特化の報酬設計を組み合わせることで、SFTの性能を上回る精度を達成しました。また、1B規模の軽量モデルではCoTによる思考プロセスを出力させるより直接回答させた方が、精度・速度ともに優れるという実用的な知見も得られました。
原稿PDF: https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/C6-12.pdf

P-BEE: プレースホルダを用いた送信者情報抽出用ビジネスメール生成フレームワークの初期検討
根本からは、「P-BEE:プレースホルダを用いた送信者情報抽出用ビジネスメール生成フレームワークの初期検討」というタイトルで発表をしました。送信者情報抽出の研究を進めるうえで、実務に近い日本語ビジネスメールのデータセットが不足していることが課題でした。氏名・会社名・部署などの属性情報をプレースホルダとして注入しながらLLMで擬似メールを生成するフレームワーク「P-BEE」を提案しました。生成メールは文脈レベルでは実メールに近い品質を持つことが確認された一方、抽出タスクのFew-shotデータとして使うと実メールより精度が下がるケースもあり、属性情報のパターン多様化などが今後の改善点として挙げられます。
原稿PDF: https://www.anlp.jp/proceedings/annual_meeting/2026/pdf_dir/P9-15.pdf

まとめ
本ブログでは、NLP2026における弊社の取り組みを紹介しました。学生や企業を問わず多くの人と交流・議論ができ、とても良い機会となりました。来年のNLP2027においても研究成果を発表できるように引き続き取り組んでいきます。最後に、Sansanでは一緒に働く仲間を募集しています。Sansanでの研究開発に興味を持たれた方は、ぜひご応募ください!