こんにちは。研究開発部の25卒新卒、根本です。
2025年9月17日(水)から19日(金)の3日間、静岡県浜松市のアクトシティ浜松にて第20回言語処理若手シンポジウム(YANS2025)が開催されました。弊社からは私が現地参加し、ポスター発表をしました。本ブログではその様子をお伝えします。
第20回言語処理若手シンポジウム(YANS2025)について
言語処理若手シンポジウムは、自然言語処理をはじめとする関連分野の若手研究者や技術者が、学問研究や技術開発を推進し、交流を深めることを目的としたシンポジウムです。年に一度開催されており、今年度は発表件数257件、参加登録者数570人と過去最大規模となりました。ポスター発表だけでなく、ハッカソンやラウンドテーブルなども企画されており、若い学生を中心に学生や企業を問わずに多くの研究者が交流できる場となっています。

ハッカソン
初日(9月17日)には、LLMのチューニングをテーマにしたハッカソンが開催されました。課題は、小学生レベルの四則演算を扱う算数タスクを解くLLMを学習し、テストセットに対する正解率を競うというものです。学習アルゴリズムごとにSFTのチームとDPOのチームに分かれ、私はSFTのチームで参加しました。
結果として正解率1位には届きませんでしたが、YANS運営委員特別賞を受賞することができました!GPTで学習データを生成する時に、四則演算の数や数値変換(50%→0.5, 1週間→7日)のケースの有無などに合わせて初級/中級/上級と難易度を設定し、その難易度ごとにプロンプトを用意するというアプローチの独自性を評価されたことが受賞につながりました。若い学生の方々と同じ目標に向かって取り組めたのは大変良い経験となったと思います。
🏆受賞者一覧🏆#YANS2025 ハッカソンの表彰を行いました!
— YANS (@yans_official) 2025年9月19日
おめでとうございます🎉 pic.twitter.com/XR64SXvjKV
ポスター発表
2日目には以下のテーマでポスター発表を行いました。学生や企業の方を問わず、多くの方にご覧いただき、活発な議論をすることができました。
送信者情報抽出のための日本語ビジネスメールデータセットの構築
今回、私からは「送信者情報抽出のための日本語ビジネスメールデータセットの構築」というタイトルで発表しました。ビジネスメールから送信者の氏名・会社名・部署などの属性情報を抽出できると送受信履歴の解析や企業間関係の把握などが容易になり、メール管理の効率化に繋がります。
しかし、日本語のメールに送信者情報をアノテーションしたデータセットは存在しないため、モデルの学習や評価が困難でした。このような背景から、LLMを活用してメール本文を生成し、送信者情報をアノテーションしたビジネスメールデータセットを構築しました。また、このデータセットを用いて複数のモデルで送信者情報抽出タスクの性能を検証しました。

交流企画
2日目はポスター発表と併せて、ラウンドテーブルとナイトセッションの2つの交流企画が実施されました。ラウンドテーブルは「興味のある研究分野」と「キャリア」に関するテーマについて少人数で議論する企画でした。私が参加したテーブルは学生が中心で、学生と企業の違いを踏まえた活発な意見交換ができました。
また、ナイトセッションでは立食形式で行われ、私のテーブルでは同じ社会人研究者同士が集まり、LLMの応用などについて議論しました。カジュアルな雰囲気の中で有意義な交流ができました。
まとめ
本ブログでは、YANS2025における弊社の取り組みを紹介しました。学生や企業を問わず多くの人と交流・議論ができ、大変有意義な機会となりました。また、LLMに関する最新の研究動向を知るだけでなく、企業研究者同士で課題解決について議論するなど、多くの知見を得ることができました。
今後も、来年開催されるYANS2026や同じく言語処理分野の国内学会である言語処理学会第32回年次大会(NLP2026)においても研究成果を発表できるように引き続き取り組んでいきます。
最後に、Sansanでは一緒に働く仲間を募集しています。Sansanでの研究開発に興味をお持ちいただけた方は、ぜひご応募ください!
newgradsevents.corp-sansan.com