第20回言語処理若手シンポジウム(YANS2025)に参加しました！

R&D カンファレンス自然言語処理レポート新卒

こんにちは。研究開発部の25卒新卒、根本です。2025年9月17日（水）から19日（金）の3日間、静岡県浜松市のアクトシティ浜松にて第20回言語処理若手シンポジウム（YANS2025）が開催されました。弊社からは私が現地参加し、ポスター発表をしました。本ブログ…

#R&D #レポート #自然言語処理 #YANS2025 #新卒

2025-08-20

MIRU2025への参加およびキャディ株式会社との合同勉強会を開催

機械学習画像認識自然言語処理勉強会主催イベント

こんにちは。研究開発部の川波です。今年も8月となりましたが、40度を超える猛暑が続いています。冷房とアイスが欠かせない夏ですねそんな今夏ですが、2025年7月29日（火）から8月1日（金）にかけて京都府京都市にて画像の認識・理解シンポジウムMIRU2025…

#Sansan #MIRU2025 #画像認識

2025-06-11

2025年度人工知能学会全国大会（第39回）参加報告

R&D レポート機械学習自然言語処理画像認識

こんにちは、Sansan株式会社技術本部研究開発部の田柳です。2025年5月27日（火）〜30日（金）の4日間、大阪国際会議場（グランキューブ大阪）にて開催された 2025年度人工知能学会全国大会（JSAI2025）に参加してきました。弊社はプラチナスポンサーとし…

2025-03-25

言語処理学会第31回年次大会(NLP2025)に参加しました

R&D レポート自然言語処理

こんにちは。研究開発部の大田尾です。2025年3月10日(月)から3月14日(金)にかけて、長崎県の出島メッセ長崎にて言語処理学会第31回年次大会(NLP2025)が開催されました。弊社からは、プラチナスポンサーとして大田尾・齋藤・橋本・保坂・Loemの5名のメンバー…

2023-12-06

CRFのパラメータ学習を数式的に理解する

自然言語処理

はじめに本記事は、Sansan Advent Calendar 2023の6日目の記事です。こんにちは、研究開発部の齋藤です。固有表現認識にCRFを試す場面が最近あり、CRFのパラメータ学習を少し勉強しました。折角なのでまとめておこうかと思います。書籍『形態素解析の理…

2023-11-09

try! Swift NYCに参加してきました！ #tryswiftnyc

Swift レポート iOS 機械学習自然言語処理

研究開発部の堤と申します。今年9月にニューヨークで開催されたtry! Swift NYCというカンファレンスに参加してきました。 www.tryswift.co try! Swiftは2016年から東京・インド・ニューヨーク等で開催されている、Swiftのデベロッパーカンファレンスです。東…

2023-07-26

spaCyを用いて日本語の固有表現抽出(NER)モデルを学習する

データ分析機械学習自然言語処理 Python

はじめに最近、固有表現抽出(Named Entity Recognition: NER)の学習をspaCyを用いて行う機会があったため、そのやり方について簡単にまとめたいと思います。

2023-05-01

「Sansan R&D TECH SHOWCASE 2023」を開催します <その1　自然言語処理と最適化技術編>

R&D お知らせ自然言語処理

こんにちは、研究開発部の糟谷勇児です。研究開発部では研究開発成果やそのプロセスについて発表するイベント「Sansan R&D TECH SHOWCASE 2023」を開催いたします。開催：2023年 6月2日(金)15:00〜20:00 場所：Sansan株式会社表参道本社イベントページ：h…

2023-04-03

NLP2023に参加・発表しました

R&D 自然言語処理レポート

言語処理学会年次大会（NLP）とはテーマセッション「金融・経済ドメインのための言語処理」研究発表聴講内容 D9-2 連続時間フラクショナル・トピックモデル D10-5 監査上の主要な検討事項 (KAM) の前例踏襲の程度に関する業種別及び監査法人別の傾向分析 …

2023-02-21

BERTopic で文書のクラスタリングを試す

R&D 機械学習自然言語処理 Python

こんにちは。研究開発部の青見 (@nersonu) です。そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書の…

2022-12-22

【研究開発部の技術】第5回ニュース配信を支える自然言語処理技術

R&D 機械学習自然言語処理連載

研究開発部Architectグループの堤（@shu223）と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配…

2022-09-01

【Techの道も一歩から】第48回「Inf1のSageMaker推論エンドポイントをカスタムコンテナで試す」

Python 連載自然言語処理

こんにちは。技術本部研究開発部の高橋寛治です。 SageMakerのInf1推論エンドポイントで機械学習モデルを試したので紹介します。部分的に紹介しているため、SageMakerやHuggingFaceを使ったことがないと、わかりづらいかと思いますがご了承ください。

2021-12-04

アクセスに基づいた推薦のために、文書のどのような情報を使うべきか（その１）

データ分析機械学習自然言語処理

3行でアクセスに基づいた推薦のために、文書のどのような情報を使うべきか考えた。ニュースの中の名詞、固有名詞、名詞×ジャンル、固有名詞×ジャンルの４つに分けて推薦を行い、ユーザーが興味を持ちそうなニュースを推薦できているかを定性的に確認した。…

2021-11-12

Sansan Builders Stage 2021 セッションレポート第1弾〜自然言語処理＆機械学習編〜

機械学習自然言語処理

こんにちは。DSOC 研究開発部の鈴木碩人です。21卒で今年の4月にSansanに入社しました。今回は11/5に開催された「Sansan Builders Stage 2021」に参加したのでその中の、私も所属する研究開発部から、高橋が発表した「継続して改善する固有表現抽出」と齋藤…

2021-09-21

BERTによる日本語固有表現抽出の精度改善〜BERT-CRFの紹介〜

R&D 機械学習自然言語処理インターン

こんにちは、DSOC R&Dグループインターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。現在は、SansanやEightのニュース配…

2021-06-21

自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う

データ分析機械学習自然言語処理 Python ディープラーニング

3行ではじめに Sentencepieceとは subwordとは Sentencepieceでの取り組み SentencepieceとMeCabの比較利用するデータセット利用したコード適当なTweetを分かち書きしてみる Tweet全部を分かち書きし、頻度順に並べてみるまとめ注釈 3行で Sentencepie…

Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信