Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

機械学習

PythonのGILとはなんだったのか

本記事はSansan Advent Calendar 2025、23日目の記事です。 こんにちは、技術本部研究開発部の川波です。 2025年10月にPython 3.14の正式版がリリースされ、GILなしのPythonである「Free-threaded Python」が正式サポートされることになりました。 年の瀬と…

社内イラスト制作を支援する画像生成AIツールの研究開発

1. はじめに 法政大学情報科学研究科修士1年の立川駿と申します!大学院ではCGや深層学習を研究しており、研究テーマとの親和性が高いことから、SansanのR&Dインターンに参加しました。インターンでは社内イラスト生成のAI開発に取り組みましたので、企業のA…

【勉強会開催レポート】渋谷 Biz × AI: ビジネスにおける AI 利活用 事例勉強会 第3回

この夏、初めてオクラを育ててみたところ、思いのほかたくさん実がなり、毎朝の収穫に追われていました。研究開発部の吉村です。今回は、2025年10月7日に株式会社サイバーエージェントで開催された、株式会社サイバーエージェント・株式会社ビズリーチ・Sans…

MIRU2025への参加およびキャディ株式会社との合同勉強会を開催

こんにちは。研究開発部の川波です。 今年も8月となりましたが、40度を超える猛暑が続いています。冷房とアイスが欠かせない夏ですね そんな今夏ですが、2025年7月29日(火)から8月1日(金)にかけて京都府京都市にて画像の認識・理解シンポジウムMIRU2025…

LVLMをローカル運用する際に、精度を保ちつつレイテンシをどこまで改善できるか(vLLM, Flash Attention, 量子化)

はじめに Sansan 研究開発部の齋藤慎一朗です。 次のブログでは、本格的なLVLMの検証の前に、運用に必要な環境をどう見積もるかについて、メモリの観点で紹介しました。 buildersbox.corp-sansan.com 今回は、Fine-Tuningを行ったLVLMをローカル運用する際の…

帳票VQAの舞台裏:どうやってモデルを育ててきたか

こんにちは。研究開発部のMengsay Loemです。現在は、帳票から情報を抽出・構造化する「データ化技術」の研究開発に取り組んでいます。本記事では、Sansanにおける、Vision-Language Model(VLM)を用いた視覚的質問応答(VQA)による帳票からの情報抽出技術…

2025年度 人工知能学会全国大会(第39回)参加報告

こんにちは、Sansan株式会社 技術本部 研究開発部の田柳です。2025年5月27日(火)〜30日(金)の4日間、大阪国際会議場(グランキューブ大阪)にて開催された 2025年度 人工知能学会全国大会(JSAI2025)に参加してきました。弊社はプラチナスポンサーとし…

Flash Attention 2 + 量子化でVLLMはどこまで軽くなる?ローカル運用に向けた画像枚数とメモリ使用量の検証

はじめに Sansan 技術本部 研究開発部の齋藤 慎一朗です。 最近、VLLM(Vision Large Language Model)やLLM(Large Language Model)をプロダクト応用できるかの検証、そのリリース関連の仕事をすることが増えています。 VLLMやLLMをローカル運用(ベンダー…

フルスクラッチ VLM “Viola” の歩み

はじめに こんにちは、研究開発部の石井です。 この記事では、弊社が文書画像からの高精度な情報抽出を目指し、フルスクラッチで開発した視覚言語モデル(Vision Language Model) “Viola” の歩みを共有します。 開発に至った背景から、技術選定の試行錯誤、…

Vision Language Modelの統合で汎用化はできるのか?タスク横断マージを試す

こんにちは。研究開発部のMengsay Loemです。現在は、帳票などの文書画像から情報を抽出・構造化する「データ化技術」の研究開発に取り組んでいます。本記事ではその中でも、視覚言語モデルを活用したアプローチに注目し、特に異なる情報抽出に特化したVLM(…

TorchServe が Limited Maintenance になったので移行するサービングライブラリを検討した

はじめに こんにちは、研究開発部の石井です。 いきなり本題ですが、TorchServe をご存知でしょうか。 github.com PyTorch 公式のリポジトリに所属する、PyTorch のモデルを本番環境でサービングするためのライブラリです。 この TorchServe ですが 2025 年 …

【R&D DevOps通信】Google Compute Engine + GPUで動作するMLサービスの基盤を刷新した話(完結編)

技術本部 研究開発部 Architectグループの島です。 前回の記事の続きで、完結編です。Sansan内製の名刺OCRである「NineOCR」の基盤を改良します。 buildersbox.corp-sansan.com 筆が進まないまま前編から1年経ちそうで慌てて書いている次第ですが、そうこう…

バージョンが多すぎるYOLOについて語りたい

本記事はSansan Advent Calendar 2024、18日目の記事です。

MIRU2024に参加してきました

こんにちは。研究開発部の今井です。 2024年8月6日(火)から8月9日(金)にかけて、熊本県熊本市にて画像の認識・理解シンポジウムMIRU2024が開催されました。弊社からは、今井・内田・関・猿田の計4名の研究員が現地に赴き、企業展示を行いました。本ブロ…

iOS/macOSオンデバイスで爆速で動作する音声認識モデルWhisperKit

iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発…

【R&D DevOps通信】Google Compute Engine + GPUで動作するMLサービスの基盤を刷新した話(技術選定編)

技術本部 研究開発部 Architectグループの島です。見習い12年目です。 今回は、当社のデータ化技術の粋である「NineOCR」について、そのインフラ・デプロイの基盤を刷新したお話をします。NineOCRに関しては、以下の記事などをご参照ください。 buildersbox.…

Vision-Language Modelによる画像品質評価のまとめ

はじめに 研究開発部の今井海人です。普段は画像復元や画像の品質評価といった分野に携わっています。今年はVision-Language Model(VLM)の発展が特筆すべきトレンドだったかと思います。特にGPT-4Vの登場により、画像品質評価におけるアプローチも大きく変…

NineOCR の最近と今後

本記事は Sansan Advent Calendar 2023 第9日目の記事です。 adventar.org はじめに こんにちは、研究開発部の内田です。 みなさん師走はどうお過ごしでしょうか。 私は先日Jリーグを見に行きまして、その試合で見事、東京ヴェルディが昇格を決めました。 16…

Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ大公開-を開催しました

こんにちは、研究開発部の西田です。 週末朝9時からのバスケの練習に向かう電車の中でこの記事を執筆しています。先週の金曜日、研究開発部の取り組みを紹介するSansan R&D TECH SHOWCASEを開催しました!その興奮が冷めやらぬうちに、イベントのハイライト…

try! Swift NYCに参加してきました! #tryswiftnyc

研究開発部の堤と申します。今年9月にニューヨークで開催されたtry! Swift NYCというカンファレンスに参加してきました。 www.tryswift.co try! Swiftは2016年から東京・インド・ニューヨーク等で開催されている、Swiftのデベロッパーカンファレンスです。東…

spaCyを用いて日本語の固有表現抽出(NER)モデルを学習する

はじめに 最近、固有表現抽出(Named Entity Recognition: NER)の学習をspaCyを用いて行う機会があったため、そのやり方について簡単にまとめたいと思います。

自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話

はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スク…

BERTopic で文書のクラスタリングを試す

こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書の…

第26回 MLOps 勉強会で発表しました

研究開発部 Architectグループの堤(@shu223)と申します。2022年12月7日に開催された 第26回 MLOps 勉強会 - connpass で登壇の機会をいただき、「SansanにおけるエッジAIの実用例とMLOps」というタイトルで発表させていただきました。

【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術

研究開発部Architectグループの堤(@shu223)と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配…

【研究開発部の技術】第4回 coremltoolsを用いたCore MLモデルへの変換

研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事をいくつか書いてきたのですが、 今回は、下記記事で紹介した"Smart Captured"(略してスマキャプ)の開発の中で行った「Core ML化」について深堀りしたいと思いま…

【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した…

【研究開発部の技術】第2回 SansanにおけるエッジAIの活用事例

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第二弾となる今回は、「スマキャプ」と社内で呼んでいる技…

【研究開発部の技術】第1回 Sansanの名刺データ化技術

研究開発部 Architectグループの堤と申します。今年4月より、まったくの門外漢だったところから研究開発部でマネジメントを担当することになりました。入社して早6カ月が経とうとしていますが、マネジメントの面でも技術面でもまだまだ学ぶことだらけです。…

#iOSDC Japan 2022 に登壇しました!

はじめまして、本ブログでは初めて記事を書かせていただく堤と申します。12年ほどずっとiOSエンジニアをやっていたのですが、ひょんなことからSansanの研究開発部のマネージャーをやることになり、今年の4月からSansanで働いています。というわけで今はiOSか…

© Sansan, Inc.