機械学習
本記事はSansan Advent Calendar 2025、23日目の記事です。 こんにちは、技術本部研究開発部の川波です。 2025年10月にPython 3.14の正式版がリリースされ、GILなしのPythonである「Free-threaded Python」が正式サポートされることになりました。 年の瀬と…
1. はじめに 法政大学情報科学研究科修士1年の立川駿と申します!大学院ではCGや深層学習を研究しており、研究テーマとの親和性が高いことから、SansanのR&Dインターンに参加しました。インターンでは社内イラスト生成のAI開発に取り組みましたので、企業のA…
この夏、初めてオクラを育ててみたところ、思いのほかたくさん実がなり、毎朝の収穫に追われていました。研究開発部の吉村です。今回は、2025年10月7日に株式会社サイバーエージェントで開催された、株式会社サイバーエージェント・株式会社ビズリーチ・Sans…
こんにちは。研究開発部の川波です。 今年も8月となりましたが、40度を超える猛暑が続いています。冷房とアイスが欠かせない夏ですね そんな今夏ですが、2025年7月29日(火)から8月1日(金)にかけて京都府京都市にて画像の認識・理解シンポジウムMIRU2025…
はじめに Sansan 研究開発部の齋藤慎一朗です。 次のブログでは、本格的なLVLMの検証の前に、運用に必要な環境をどう見積もるかについて、メモリの観点で紹介しました。 buildersbox.corp-sansan.com 今回は、Fine-Tuningを行ったLVLMをローカル運用する際の…
こんにちは。研究開発部のMengsay Loemです。現在は、帳票から情報を抽出・構造化する「データ化技術」の研究開発に取り組んでいます。本記事では、Sansanにおける、Vision-Language Model(VLM)を用いた視覚的質問応答(VQA)による帳票からの情報抽出技術…
こんにちは、Sansan株式会社 技術本部 研究開発部の田柳です。2025年5月27日(火)〜30日(金)の4日間、大阪国際会議場(グランキューブ大阪)にて開催された 2025年度 人工知能学会全国大会(JSAI2025)に参加してきました。弊社はプラチナスポンサーとし…
はじめに Sansan 技術本部 研究開発部の齋藤 慎一朗です。 最近、VLLM(Vision Large Language Model)やLLM(Large Language Model)をプロダクト応用できるかの検証、そのリリース関連の仕事をすることが増えています。 VLLMやLLMをローカル運用(ベンダー…
はじめに こんにちは、研究開発部の石井です。 この記事では、弊社が文書画像からの高精度な情報抽出を目指し、フルスクラッチで開発した視覚言語モデル(Vision Language Model) “Viola” の歩みを共有します。 開発に至った背景から、技術選定の試行錯誤、…
こんにちは。研究開発部のMengsay Loemです。現在は、帳票などの文書画像から情報を抽出・構造化する「データ化技術」の研究開発に取り組んでいます。本記事ではその中でも、視覚言語モデルを活用したアプローチに注目し、特に異なる情報抽出に特化したVLM(…
はじめに こんにちは、研究開発部の石井です。 いきなり本題ですが、TorchServe をご存知でしょうか。 github.com PyTorch 公式のリポジトリに所属する、PyTorch のモデルを本番環境でサービングするためのライブラリです。 この TorchServe ですが 2025 年 …
技術本部 研究開発部 Architectグループの島です。 前回の記事の続きで、完結編です。Sansan内製の名刺OCRである「NineOCR」の基盤を改良します。 buildersbox.corp-sansan.com 筆が進まないまま前編から1年経ちそうで慌てて書いている次第ですが、そうこう…
本記事はSansan Advent Calendar 2024、18日目の記事です。
こんにちは。研究開発部の今井です。 2024年8月6日(火)から8月9日(金)にかけて、熊本県熊本市にて画像の認識・理解シンポジウムMIRU2024が開催されました。弊社からは、今井・内田・関・猿田の計4名の研究員が現地に赴き、企業展示を行いました。本ブロ…
iOSエンジニアの堤です。先日3月28日に開催された弊社主催のLTイベントで、「WhisperKitがだいぶ良いので紹介する」というタイトルで発表しました。 スライドはこちら: www.docswell.com 本記事は、同発表をベースとしつつ、(LTでは時間が足りないので)発…
技術本部 研究開発部 Architectグループの島です。見習い12年目です。 今回は、当社のデータ化技術の粋である「NineOCR」について、そのインフラ・デプロイの基盤を刷新したお話をします。NineOCRに関しては、以下の記事などをご参照ください。 buildersbox.…
はじめに 研究開発部の今井海人です。普段は画像復元や画像の品質評価といった分野に携わっています。今年はVision-Language Model(VLM)の発展が特筆すべきトレンドだったかと思います。特にGPT-4Vの登場により、画像品質評価におけるアプローチも大きく変…
本記事は Sansan Advent Calendar 2023 第9日目の記事です。 adventar.org はじめに こんにちは、研究開発部の内田です。 みなさん師走はどうお過ごしでしょうか。 私は先日Jリーグを見に行きまして、その試合で見事、東京ヴェルディが昇格を決めました。 16…
こんにちは、研究開発部の西田です。 週末朝9時からのバスケの練習に向かう電車の中でこの記事を執筆しています。先週の金曜日、研究開発部の取り組みを紹介するSansan R&D TECH SHOWCASEを開催しました!その興奮が冷めやらぬうちに、イベントのハイライト…
研究開発部の堤と申します。今年9月にニューヨークで開催されたtry! Swift NYCというカンファレンスに参加してきました。 www.tryswift.co try! Swiftは2016年から東京・インド・ニューヨーク等で開催されている、Swiftのデベロッパーカンファレンスです。東…
はじめに 最近、固有表現抽出(Named Entity Recognition: NER)の学習をspaCyを用いて行う機会があったため、そのやり方について簡単にまとめたいと思います。
はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スク…
こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書の…
研究開発部 Architectグループの堤(@shu223)と申します。2022年12月7日に開催された 第26回 MLOps 勉強会 - connpass で登壇の機会をいただき、「SansanにおけるエッジAIの実用例とMLOps」というタイトルで発表させていただきました。
研究開発部Architectグループの堤(@shu223)と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配…
研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事をいくつか書いてきたのですが、 今回は、下記記事で紹介した"Smart Captured"(略してスマキャプ)の開発の中で行った「Core ML化」について深堀りしたいと思いま…
研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した…
研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第二弾となる今回は、「スマキャプ」と社内で呼んでいる技…
研究開発部 Architectグループの堤と申します。今年4月より、まったくの門外漢だったところから研究開発部でマネジメントを担当することになりました。入社して早6カ月が経とうとしていますが、マネジメントの面でも技術面でもまだまだ学ぶことだらけです。…
はじめまして、本ブログでは初めて記事を書かせていただく堤と申します。12年ほどずっとiOSエンジニアをやっていたのですが、ひょんなことからSansanの研究開発部のマネージャーをやることになり、今年の4月からSansanで働いています。というわけで今はiOSか…