Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話

  • はじめに
  • NineOCR とは
  • NineOCR が抱える課題
  • Amazon SageMaker Training とは
  • SageMaker Training の始め方
    • 事前準備
      • AWS が提供しているコンテナイメージを拡張する方法
      • 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法
      • スクラッチでコンテナイメージを作成する方法
      • まとめ
    • 学習ジョブの実行
    • 学習結果の確認
  • 終わりに

はじめに

こんにちは、研究開発部の石井です。

本エントリーでは、弊社の OCR エンジン「NineOCR」の開発フローに SageMaker Training を導入した話を紹介します。

NineOCR とは

NineOCR は Sansan が独自に開発した名刺特化の OCR エンジンです。

名刺をデータ化するフローの中で実際に活用されており、タスクの高速化・高精度化に貢献しています。

続きを読む

分析の再現性を担保する工夫

はじめに

技術本部 R&D の小松です。先日、一橋大学の手島健介教授より『経済セミナー』2023年2・3月号をご恵贈いただきました。

www.nippyo.co.jp

手島教授はその中で「米国経済学会データエディター制度の取り組み 再現性向上のためのreplicationチェック」を書かれています。私たちが『経済セミナー』にて「実証研究マネジメントのためのツールキット」の連載時に、手島教授を始めとした研究者の皆さんに草稿を確認いただいたのですが、このトピックはその際に出た議論をまとめられたものです。

続きを読む

BERTopic で文書のクラスタリングを試す

こんにちは。研究開発部の青見 (@nersonu) です。

そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。

さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書のクラスタリングを試そうと思います。

github.com

続きを読む

Sansan Data Hub・Bill Oneアーキテクト対談:事業を支えるシステムの設計方針を公開【後編】

社内に蓄積された顧客データを整理・統合し、マーケティングに最適なデータに進化させる顧客データ統合サービス「Sansan Data Hub」。そして、あらゆる請求書をオンラインで受け取り、企業全体の請求書業務を効率化するインボイス管理サービス「Bill One」。いずれも急成長を遂げており、Sansan株式会社の事業の柱になっているサービスです。

これらのサービスは、データの処理効率やシステムの信頼性などを向上させるために、さまざまなアーキテクチャの工夫が行われています。今回は「Sansan Data Hub」と「Bill One」それぞれの開発の中核を担う千田智己と加藤耕太にインタビューし、前後編の2回に分けて記事化。後編では、アーキテクチャについての質問・相談や今後の目標について語ってもらいました。

続きを読む

Sansan Data Hub・Bill Oneアーキテクト対談:事業を支えるシステムの設計方針を公開【前編】

社内に蓄積された顧客データを整理・統合し、マーケティングに最適なデータに進化させる顧客データ統合サービス「Sansan Data Hub」。そして、あらゆる請求書をオンラインで受け取り、請求書受領から月次決算を加速するインボイス管理サービス「Bill One」。いずれも急成長を遂げており、Sansan株式会社の事業の柱になっているサービスです。

これらのサービスは、データの処理効率やシステムの信頼性などを向上させるために、さまざまなアーキテクチャの工夫が行われています。今回は「Sansan Data Hub」と「Bill One」それぞれの開発の中核を担う千田智己と加藤耕太にインタビューし、前後編の2回に分けて記事化。前編では、両サービスのアーキテクチャ設計の工夫や思想について語ってもらいました。

続きを読む

研究開発部の名刺メーカー技術開発メンバーで京都合宿に行ってきました

こんにちは、研究開発部の糟谷勇児です。
以前やっていたニューラルネット老人のブログは、CUDA沼にはまり、失踪してしまいましたので、久しぶりのブログとなります。



Sansanでは名刺メーカーという名刺作成業務をDXするサービスを展開しています。
sansan-meishi-maker.com

今回はその技術開発の一環で、Sansanの京都のラボSIL(Sansan Innovation Lab)にてチームで合宿をしてきました。

続きを読む

社内ライブラリを Swift Package Manager に対応させた話 その2 ~OpenCV に依存したライブラリ編~

はじめに

こんにちは、 Mobile Application Group で iOS アプリエンジニアをやっている多鹿です。

前回は Sansan / Eight の iOS アプリにて共通で使っている社内ライブラリを Swift Package Manager (以降 SwiftPM) に対応させた話の「その1」を公開しました。

buildersbox.corp-sansan.com

今回はもう一つの社内ライブラリを SwiftPM に対応させた話になります。

続きを読む

© Sansan, Inc.