Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

R&D

【22新卒 1年間の振り返り】第2回 畑違いの研究分野から研究開発組織に入っての1年を振り返ってみた

はじめに こんにちは、技術本部 研究開発部 Data Analysisグループの金子です。ここ半年毎日コールドシャワーを浴びています。最近は覚悟を決めずとも浴びれるようになり、春を感じる今日この頃です。私がSansanに新卒入社してから一年が経ちました。本記事…

Argo Rolloutsでプログレッシブデリバリを実現する

こんにちは、研究開発部 Architectグループの辻田です。今回はKubernetesアプリケーション基盤にArgo Rolloutsを導入し、カナリアリリースからメトリクスの自動解析、ロールバックの自動化を実現したので紹介していきたいと思います。

自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話

はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スク…

BERTopic で文書のクラスタリングを試す

こんにちは。研究開発部の青見 (@nersonu) です。 そろそろ花粉症の季節ですね。週1でしか出社しない私は、なんとか引きこもって数ヶ月しのぎたいところです。 さて、今回は BERTopic という OSS について、さっくりとした手法の解説もしつつ、簡単に文書の…

KubernetesのCronJobからJobを気軽に実行できるGitHub Actionsの仕組み

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。 名古屋にある中部支店に所属しています。 KubernetesのCronJobからJobの作成と実行をGitHub Actionsでできるようにした話を紹介します。 なお、本記事は【R&D DevOps通信】という連載記…

学びを仕事に繋げる / 外貨を稼ぐ / 継続的に成長する

「公立はこだて未来大学」にお招きいただき、学生さん向けに講義をさせていただきました。 講義で用いたスライドは公開済みで、既にTwitterやはてブでも反響をいただいております。 スライド内には埋め込み動画やリンク等、Speaker Deckでは再現されないもの…

第26回 MLOps 勉強会で発表しました

研究開発部 Architectグループの堤(@shu223)と申します。2022年12月7日に開催された 第26回 MLOps 勉強会 - connpass で登壇の機会をいただき、「SansanにおけるエッジAIの実用例とMLOps」というタイトルで発表させていただきました。

【研究開発部の技術】第5回 ニュース配信を支える自然言語処理技術

研究開発部Architectグループの堤(@shu223)と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第5弾となる今回は、Sansan/Eightのニュース配…

GitHub ActionsでK8sのマニフェストを生成できるようにして開発リードタイムを改善する(後編)

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。ちなみに名古屋にある中部支店に所属です。 開発リードタイムを改善するためにGitHub ActionsでKubernetesのマニフェスト生成できるようにした話をします。 前後編の2つに分けて公開し…

GitHub ActionsでK8sのマニフェストを生成できるようにして開発リードタイムを改善する(前編)

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。ちなみに名古屋にある中部支店に所属です。 開発リードタイムを改善するためにGitHub ActionsでKubernetesのマニフェスト生成できるようにした話をします。 前後編の2つに分けて公開す…

R のパッケージ {targets} にコントリビュートした話

R&D R

はじめに 研究開発部の小松です。 本記事は Sansan Advent Calendar 2022 の17日目の記事になります。 adventar.org 普段こちらのブログではネットワーク経済学をテーマに細々と書いています。今回は少し話題を変えて、日頃の分析でお世話になっている R の…

【R&D DevOps通信】Amazon ECSのTips

こんにちは、R&D Architectグループの辻田です。ECS on EC2のアーキテクチャでサービスを構築する機会があったので、そこで得た知見をTips形式でまとめたいと思います。

【R&D DevOps通信】データ分析基盤の分析用メタデータ管理 -1. 実現方法の検討-

本記事は Sansan Advent Calendar 2022 10日目の記事です。 adventar.orgこんにちは。研究開発部 Architectグループ データエンジニアの出相(デアイ)です。 データ分析基盤で分析をする際に必要となる分析用メタデータの管理・運用についての取り組みを連載…

【R&D DevOps通信】自社OCRエンジン「NineOCR」の学習効率化のためFeature Storeを導入した話

こんにちは。研究開発部 Architect グループの八藤丸です。 この記事では、先日プレスリリースが出た Sansan 独自の OCR エンジン「NineOCR」の学習に Feature Store を導入した経緯や、周辺技術の選定について書いていきます。 jp.corp-sansan.comNineOCR …

【研究開発部の技術】第4回 coremltoolsを用いたCore MLモデルへの変換

研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事をいくつか書いてきたのですが、 今回は、下記記事で紹介した"Smart Captured"(略してスマキャプ)の開発の中で行った「Core ML化」について深堀りしたいと思いま…

【R&D DevOps通信】データ基盤におけるGoogleグループ・IAMによるアクセス制御

研究開発部 Architectグループにてデータエンジニアとしてデータ基盤の開発・運用を担当しているジャン(a.k.a jc)です。 データ基盤の構築はETL処理の実装やパイプラインの監視だけでなく、セキュリティ、データアクセス制御管理もデータエンジニアリングラ…

【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した…

【R&D DevOps通信】アプリケーション基盤としてKubernetesを導入、そして周辺技術選定と運用設計

こんにちは。研究開発部Architectグループ、ML Platformチームの神林です。ML Platformチームは主に研究開発部の成果を最大化するための基盤開発を行っているチームです。この記事では、Kubernetes(EKS)を導入することになった経緯や、周辺技術の選定、運用…

【R&D DevOps通信】Poetry1.2でプライベートパッケージを扱う(GitHub, AWS CodeArtifact, GCP Artifact Registry)

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。ちなみに名古屋にある中部支店に所属です。 今回はPoetryでプライベートパッケージ(ライブラリ)を扱うテーマの第2弾です。 はじめに 2022/08/31に1.2.0がリリースされました。*1 Release…

Sansanエンジニアのおすすめ書籍 <データサイエンス/セキュリティ編>

こんにちは。Sansan Tech Blog 編集部です。社内制度「Geek Seek」*1を活用しながら日々多くの書籍を読んでいるSansanのエンジニアに、おすすめ本を3冊選んでもらう企画の第二弾をお届けします。▼第一回はこちら buildersbox.corp-sansan.com 今回は、研究開…

【研究開発部の技術】第2回 SansanにおけるエッジAIの活用事例

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第二弾となる今回は、「スマキャプ」と社内で呼んでいる技…

【研究開発部の技術】第1回 Sansanの名刺データ化技術

研究開発部 Architectグループの堤と申します。今年4月より、まったくの門外漢だったところから研究開発部でマネジメントを担当することになりました。入社して早6カ月が経とうとしていますが、マネジメントの面でも技術面でもまだまだ学ぶことだらけです。…

【R&D DevOps通信】DocumentDBを導入した話

こんにちは、R&D Architectグループの辻田です。 とあるシステムのデータストアにAmazon DocumentDBを採用したので、その経緯やDocumentDBの特徴について紹介したいと思います。

「弱いつながり」よりも「広い帯域幅」が新情報をもたらす──社会ネットワーク研究の世界(後編)

本記事はオウンドメディアの閉鎖に伴い、一部編集し転載したものです 初出:2018.06 BNL(Business Network Lab) 加筆:2022.09 「弱いつながり」の方が新情報が得られるという固定概念を覆す、世界最先端の社会ネットワーク研究を紹介する。「帯域幅」の仕…

「強いつながり」と「結束」の強み──社会ネットワーク研究の世界(中編)

本記事はオウンドメディアの閉鎖に伴い、一部編集し転載したものです 初出:2018.06 BNL(Business Network Lab) 加筆:2022.09 最近「弱いつながり」が注目されているが「強いつながり」にだっていいところはある。それぞれの強みを理解してバランスを図る…

「弱いつながり」の誤解と本質──社会ネットワーク研究の世界(前編)

本記事はオウンドメディアの閉鎖に伴い、一部編集し転載したものです 初出:2018.06 BNL(Business Network Lab) 加筆:2022.09 弱いから有益なのではなく、つながっていない者同士をつなぐ「橋渡し」こそが本質である。Sansan株式会社のデータ化およびデー…

【R&D DevOps通信】AWS Step Functions で失敗したステップから再開する方法

こんにちは、R&D Architectグループの藤岡です。今回は Step Functions(以下SFn) が実行途中で失敗した場合に、失敗した時点から再開できるような仕組みを実現したので、その内容について共有します。<2024/2/8追記> AWS公式で Step Functions の失敗し…

#iOSDC Japan 2022 に登壇しました!

はじめまして、本ブログでは初めて記事を書かせていただく堤と申します。12年ほどずっとiOSエンジニアをやっていたのですが、ひょんなことからSansanの研究開発部のマネージャーをやることになり、今年の4月からSansanで働いています。というわけで今はiOSか…

【Dive into the Economics of Networks】vol.10 Dyadic Cluster-Robust Standard Error を計算する

R&D研究員の小松です。本連載ではネットワーク経済学の近年の発展について、忘備録的に書かせてもらっています。 前回まではネットワークにおける相互依存関係を考慮したモデル ERGM のミクロ的基礎づけとその推定・応用について概観してきました。 builders…

The Economics of Blockchain Energy Consumption: A Short Review

Economics Meets Data Science Hi there!. I'm Juan, from Sansan R&D's SocSci Group. Today's post is about blockchains. Cryptocurrencies and blockchain technology have been in the spotlight for the last year. About one year ago Bitcoin was re…

© Sansan, Inc.