Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

連載

【R&D DevOps通信】データ分析基盤の分析用メタデータ管理 -1. 実現方法の検討-

本記事は Sansan Advent Calendar 2022 10日目の記事です。 adventar.orgこんにちは。研究開発部 Architectグループ データエンジニアの出相(デアイ)です。 データ分析基盤で分析をする際に必要となる分析用メタデータの管理・運用についての取り組みを連載…

【研究開発部の技術】第4回 coremltoolsを用いたCore MLモデルへの変換

研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事をいくつか書いてきたのですが、 今回は、下記記事で紹介した"Smart Captured"(略してスマキャプ)の開発の中で行った「Core ML化」について深堀りしたいと思いま…

【神山通信vol.2】神山ラボの薪ストーブで暖まろう!薪着火を覚えるの巻

こんにちは。 技術本部研究開発部の高橋寛治です。 サテライト拠点の神山ラボには、薪ストーブが設置されています。 薪ストーブで暖を取ったり、揺らぐ炎を見てコーディングしたりしてみたくないですか?してみたいですよね。 ということで、今回は神山ラボ…

【R&D DevOps通信】データ基盤におけるGoogleグループ・IAMによるアクセス制御

研究開発部 Architectグループにてデータエンジニアとしてデータ基盤の開発・運用を担当している張です。 データ基盤の構築はETL処理の実装やパイプラインの監視だけでなく、セキュリティ、データアクセス制御管理もデータエンジニアリングライフサイクルの…

【研究開発部の技術】第3回 名刺に特化した文字認識エンジン「NineOCR」

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した…

【R&D DevOps通信】アプリケーション基盤としてKubernetesを導入、そして周辺技術選定と運用設計

こんにちは。研究開発部Architectグループ、ML Platformチームの神林です。ML Platformチームは主に研究開発部の成果を最大化するための基盤開発を行っているチームです。この記事では、Kubernetes(EKS)を導入することになった経緯や、周辺技術の選定、運用…

【R&D DevOps通信】Poetry1.2でプライベートパッケージを扱う(GitHub, AWS CodeArtifact, GCP Artifact Registry)

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。ちなみに名古屋にある中部支店に所属です。 今回はPoetryでプライベートパッケージ(ライブラリ)を扱うテーマの第2弾です。 はじめに 2022/08/31に1.2.0がリリースされました。*1 Release…

【Sansanエンジニア インタビューシリーズ】第2回 Bill One アシスタント グループ マネジャー経堂編

Sansanエンジニア インタビューシリーズとして前回はBill Oneの開発責任者である大西をピックアップしましたが、今回は大西が Bill One Engineering Unit Smart 受領グループ アシスタント グループ マネジャーの経堂にインタビューしました。

Sansanエンジニアのおすすめ書籍 <プログラミング/コーディング編>

こんにちは。Sansan Tech Blog 編集部です。社内制度「Geek Seek」*1を活用しながら日々多くの書籍を読んでいるSansanのエンジニアに、おすすめ本を3冊選んでもらう企画の第三弾をお届けします。▼これまでの記事はこちら buildersbox.corp-sansan.com builde…

Sansanエンジニアのおすすめ書籍 <データサイエンス/セキュリティ編>

こんにちは。Sansan Tech Blog 編集部です。社内制度「Geek Seek」*1を活用しながら日々多くの書籍を読んでいるSansanのエンジニアに、おすすめ本を3冊選んでもらう企画の第二弾をお届けします。▼第一回はこちら buildersbox.corp-sansan.com 今回は、研究開…

Sansanエンジニアのおすすめ書籍 <マネジメント/チームビルディング編>

こんにちは。Sansan Tech Blog 編集部です。毎年10月27日から11月9日が「読書週間」とされていることはご存知でしょうか。1947年から続いており、前身となるイベントは1924年に興っていたそうです。Sansanのエンジニアたちは、社内制度「Geek Seek」を活用し…

【研究開発部の技術】第2回 SansanにおけるエッジAIの活用事例

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第二弾となる今回は、「スマキャプ」と社内で呼んでいる技…

【研究開発部の技術】第1回 Sansanの名刺データ化技術

研究開発部 Architectグループの堤と申します。今年4月より、まったくの門外漢だったところから研究開発部でマネジメントを担当することになりました。入社して早6カ月が経とうとしていますが、マネジメントの面でも技術面でもまだまだ学ぶことだらけです。…

【神山通信vol.1】神山ラボで働いています

こんにちは。 技術本部研究開発部の高橋寛治です。 徳島県名西郡神山町にあるサテライト拠点の神山ラボで10月から勤務しています。 神山ラボ勤務での日常について、ざっくばらんに紹介します。

【R&D DevOps通信】DocumentDBを導入した話

こんにちは、R&D Architectグループの辻田です。 とあるシステムのデータストアにAmazon DocumentDBを採用したので、その経緯やDocumentDBの特徴について紹介したいと思います。

「弱いつながり」よりも「広い帯域幅」が新情報をもたらす──社会ネットワーク研究の世界(後編)

本記事はオウンドメディアの閉鎖に伴い、一部編集し転載したものです 初出:2018.06 BNL(Business Network Lab) 加筆:2022.09 「弱いつながり」の方が新情報が得られるという固定概念を覆す、世界最先端の社会ネットワーク研究を紹介する。「帯域幅」の仕…

「強いつながり」と「結束」の強み──社会ネットワーク研究の世界(中編)

本記事はオウンドメディアの閉鎖に伴い、一部編集し転載したものです 初出:2018.06 BNL(Business Network Lab) 加筆:2022.09 最近「弱いつながり」が注目されているが「強いつながり」にだっていいところはある。それぞれの強みを理解してバランスを図る…

「弱いつながり」の誤解と本質──社会ネットワーク研究の世界(前編)

本記事はオウンドメディアの閉鎖に伴い、一部編集し転載したものです 初出:2018.06 BNL(Business Network Lab) 加筆:2022.09 弱いから有益なのではなく、つながっていない者同士をつなぐ「橋渡し」こそが本質である。Sansan株式会社のデータ化およびデー…

【R&D DevOps通信】AWS Step Functions で失敗したステップから再開する方法

こんにちは、R&D Architectグループの藤岡です。今回は Step Functions(以下SFn) が実行途中で失敗した場合に、失敗した時点から再開できるような仕組みを実現したので、その内容について共有します。

【Dive into the Economics of Networks】vol.10 Dyadic Cluster-Robust Standard Error を計算する

R&D研究員の小松です。本連載ではネットワーク経済学の近年の発展について、忘備録的に書かせてもらっています。 前回まではネットワークにおける相互依存関係を考慮したモデル ERGM のミクロ的基礎づけとその推定・応用について概観してきました。 builders…

【Techの道も一歩から】第48回「Inf1のSageMaker推論エンドポイントをカスタムコンテナで試す」

こんにちは。 技術本部研究開発部の高橋寛治です。 SageMakerのInf1推論エンドポイントで機械学習モデルを試したので紹介します。 部分的に紹介しているため、SageMakerやHuggingFaceを使ったことがないと、わかりづらいかと思いますがご了承ください。

【R&D DevOps通信】Cloud ComposerのDAGでデータ基盤の転送パイプラインを監視

こんにちは。研究開発部 Architectグループにてデータエンジニアとしてデータ基盤の開発・運用を担当している張です。 4月1日に入社してから、全社横断データ基盤のCI/CD自動化、承認システムの実装、監視の強化やリファクタリングなどの業務を取り組んでお…

【R&D DevOps通信】Cloud Composerを用いたデータ基盤の転送パイプライン構築

こんにちは。研究開発部でデータエンジニアをしている鈴木翔大です。 今回は【R&D DevOps通信】連載 9回目として、以前構築したデータ基盤の転送パイプラインについて書こうと思います。AWSのS3上に存在するデータをGCPのGCSに転送して、データのETL処理をし…

【Dive into the Economics of Networks】vol.9 ERGM で学校における Segregation を分析する

R&D 研究員の小松です。前回は Double Metropolis-Hastings 法による ERGM のパラメーター推定方法を確認し、それを R で実装してみました。 buildersbox.corp-sansan.com これまでは ERGM の理論的な話が続いていました。今回は ERGM の応用として、racial …

【R&D DevOps通信】SQSキューのメッセージ数とオートスケーリンググループのサイズに比例したオートスケーリングを行う

こんにちは、R&D Architectグループの辻田です。 今回はカスタムメトリクスを使ってターゲット追跡スケーリングを行い、費用の無駄が少ない最適なスケーリングの実現に取り組んだ内容を紹介します。 カスタムメトリクスはSQSキューのメッセージ数とオートス…

【R&D DevOps通信】Kinesis Data FirehoseでログをETL処理してRedashからクエリする

R&D Architectグループの辻田です。SBB*1 2回目の登場です。 今回は【R&D DevOps通信】連載の5回目として、Kinesis Data Firehoseを使用したログのETL処理について書こうと思います。 CloudWatch Logsサブスクリプションフィルタ + Kinesis Data Firehose + …

【R&D DevOps通信】GCP Workflows を業務で使ってみた

こんにちは、研究開発部 Architect グループで DevOps エンジニアをやっている八藤丸です。 今回は【R&D DevOps通信】連載の4回目、データ同期システムを構築した際に利用した GCP の Workflows*1 について紹介します。同じグループの張が最近 GitHub Action…

【Techの道も一歩から】第47回「StreamlitのアプリをNginxで複数ホスティングする」

こんにちは。 技術本部研究開発部の高橋寛治です。 以前に紹介したStreamlitは、非常に便利でよく使っています。 buildersbox.corp-sansan.com Webアプリとしてインターフェイスが提供されるため、ちょっとしたデモを誰かに試してもらうのが容易で重宝してい…

【R&D DevOps通信】データ基盤におけるGitHub Actionsを使ったTerraformとCloud ComposerのCI/CD

こんにちは、今年4月にSansanにジョインした張です。研究開発部Architectグループにてデータエンジニアとしてデータ基盤の開発・保守を担当しています。 今回は【R&D DevOps通信】連載の3回目、データ基盤におけるGitHub Actionsを使ったTerraformとCloud Co…

【Techの道も一歩から】第46回「CookiecutterでPythonプロジェクトを高速に開始する」

こんにちは。 技術本部 研究開発部の高橋寛治です。 Python でプロジェクトを始める際に、ディレクトリ構成を考えたり、パッケージ方法を考えたり、もしくは何か参考になるものを見つけてコピペしたり、と意外と時間をかけていました。 これをコマンド一つで…

© Sansan, Inc.