Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

R&D

coremltoolsを用いたCore MLモデルへの変換

研究開発部Architectグループの堤です。最近は研究開発部の技術や成果物について紹介する記事をいくつか書いてきたのですが、 今回は、下記記事で紹介した"Smart Captured"(略してスマキャプ)の開発の中で行った「Core ML化」について深堀りしたいと思いま…

【R&D DevOps通信】データ基盤におけるGoogleグループ・IAMによるアクセス制御

研究開発部 Architectグループにてデータエンジニアとしてデータ基盤の開発・運用を担当している張です。 データ基盤の構築はETL処理の実装やパイプラインの監視だけでなく、セキュリティ、データアクセス制御管理もデータエンジニアリングライフサイクルの…

名刺に特化した文字認識エンジン「NineOCR」

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 第三弾となる今回は、Sansanの名刺データ化フローの中で使われている弊社が独自開発した…

アプリケーション基盤としてKubernetesを導入、そして周辺技術選定と運用設計

こんにちは。研究開発部Architectグループ、ML Platformチームの神林です。ML Platformチームは主に研究開発部の成果を最大化するための基盤開発を行っているチームです。この記事では、Kubernetes(EKS)を導入することになった経緯や、周辺技術の選定、運用…

【R&D DevOps通信】Poetry1.2でプライベートパッケージを扱う(GitHub, AWS CodeArtifact, GCP Artifact Registry)

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。ちなみに名古屋にある中部支店に所属です。 今回はPoetryでプライベートパッケージ(ライブラリ)を扱うテーマの第2弾です。 はじめに 2022/08/31に1.2.0がリリースされました。*1 Release…

Sansanエンジニアのおすすめ書籍 <データサイエンス/セキュリティ編>

こんにちは。Sansan Tech Blog 編集部です。社内制度「Geek Seek」*1を活用しながら日々多くの書籍を読んでいるSansanのエンジニアに、おすすめ本を3冊選んでもらう企画の第二弾をお届けします。▼第一回はこちら buildersbox.corp-sansan.com 今回は、研究開…

SansanにおけるエッジAIの活用事例

研究開発部Architectグループの堤と申します。新任マネージャーとして自身のキャッチアップも兼ねて、研究開発部の技術や成果物について紹介する記事を書いています。 buildersbox.corp-sansan.com 第二弾となる今回は、「スマキャプ」と社内で呼んでいる技…

Sansanの名刺データ化技術

研究開発部 Architectグループの堤と申します。今年4月より、まったくの門外漢だったところから研究開発部でマネジメントを担当することになりました。入社して早6カ月が経とうとしていますが、マネジメントの面でも技術面でもまだまだ学ぶことだらけです。…

【R&D DevOps通信】DocumentDBを導入した話

こんにちは、R&D Architectグループの辻田です。 とあるシステムのデータストアにAmazon DocumentDBを採用したので、その経緯やDocumentDBの特徴について紹介したいと思います。

「弱いつながり」よりも「広い帯域幅」が新情報をもたらす──社会ネットワーク研究の世界(後編)

本記事はオウンドメディアの閉鎖に伴い、一部編集し転載したものです 初出:2018.06 BNL(Business Network Lab) 加筆:2022.09 「弱いつながり」の方が新情報が得られるという固定概念を覆す、世界最先端の社会ネットワーク研究を紹介する。「帯域幅」の仕…

「強いつながり」と「結束」の強み──社会ネットワーク研究の世界(中編)

本記事はオウンドメディアの閉鎖に伴い、一部編集し転載したものです 初出:2018.06 BNL(Business Network Lab) 加筆:2022.09 最近「弱いつながり」が注目されているが「強いつながり」にだっていいところはある。それぞれの強みを理解してバランスを図る…

「弱いつながり」の誤解と本質──社会ネットワーク研究の世界(前編)

本記事はオウンドメディアの閉鎖に伴い、一部編集し転載したものです 初出:2018.06 BNL(Business Network Lab) 加筆:2022.09 弱いから有益なのではなく、つながっていない者同士をつなぐ「橋渡し」こそが本質である。Sansan株式会社のデータ化およびデー…

【R&D DevOps通信】AWS Step Functions で失敗したステップから再開する方法

こんにちは、R&D Architectグループの藤岡です。今回は Step Functions(以下SFn) が実行途中で失敗した場合に、失敗した時点から再開できるような仕組みを実現したので、その内容について共有します。

#iOSDC Japan 2022 に登壇しました!

はじめまして、本ブログでは初めて記事を書かせていただく堤と申します。12年ほどずっとiOSエンジニアをやっていたのですが、ひょんなことからSansanの研究開発部のマネージャーをやることになり、今年の4月からSansanで働いています。というわけで今はiOSか…

【Dive into the Economics of Networks】vol.10 Dyadic Cluster-Robust Standard Error を計算する

R&D研究員の小松です。本連載ではネットワーク経済学の近年の発展について、忘備録的に書かせてもらっています。 前回まではネットワークにおける相互依存関係を考慮したモデル ERGM のミクロ的基礎づけとその推定・応用について概観してきました。 builders…

The Economics of Blockchain Energy Consumption: A Short Review

Economics Meets Data Science Hi there!. I'm Juan, from Sansan R&D's SocSci Group. Today's post is about blockchains. Cryptocurrencies and blockchain technology have been in the spotlight for the last year. About one year ago Bitcoin was re…

【R&D DevOps通信】Poetryでプライベートパッケージを扱う(GitHub, AWS CodeArtifact, GCP Artifact Registry)

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。ちなみに名古屋にある中部支店に所属です。 今回はPoetryでプライベートパッケージ(ライブラリ)を扱うテーマです。 追記(2022/11) Poetry 1.2で新たに追加された機能をプライベートパッ…

【R&D DevOps通信】Cloud ComposerのDAGでデータ基盤の転送パイプラインを監視

こんにちは。研究開発部 Architectグループにてデータエンジニアとしてデータ基盤の開発・運用を担当している張です。 4月1日に入社してから、全社横断データ基盤のCI/CD自動化、承認システムの実装、監視の強化やリファクタリングなどの業務を取り組んでお…

MIRU2022 に参加してきました

こんにちは。研究開発部の内田です。 気づけばもう8月ですね。 今年の初めから某人に触発されてランニングに勤しんでいるのですが、近頃は夜中でも気温26℃を下回らない日が多く、日々のトレーニングが非常に辛いです。 誰かどうにかしてください。 暦の上で…

【R&D DevOps通信】自社製OCRのキャッシュシステムについて

こんにちは、R&D Architect グループの八藤丸です。今回は自社製 OCR のキャッシュシステムを設計・実装するに当たって考えたことを紹介します。 同じグループの鈴木が最近 Cloud Composer を用いた転送パイプライン構築について過去の連載で紹介しているの…

【ネットワークの統計解析】第12回 株式市場とネットワーク分析 (1)

こんにちは.研究開発部の黒木裕鷹です.前回の記事から大分時間が空いてしまいました. 12月に宮崎で開催される青島太平洋マラソン2022にエントリーしました. ベスト(ネットタイムで3時間58分)を更新できるよう頑張りたいのですが,あまりの暑さで思うよ…

【R&D DevOps通信】Cloud Composerを用いたデータ基盤の転送パイプライン構築

こんにちは。研究開発部でデータエンジニアをしている鈴木翔大です。 今回は【R&D DevOps通信】連載 9回目として、以前構築したデータ基盤の転送パイプラインについて書こうと思います。AWSのS3上に存在するデータをGCPのGCSに転送して、データのETL処理をし…

【Dive into the Economics of Networks】vol.9 ERGM で学校における Segregation を分析する

R&D 研究員の小松です。前回は Double Metropolis-Hastings 法による ERGM のパラメーター推定方法を確認し、それを R で実装してみました。 buildersbox.corp-sansan.com これまでは ERGM の理論的な話が続いていました。今回は ERGM の応用として、racial …

【R&D DevOps通信】CloudSQL(MySQL)で定期的にテーブル洗い替えをするシステムを構築したら思ったよりストレージが必要だった話

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。ちなみに名古屋にある中部支店に勤務しています。 今回はCloudSQL(MySQL)で定期的にテーブル洗い替えをするシステムを構築したら思ったよりストレージが必要でしたというテーマです。

2022年度人工知能学会に参加しました!

こんにちは、研究開発部の鈴木碩人です。 京都で行われた第36回人工知能学会全国大会(JSAI 2022)において、インダストリアルセッションの発表、企業ブースの出展、ポスター発表を行いました。 Sansanでは、これまでJSAI, DEIM, NLPなど多くの学会に企業ブー…

【R&D DevOps通信】SQSキューのメッセージ数とオートスケーリンググループのサイズに比例したオートスケーリングを行う

こんにちは、R&D Architectグループの辻田です。 今回はカスタムメトリクスを使ってターゲット追跡スケーリングを行い、費用の無駄が少ない最適なスケーリングの実現に取り組んだ内容を紹介します。 カスタムメトリクスはSQSキューのメッセージ数とオートス…

【R&D DevOps通信】GCP App Engine(GAE)でDNS_PROBE_FINISHED_NXDOMAINが出て苦労した話

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。 今回はGCP App Engine(GAE)でサービスのバージョンにアクセスするとDNS_PROBE_FINISHED_NXDOMAINが出てしまった話というテーマです。

【R&D DevOps通信】Kinesis Data FirehoseでログをETL処理してRedashからクエリする

R&D Architectグループの辻田です。SBB*1 2回目の登場です。 今回は【R&D DevOps通信】連載の5回目として、Kinesis Data Firehoseを使用したログのETL処理について書こうと思います。 CloudWatch Logsサブスクリプションフィルタ + Kinesis Data Firehose + …

【R&D DevOps通信】GCP Workflows を業務で使ってみた

こんにちは、研究開発部 Architect グループで DevOps エンジニアをやっている八藤丸です。 今回は【R&D DevOps通信】連載の4回目、データ同期システムを構築した際に利用した GCP の Workflows*1 について紹介します。同じグループの張が最近 GitHub Action…

【R&D DevOps通信】データ基盤におけるGitHub Actionsを使ったTerraformとCloud ComposerのCI/CD

こんにちは、今年4月にSansanにジョインした張です。研究開発部Architectグループにてデータエンジニアとしてデータ基盤の開発・保守を担当しています。 今回は【R&D DevOps通信】連載の3回目、データ基盤におけるGitHub Actionsを使ったTerraformとCloud Co…

© Sansan, Inc.