Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

AWS

自社OCRエンジン「NineOCR」の学習効率化のため SageMaker Training を導入した話

はじめに NineOCR とは NineOCR が抱える課題 Amazon SageMaker Training とは SageMaker Training の始め方 事前準備 AWS が提供しているコンテナイメージを拡張する方法 独自のコンテナイメージに SageMaker Training Toolkit をインストールする方法 スク…

【R&D DevOps通信】Amazon ECSのTips

こんにちは、R&D Architectグループの辻田です。ECS on EC2のアーキテクチャでサービスを構築する機会があったので、そこで得た知見をTips形式でまとめたいと思います。

【R&D DevOps通信】自社OCRエンジン「NineOCR」の学習効率化のためFeature Storeを導入した話

こんにちは。研究開発部 Architect グループの八藤丸です。 この記事では、先日プレスリリースが出た Sansan 独自の OCR エンジン「NineOCR」の学習に Feature Store を導入した経緯や、周辺技術の選定について書いていきます。 jp.corp-sansan.comNineOCR …

【R&D DevOps通信】アプリケーション基盤としてKubernetesを導入、そして周辺技術選定と運用設計

こんにちは。研究開発部Architectグループ、ML Platformチームの神林です。ML Platformチームは主に研究開発部の成果を最大化するための基盤開発を行っているチームです。この記事では、Kubernetes(EKS)を導入することになった経緯や、周辺技術の選定、運用…

【R&D DevOps通信】DocumentDBを導入した話

こんにちは、R&D Architectグループの辻田です。 とあるシステムのデータストアにAmazon DocumentDBを採用したので、その経緯やDocumentDBの特徴について紹介したいと思います。

【R&D DevOps通信】AWS Step Functions で失敗したステップから再開する方法

こんにちは、R&D Architectグループの藤岡です。今回は Step Functions(以下SFn) が実行途中で失敗した場合に、失敗した時点から再開できるような仕組みを実現したので、その内容について共有します。

【R&D DevOps通信】Poetryでプライベートパッケージを扱う(GitHub, AWS CodeArtifact, GCP Artifact Registry)

研究開発部 Architectグループ ML PlatformチームのKAZYこと新井です。ちなみに名古屋にある中部支店に所属です。 今回はPoetryでプライベートパッケージ(ライブラリ)を扱うテーマです。 追記(2022/11) Poetry 1.2で新たに追加された機能をプライベートパッ…

【R&D DevOps通信】自社製OCRのキャッシュシステムについて

こんにちは、R&D Architect グループの八藤丸です。今回は自社製 OCR のキャッシュシステムを設計・実装するに当たって考えたことを紹介します。 同じグループの鈴木が最近 Cloud Composer を用いた転送パイプライン構築について過去の連載で紹介しているの…

【R&D DevOps通信】SQSキューのメッセージ数とオートスケーリンググループのサイズに比例したオートスケーリングを行う

こんにちは、R&D Architectグループの辻田です。 今回はカスタムメトリクスを使ってターゲット追跡スケーリングを行い、費用の無駄が少ない最適なスケーリングの実現に取り組んだ内容を紹介します。 カスタムメトリクスはSQSキューのメッセージ数とオートス…

【R&D DevOps通信】Kinesis Data FirehoseでログをETL処理してRedashからクエリする

R&D Architectグループの辻田です。SBB*1 2回目の登場です。 今回は【R&D DevOps通信】連載の5回目として、Kinesis Data Firehoseを使用したログのETL処理について書こうと思います。 CloudWatch Logsサブスクリプションフィルタ + Kinesis Data Firehose + …

【R&D DevOps通信】データ基盤におけるGitHub Actionsを使ったTerraformとCloud ComposerのCI/CD

こんにちは、今年4月にSansanにジョインした張です。研究開発部Architectグループにてデータエンジニアとしてデータ基盤の開発・保守を担当しています。 今回は【R&D DevOps通信】連載の3回目、データ基盤におけるGitHub Actionsを使ったTerraformとCloud Co…

全社統合ログ基盤を構築して得た知見

こんにちは。CSIRT の吉山です。 私は2020年の4月にセキュリティエンジニアとして新卒入社し、現在は主にログ基盤(SIEM)の構築・運用やインシデント対応などの業務に取り組んでいます。 今回はそのログ基盤構築や運用、その他検証で得た知見などについて紹…

EC2インスタンスのデプロイを CodePipeline + CodeDeploy + CodeBuildで改善した話

はじめまして、技術本部 サービス開発部の上島です。 私はSansanのプロダクトの裏側でデータ統合の役割を担う「名寄せシステム」の開発に携わっています。今回は、その名寄せシステムのEC2で稼働しているRailsアプリのデプロイの仕組みを、CodePipeline+Code…

Engineering Team Presentation 第三弾「各社の事業を支えるインフラストラクチャ―」を開催しました

こんにちは、技術本部 Engineering Management部 技術ブランディンググループの相場です。7月に組織改編があり、所属名称が変わりましたが、これまでと変わらず(これまで以上に)、Sansanの技術関連について発信していきます!今回は先日開催した「Engineer…

非エンジニアがAWS認定クラウドプラクティショナーに挑戦してみた!

AWS

こんにちは。プロダクト戦略開発室 技術ブランディンググループの相場です。普段はCTO直下のチームで自社イベントの企画や技術イベントへの協賛、当ブログの運営などを担当しています。 エンジニア経験のない私が先日AWS認定クラウドプラクティショナーを取…

.NETなCDKで.NETなLambdaを自動デプロイしていく

はじめまして、今年の3月にSansan事業部プロダクト開発部にjoinしました辻田です。.NETは全くの未経験でしたが.NETエンジニアとして日々奮闘中です。 初投稿のこの記事ではわたしが趣味でちょくちょく触ってるAWS CDKについて書こうと思います。CDKの言語で…

AWS GlueでのETL処理チューニング

はじめに こんにちは!名古屋支店でEight事業部プロダクト部に所属する齊藤です。 Sansanに中途入社して2年目を迎えました。 普段はMeetsというサービスの開発・運用に携わっています。 meets.8card.net 今回人生で初めてビックデータを使った本格的なETL処…

CircleCI Orbが最高だった件

はじめに こんにちは, Sansan株式会社プロダクト開発部エンジニアの北見です.最近, 個人開発でCircleCIを使ったビルド&デプロイを構築することができました.構築過程で「CircleCI Orb」という機能を見つけたのですが, これが非常に有用だったので, 紹介させ…

Elasticsearch 導入による Eight Career Design の検索機能の改善

こんにちは!Eight事業部でサーバーサイドエンジニアをしている常盤です。 今回は、Eight が提供しているダイレクト採用プラットフォームである Eight Career Design (ECD) の検索機能を検索エンジンの Elasticsearch を利用して刷新した話をしたいと思いま…

名刺データ化システムをECSに移行した

DSOC Infrastructure Groupの藤田です。最近は汚い牧場物語をやりながらCyberpunk 2077を待つ日々を過ごしております。私は昨年の11月頃からDSOCで運用している名刺データ化システムをコンテナ化、ECSへ移行するというプロジェクトに携わっていました。今回…

Amazon Elasticsearch Service を用いた SIEM の構築事例

Sansan-CSIRTの松田です。Sansan に join してから早1年半が経過しました。 先日 AWS Security Roadshow Japan 2020 に「Sansanの成長を支えるセキュリティログの活用と Amazon Elasticsearch Service」をテーマに発表させて頂きました。 こんなに大きなイベ…

AWSを活用した大規模データのバックアップ

はじめに こんにちは。プロダクト開発部でインフラエンジニアをしている佐野です。 コロナの影響でここ数ヵ月、家に籠ってリモートワークで作業を行っていますが、椅子とモニターを新調して、やっと快適な作業環境が整ってきた今日この頃です。さて、今回の…

AWS Well-Architected フレームワークを活用したコスト最適化への取り組み

DSOC Infrastructure Group の大澤です。 新型コロナウイルスの影響でマスクが品薄になっていますね。花粉症なので最近は常にマスクしているのでマスクがないと辛いです。幸いにも災害対策で備蓄していたマスクがあったのでそれでなんとかしのいでいます。 …

AWS と GCP のコストを減らせ!(Redash による可視化編)

DSOC Infrastructure Group の 大澤 です。 最近自身のあまりの不健康ぶりにさすがに危機感を抱いたので、自宅から徒歩10分にある24時間営業のフィットネスクラブに申し込んできました。過去何回か挫折しているので今度こそ継続したいものです。 さて、突然…

R&D サービスを ECS/Fargate に移行した

DSOC R&D アーキテクトの鷹箸です。 今回は、R&D が提供している一部サービスを EC2 での運用から ECS/Fargate に移行した話をします。 R&D では研究開発したものを Sansan や Eight に WebAPI として提供しており、現状稼働している様々なサービスの基本的…

Sansan Builders Box 2018でAWSとGCPのマルチクラウドの活用について話してきました

Sansan DSOCの大澤です。当社初のものづくり系カンファレンス Sansan Builders Box 2018 で「名刺データ化システムにおけるAWSとGCPのマルチクラウド活用への挑戦」というタイトルで登壇させていただきました。 発表資料はこちらになります。

© Sansan, Inc.