Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

データ分析

【R&D DevOps通信】データ分析基盤の分析用メタデータ管理 -2. 実装-

こんにちは。研究開発部 Architectグループ データエンジニアの出相(デアイ)です。 本記事は Sansan Advent Calendar 2023 の23日目、および【R&D DevOps通信】の連載記事のひとつです。 データ分析基盤で分析をする際に必要となる分析用メタデータの管理・…

名寄せの定量評価と逐次検定について

こんにちは、技術本部 Nayoseグループでバックエンドエンジニアをしている上田です。普段はデータの名寄せサービスを開発しています。Sansanの名寄せというのは、こちらのページに記載のとおり、別々のデータとして存在する同じ会社や人物のデータをひとまと…

BigQuery上で土日祝日対応したカレンダーテーブルを作成する

こんにちは。 研究開発部Architectグループにてデータエンジニアとしてデータ分析基盤の開発・運用をしている中村です。 今回はBigQuery上で利用可能な祝日対応したカレンダーテーブルを作成する方法についてご紹介いたします。

spaCyを用いて日本語の固有表現抽出(NER)モデルを学習する

はじめに 最近、固有表現抽出(Named Entity Recognition: NER)の学習をspaCyを用いて行う機会があったため、そのやり方について簡単にまとめたいと思います。

分析の再現性を担保する工夫

はじめに 技術本部 R&D の小松です。先日、一橋大学の手島健介教授より『経済セミナー』2023年2・3月号をご恵贈いただきました。 www.nippyo.co.jp 手島教授はその中で「米国経済学会データエディター制度の取り組み 再現性向上のためのreplicationチェック…

【Dive into the Economics of Networks】vol.10 Dyadic Cluster-Robust Standard Error を計算する

R&D研究員の小松です。本連載ではネットワーク経済学の近年の発展について、忘備録的に書かせてもらっています。 前回まではネットワークにおける相互依存関係を考慮したモデル ERGM のミクロ的基礎づけとその推定・応用について概観してきました。 builders…

hypothesis+panderaで始める、データフレームに対するProperty Based Testing

技術本部 R&D研究員の前嶋です。梅雨の季節ですが、少しでも快適に過ごせるようにOnのCloud 5 wpを購入しました。水に強くて軽快な履き心地で最高ですね。(追記:この記事の公開作業をしている間に梅雨が終わってしまいました) 今回は、データフレームのテス…

【ネットワークの統計解析】第12回 株式市場とネットワーク分析 (1)

こんにちは.研究開発部の黒木裕鷹です.前回の記事から大分時間が空いてしまいました. 12月に宮崎で開催される青島太平洋マラソン2022にエントリーしました. ベスト(ネットタイムで3時間58分)を更新できるよう頑張りたいのですが,あまりの暑さで思うよ…

【Dive into the Economics of Networks】vol.9 ERGM で学校における Segregation を分析する

R&D 研究員の小松です。前回は Double Metropolis-Hastings 法による ERGM のパラメーター推定方法を確認し、それを R で実装してみました。 buildersbox.corp-sansan.com これまでは ERGM の理論的な話が続いていました。今回は ERGM の応用として、racial …

【Dive into the Economics of Networks】vol.8 Double Metropolis-Hastings Sampler によって ERGM のパラメーターの事後分布を推定する

Sansan R&D 研究員の小松です。前回までは、ネットワークをシミュレーションする際に発生する問題、およびその解決方法の1つについて議論してきました。 buildersbox.corp-sansan.com なぜこれらが重要かというと、効用関数のパラメーターを推定するためにネ…

【Dive into the Economics of Networks】vol.7 Large sampler を導入してネットワークシミュレーションの収束を改善する

Sansan R&D 研究員の小松です。ERGMの性質についてこれまで眺めています。前回の記事では以下を確認しました。 ERGM から生成されるネットワークの構造は、パラメーターが変わると極端に変化する(相転移)。 パラメーターの値が相転移の境界線にあるとき、ネ…

「Sansan × atmaCup #12」を開催しました

本記事は,Sansan Advent Calendar 2021 第18日目の記事です. こんにちは,研究開発部の内田です.いつの間にやら季節は進んで,街路樹の葉も落ちたり燻んだり,日常の風景からも寒さを感じるようになってきました.最近は,そんな日常に彩りを加えるべく,…

アウトカム計測のすすめ

こんにちは。 Eight事業部プロダクト部でデータアナリストをしている林田です。 本記事は Sansan Advent Calendar 2021 13日目の記事です。 adventar.org Eightのデータ分析チーム「データマネジメントチーム」にはデータアナリストが3人所属しており、メン…

コミュニケーションコスト削減につながる!オンラインホワイトボード「Miro」の活用例と魅力

こんにちは。 Sansan Engineering Unit データエンジニアの出相(デアイ)です。 本記事は Sansan Advent Calendar 2021 9日目の記事です。 adventar.org私の所属する「データ分析基盤チーム」にはデータアナリストとデータエンジニアが在籍しており、アナリス…

アクセスに基づいた推薦のために、文書のどのような情報を使うべきか(その1)

3行で アクセスに基づいた推薦のために、文書のどのような情報を使うべきか考えた。 ニュースの中の名詞、固有名詞、名詞×ジャンル、固有名詞×ジャンルの4つに分けて推薦を行い、ユーザーが興味を持ちそうなニュースを推薦できているかを定性的に確認した。…

【Dive into the Economics of Networks】vol.6 ERGM から生成されるネットワークがパラメータによってどう変化するかを理解する

Sansan DSOC R&D 研究員の小松です。前回は、R で ERGM を扱うことに慣れることから始め、ERGM に関わる問題点をあげていきました。 buildersbox.corp-sansan.com そこであげた問題点は以下の通りでした。 難点その1: リンク間の相互依存関係を考慮する時、E…

Sansan Builders Stage 2021 セッションレポート第2弾 〜複雑ネットワーク&OCR編〜

こんにちは。研究開発部の青見です。 11/5 (金) に弊社主催で開催された技術カンファレンス「Sansan Builders Stage 2021」について、研究開発部から発表された次の2件をピックアップしてご紹介します。

【ネットワークの統計解析】第9回 「ICML'21読み会」「KDD'21読み会」で発表してきました

こんにちは. DSOC 研究開発部の黒木裕鷹です. なんとハーフマラソンにエントリーしてしまいました.思いつきって怖いですね. やるからには良いタイムで走りたいと思い,2時間切りを目標に練習しています. とはいえインターネットの記事や Youtube でしか…

【Dive into the Economics of Networks】vol.5 Exponential Random Graph Model (ERGM) を R で推定・シミュレーションしてみる

Sansan DSOC R&D 研究員の小松です。前回の記事では、ネットワーク形成ゲームが Exponential Random Graph Model (ERGM) に収束する証明を確認しました。 buildersbox.corp-sansan.com ERGM を推定することで、効用関数のパラメーター (例えば、共通の友人の…

書評:『施策デザインのための機械学習入門』

こんにちは. DSOC 研究開発部の黒木裕鷹です. なんと,思いつきで始めたランニングが続いており,最初の1ヶ月は65kmほど走っていたようです! やはり,ばっちり形から入りかっこいいシューズとウェアを用意したのが効いたようです. フルマラソン目指して…

【ネットワークの統計解析】第8回 事例紹介「Uber における GNN の活用」

こんにちは. DSOC 研究開発部の黒木裕鷹です. 夏の訪れを感じつつある最近ですが,ランニングをはじめました. 形から入ろうと思い,かっちょいいシューズとウェアを揃えたのですが,なんとか1週間は続いており気分が良いです. まだまだ2, 30分走るだけで…

【Dive into the Economics of Networks】vol.4 ネットワーク形成ゲームが Exponential Random Graph Model (ERGM) に収束することを示す

Sansan DSOC R&D 研究員の小松です。前回の記事では、ネットワーク形成ゲームがポテンシャルゲームとして表せることをみました。本稿では、ポテンシャルゲームとして表せるネットワーク形成過程が Exponential Random Graph Model (ERGM) に収束することを確…

自分のTweetを使ってSentencepieceとMeCabの分かち書きの比較を行う

3行で はじめに Sentencepieceとは subwordとは Sentencepieceでの取り組み SentencepieceとMeCabの比較 利用するデータセット 利用したコード 適当なTweetを分かち書きしてみる Tweet全部を分かち書きし、頻度順に並べてみる まとめ 注釈 3行で Sentencepie…

【ネットワークの統計解析】第7回 グラフラプラシアン・グラフフーリエ変換を簡単に振り返る

こんにちは. Sansan DSOC 研究開発部の黒木裕鷹です.また自粛期間が長くなってきましたね. 私も健康を取り戻さねばと思い,マルチビタミンやDHA,食物繊維を積極的に取り入れています.ハイボールに食物繊維を溶かすのが,罪悪感とアルコールが薄まり気分…

【Dive into the Economics of Networks】vol.3 ネットワーク形成ゲームをポテンシャルゲームとして扱う

Sansan DSOC R&D 研究員の小松です。 本題に入る前に、1つ告知です。 私が所属する DSOC R&D では、現在サマーインターンを募集中です。 私も関わります。 一緒にネットワークデータの海に潜りましょう。 www.wantedly.com さて本稿からは、ネットワーク形成…

【ネットワークの統計解析】第6回 論文紹介1「GCNを用いたフェイクニュースの検知」

こんにちは. Sansan DSOC 研究開発部の黒木裕鷹です.先月も,今月も,また服を買ってしまいました. 出かける先はコンビニぐらいしかないのですが,おしゃれをすると心が躍り,陳列商品も不思議とキラキラして見えますね. さて,この連載では,自分の勉強…

【Dive into the Economics of Networks】vol.2 戦略的ネットワーク形成について簡単に眺めてみる

Sansan DSOC R&D 研究員の小松です。本稿では、戦略的ネットワーク形成について理解するために重要な概念を抑えたいと思います。 前回の最後に"Econometrics of Interactions in Networks"に関連したトピックについて書くと言っていました。が、現在進めてい…

「分析コンペ勉強会」を開催しました

こんにちは、Sansan DSOC 研究開発員の齋藤(@sinchir0)です。 3/2(火) 19:00 -21:00にて分析コンペ勉強会を開催させて頂きました。 sansan.connpass.com 今回は本勉強会のレポートを書かせて頂きます!

分析コンペ挑戦記: Cassava編

初めまして、Sansan DSOC 研究開発部の齋藤慎一朗と申します。(Twitterではsinchir0と名乗っています。) 分析コンペに参加するのが趣味なので、挑戦した内容と結果を定期的にブログで投稿していければと思い、執筆させてもらっています。 今回は、Cassava…

【ネットワークの統計解析】第5回 代表的なネットワークのモデルを俯瞰する (3)

こんにちは. Sansan DSOC 研究開発部の黒木裕鷹です. 2回目の緊急事態が宣言され,昇降デスクを買ったりモニターや服を買い足したりしていました. お財布は寂しいですが,在宅戦闘力が高まりなんだか良い気分です. さて,この連載では,自分の勉強・復習…

© Sansan, Inc.