Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

R&D

Economics Meets Data Science: Reproducible Research with R

At Sansan R&D we have created a set of guidelines and templates to become more productive when writing reports with R. Here I share some of what we came up with.

【ネットワークの統計解析】第11回 「NeurIPS'21 読み会」「AAAI'22 読み会」で発表してきました

こんにちは. 研究開発部の黒木裕鷹です. ついに初めてフルマラソン(長野マラソン)に出場しました. タイムはネットで 3:58:25 で,サブ4を達成することができました! 次の目標はサブ3.5(3時間半切り)でしょうか.道のりは遠いです.

gokart の環境変数周りでバグを発見したので、修正 PR を出したら爆速でリリースされた話

こんにちは。技術本部 R&D 研究員の青見です。 4月で社会に出て1年になりました。 この時期は花粉症が辛くて記憶がくしゃみにかき消されがちですが、入社式のやっていきを思い出して2年目も頑張っていきます。

【Techの道も一歩から】第46回「CookiecutterでPythonプロジェクトを高速に開始する」

こんにちは。 技術本部 研究開発部の高橋寛治です。 Python でプロジェクトを始める際に、ディレクトリ構成を考えたり、パッケージ方法を考えたり、もしくは何か参考になるものを見つけてコピペしたり、と意外と時間をかけていました。 これをコマンド一つで…

【Dive into the Economics of Networks】vol.8 Double Metropolis-Hastings Sampler によって ERGM のパラメーターの事後分布を推定する

Sansan R&D 研究員の小松です。前回までは、ネットワークをシミュレーションする際に発生する問題、およびその解決方法の1つについて議論してきました。 buildersbox.corp-sansan.com なぜこれらが重要かというと、効用関数のパラメーターを推定するためにネ…

【Dive into the Economics of Networks】vol.7 Large sampler を導入してネットワークシミュレーションの収束を改善する

Sansan R&D 研究員の小松です。ERGMの性質についてこれまで眺めています。前回の記事では以下を確認しました。 ERGM から生成されるネットワークの構造は、パラメーターが変わると極端に変化する(相転移)。 パラメーターの値が相転移の境界線にあるとき、ネ…

【Techの道も一歩から】第45回「pyppeteerを使いヘッドレスブラウザでログインして情報を取得する」

こんにちは。 DSOC R&D グループの高橋寛治です。 ログイン後に動的にレンダリングされたページから必要な情報を抽出する、いわゆるスクレイピングを最近行いました。 スクレイピングを行うためにはヘッドレスブラウザ*1の操作が必要です。 pyppeteerを少し…

「Sansan × atmaCup #12」を開催しました

本記事は,Sansan Advent Calendar 2021 第18日目の記事です. こんにちは,研究開発部の内田です.いつの間にやら季節は進んで,街路樹の葉も落ちたり燻んだり,日常の風景からも寒さを感じるようになってきました.最近は,そんな日常に彩りを加えるべく,…

【ネットワークの統計解析】第10回 PageRank とその周辺を探りたい

こんにちは. DSOC 研究開発部の黒木裕鷹です. 膝が痛いです. やってしまいました. なまじ走れるようになってきたのが楽しく,まだ脚ができてないにも関わらず走りすぎてしまいました... 調べてみたところ,膝の外側の靭帯(腸脛靭帯)と前十字靭帯を…

Sansan Builders Stage 2021 セッションレポート第4弾 〜R&D組織のマネジメント& IaC編〜

こんにちは。研究開発部でエンジニアをしている新卒入社1年目の西原です。 11/5 (金) に弊社主催で開催した「Sansan Builders Stage 2021」のセッションの中から研究開発部のメンバーが発表した次の2件をご紹介します。 研究開発組織のマネジメント R&Dにお…

【Techの道も一歩から】第44回「Prefectでパイプラインを構築してみる」

こんにちは。 DSOC R&D グループの高橋寛治です。 本記事は Sansan Advent Calendar 2021 - Adventar の初日の記事です*1。 Pythonによるパイプラインツールについて、Prefectというフレームワークが良さそうという話を小耳に挟みました。 第42回の記事と同…

【Dive into the Economics of Networks】vol.6 ERGM から生成されるネットワークがパラメータによってどう変化するかを理解する

Sansan DSOC R&D 研究員の小松です。前回は、R で ERGM を扱うことに慣れることから始め、ERGM に関わる問題点をあげていきました。 buildersbox.corp-sansan.com そこであげた問題点は以下の通りでした。 難点その1: リンク間の相互依存関係を考慮する時、E…

Sansan Builders Stage 2021 セッションレポート第2弾 〜複雑ネットワーク&OCR編〜

こんにちは。研究開発部の青見です。 11/5 (金) に弊社主催で開催された技術カンファレンス「Sansan Builders Stage 2021」について、研究開発部から発表された次の2件をピックアップしてご紹介します。

【ネットワークの統計解析】第9回 「ICML'21読み会」「KDD'21読み会」で発表してきました

こんにちは. DSOC 研究開発部の黒木裕鷹です. なんとハーフマラソンにエントリーしてしまいました.思いつきって怖いですね. やるからには良いタイムで走りたいと思い,2時間切りを目標に練習しています. とはいえインターネットの記事や Youtube でしか…

【Techの道も一歩から】第42回「Luigiとgokartを試用して比べて特徴を掴む」

こんにちは。 DSOC R&D グループの高橋寛治です。 最近は、ことあるごとにMLOpsと言っています。 そんなMLOpsの本丸とも言えるパイプラインツールの一つであるgokartを開発された西場さん(@m_nishiba)が部長ということで、使ってみないわけにはいかないgok…

BERTによる日本語固有表現抽出の精度改善 〜BERT-CRFの紹介〜

こんにちは、DSOC R&Dグループ インターンの笛木正雄です。大学院では離散最適化の研究室に所属しています。インターンでは、日々、知らないことだらけで、色々なことを経験させていただき、伸びしろを実感する毎日です。 現在は、SansanやEightのニュース配…

【Dive into the Economics of Networks】vol.5 Exponential Random Graph Model (ERGM) を R で推定・シミュレーションしてみる

Sansan DSOC R&D 研究員の小松です。前回の記事では、ネットワーク形成ゲームが Exponential Random Graph Model (ERGM) に収束する証明を確認しました。 buildersbox.corp-sansan.com ERGM を推定することで、効用関数のパラメーター (例えば、共通の友人の…

【Techの道も一歩から】第41回「SageMakerでStep Functionsを使った学習パイプラインを構築するために概念を理解する」

こんにちは。 DSOC R&D グループの高橋寛治です。 最近は、MLOpsへの興味が大きく、ツールの実利用や勉強会での発表を行っています。 機械学習プロジェクトにおいて、久々の実行や引き継いだコードの実行の際に、順序や実行環境を思い出したり準備したりしな…

書評:『施策デザインのための機械学習入門』

こんにちは. DSOC 研究開発部の黒木裕鷹です. なんと,思いつきで始めたランニングが続いており,最初の1ヶ月は65kmほど走っていたようです! やはり,ばっちり形から入りかっこいいシューズとウェアを用意したのが効いたようです. フルマラソン目指して…

【ML Tech RPT.】第26回 Crowd Counting (群衆の数え上げ) を学ぶ

DSOC研究員の吉村です。最近は、現代短歌について少し興味を持ち始めて、歌集を読んだりしています。様々な解釈ができるので、思考を色々と巡らすのがとても楽しいです。まだまだ基礎も分かっていないところもあるので、その辺りも知りつつ更にいろいろな角…

歴史をたどってディープラーニングを学ぶ 第十九回 GPGPU入門 CUDAによる画像フィルタ編

こんにちはニューラルネット老人こと糟谷勇児です。 このようなブログをやっていてなんですが、私自身はほとんどディープラーニングを実務で使っていません。 ディープラーニングがはまるということは、学習データが豊富で、説明力はある程度弱くてもよく、G…

MLOpsについてSansan×Unipos×M3の合同勉強会で発表しました

こんにちは。 DSOC R&Dグループの高橋寛治です。 2021年7月8日に開催された【Sansan×Unipos×M3】事例から学ぶ!MLOps・データ分析基盤 最前線事例共有勉強会において、ニュース配信におけるMLOpsの取り組みについて発表いたしました。 勉強会の概要と発表内…

【ネットワークの統計解析】第8回 事例紹介「Uber における GNN の活用」

こんにちは. DSOC 研究開発部の黒木裕鷹です. 夏の訪れを感じつつある最近ですが,ランニングをはじめました. 形から入ろうと思い,かっちょいいシューズとウェアを揃えたのですが,なんとか1週間は続いており気分が良いです. まだまだ2, 30分走るだけで…

【ML Tech RPT.】第25回 k-center クラスタリングを学ぶ

DSOC 研究員の吉村です。あまり外出できない日々が続いているので、読書に勤しんでおります。直接業務に関係の無いようなものでも、蓄積しておくことでどこかで役に立つだろうという気持ちで幅広いジャンルの本に手を出しては、本の山が部屋を埋め尽くしてい…

【Dive into the Economics of Networks】vol.4 ネットワーク形成ゲームが Exponential Random Graph Model (ERGM) に収束することを示す

Sansan DSOC R&D 研究員の小松です。前回の記事では、ネットワーク形成ゲームがポテンシャルゲームとして表せることをみました。本稿では、ポテンシャルゲームとして表せるネットワーク形成過程が Exponential Random Graph Model (ERGM) に収束することを確…

SocSci Radio #2 社会ネットワークはデザインできるか

soundcloud.com こんにちは、Sansan DSOC R&D研究員の前嶋です。 SocSci Radio powerd by DSOCの第2回を配信しました。 SocSciラジオとは SocSciラジオとは、Sansan DSOCの社会科学系データサイエンティストチームのM研究員が、 社会ネットワークの話題を中…

歴史をたどってディープラーニングを学ぶ 第十八回 GPGPUを学ぶCUDA入門編

こんにちは、ニューラルネット老人こと糟谷勇児です。最近はメルカリでアンモナイトが入っている(かもしれない)北海道の石を買って化石発掘を子どもと一緒にやっています。 売っているアンモナイト化石はどれも立派なんですが、実際自分で掘ってみると1mm…

【Techの道も一歩から】第40回「Texthero で日本語を解析する」

こんにちは。 DSOC R&D グループの高橋寛治です。 社内の研究開発部勉強会にて、Texthero が便利だという話を聞きかじりました。 Texthero は、テキストの前処理から変換、可視化までを pandas 上でうまく扱える Python パッケージです。 現状では、英語のみ…

Sansan Technical View に参加してきました

こんにちは。 Sansan 事業部プロダクト開発部で iOS アプリエンジニアをしている中川です。 今回は 5/25 に開催された Sansan Technical View に参加してきたので、それぞれの発表についてまとめてみました。参加されていない方へとっかかりになればと思いま…

歴史をたどってディープラーニングを学ぶ 第十七回 GPGPUを学ぶ準備編

こんにちは、ニューラルネット老人こと糟谷勇児です。以前化石集めが趣味という話を書きましたが、最近はコロナのせいかあまり新しい化石が流通せず、ちょっと退屈です。 そこでフローライトやラブラドライトなどのいわゆる天然石を集めています。それはそう…

© Sansan, Inc.