Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

Sansan Builders Stage 2021 セッションレポート第2弾 〜複雑ネットワーク&OCR編〜

こんにちは。研究開発部の青見です。

11/5 (金) に弊社主催で開催された技術カンファレンス「Sansan Builders Stage 2021」について、研究開発部から発表された次の2件をピックアップしてご紹介します。

  1. 研究開発部 臼井: 『名刺交換から構築する企業間の転職ネットワーク「Talent Flow Network」の活用』
  2. 研究開発部 内田: 『DSOC OCR 全項目展開に向けた取り組み』

複雑ネットワークや OCR に関するテーマにご関心がある方は、ぜひご一読ください。

名刺交換から構築する企業間の転職ネットワーク「Talent Flow Network」の活用

研究開発部の臼井は、『名刺交換から構築する企業間の転職ネットワーク「Talent Flow Network」の活用』というタイトルで、名刺交換の複雑ネットワークをどういった形でプロダクトへの適用を行っているかについて発表しました。

f:id:nersonu:20211110164320p:plain

弊社では、人をノード、名刺交換をエッジとする名刺交換ネットワークを構成し、プロダクトへの適用を行っています。 本発表では、HR Tech*1への応用について解説がありました。

名刺には「企業」・「職種」・「職位」といった情報が含まれており、名刺情報の更新によってキャリアパスを知ることができます。 これらを利用して、"Talent Flow Network" と呼ばれるキャリアパスのネットワークを構築し、分析を行うことができます。 本発表では、以下のような活用方法について紹介されていました。

  • 職種の隆盛や関係性
  • 職種毎の人材の流れ
  • 業界の流動性・安定性・成長
  • 人材移動予測モデル

発表内で特徴的だったのは Talent Flow Network からどういった企業の採用力・リテンション力が高いのか、という点を分析していたものです。 これらの「力」を数値化するために、企業での人材の引っ張り合いを試合とみなし、スポーツレーティングを応用した手法を用いました。 得られた結果から、採用力とリテンション力の負の相関や、人材の流動が激しいもしくは安定している業界を明らかにしています。

f:id:nersonu:20211110170457p:plain

また、ネットワークのあるノードからあるノードへの移動確率を推定することで、人材の流動を予測するという取り組みも行っています。 Talent Flow Network から特徴量を抽出し予測モデルを学習しており、発表内では予測実験に関する結果について触れており、モデルの有用性について触れています。

Sansan が持つ名刺交換情報から構成される Talent Flow Network だからこそ得られる分析結果が発表されており、非常に興味深い内容でした。 転職ネットワークに関する分析は DSOC Data Science Report でもいくつか公開されており、興味のある方はぜひ一読いただければと思います。

臼井の発表資料は Speaker Deck にて公開されています。

speakerdeck.com

DSOC OCR 全項目展開に向けた取り組み

研究開発部の内田は、『DSOC OCR 全項目展開に向けた取り組み』というタイトルで、弊社独自の名刺に特化した OCR エンジンの開発について発表しました。

f:id:nersonu:20211111113938p:plain

弊社では名刺のデータ化を行っていますが、ビジネス利用という性質上100%に近い精度が求められます。 例えば、E-mail アドレスや電話番号は1文字誤ってしまうだけで、その利用が不可能になるといったことが、精度の要件として大きく関わっているのです。 これまでは、人とコンピュータ技術を組み合わせて99%以上の精度を達成してきました。 ベンダー OCR だけでは満足な精度を達成することが難しく、人の負担が大きくなっていました。

そこで、名刺に特化した独自OCRエンジン "DSOC OCR" が開発されることになりました*2

f:id:nersonu:20211111092449p:plain

DSOC OCRでは、セグメンテーションベースの検出器で文字列を切り出した後、CRNNベースの手法で各文字列を認識します。 現在、"E-mail アドレス" や "氏名" といった単一の項目に対して、他のベンダー OCR を凌駕する精度とレスポンス速度の速さを達成しています。

今回の内田の発表では、今までの単項目版である DSOC OCR を全項目展開するための取り組みの紹介がなされました。 主な内容として、以下が発表されています。

  • 開発体制の強化
  • OCR に用いるモデルの改善

モデルの改善としては、「物体検出モデルを用いた文字列検出」と「Transformer ベースの複数行文字列認識」の2つがありました。 前者の検出器の改善ですが、単に検出器を物体検出モデルへの移行するだけではありません。 名刺データは入力が小さい画像であるため、一般物体検出よりも小さい領域を検出する必要性があり、名刺に特化した工夫を取り込んでいます。

f:id:nersonu:20211111113812p:plain

また、複数行文字列認識では、Transformer を応用し 2D 認識を可能にする改良を行っています。 発表内のデモでは、実際の内田の名刺を用いて行送りが適切に認識されており、複数行認識が精度高く行われている様子が確認できました。

f:id:nersonu:20211111132350g:plain

弊社が誇る名刺の OCR に関する発表でした。 名刺に特化した精度の高い OCR を実現するために、日々アップデートが続いている様子が伺えます。 近日第1弾リリース予定とのことですので、リリースした折には読者の皆様もぜひ体験してみてください。

内田の発表資料は Speaker Deck にて公開されています。

speakerdeck.com

まとめ

本記事では、Sansan Builders Stage 2021 で発表されたセッションのうち、研究開発部からの発表を2件ピックアップしてお届けしました。 今回ピックアップした二人の発表である「名刺情報を用いたネットワーク分析」・「名刺のための独自OCR」は、いずれも弊社のビジネスの主軸といっても過言ではない "名刺" に関する研究成果となっています。 同じ名刺に関する研究であっても研究開発部では様々な側面から名刺というデータにアプローチをしており、今後も向き合い続けます。

今回紹介したセッション以外にも、Sansan Buliders Stage 2021 では、弊社独自の取り組みが紹介されたセッションが目白押しでした。 今年参加された皆様も、セッションレポートを読んで興味を持ってくださった皆様も、ぜひ来年のご参加を心待ちにしております。

*1:"Human Resouce" と "Technology"をかけ合わせた言葉で、採用や人材育成といったことを技術で解決する取り組みを指します。

*2:参考: データ統括部門「DSOC」が 独自のOCRエンジン「DSOC OCR」を開発 〜メールアドレスを99.7%以上の精度でデータ化〜 | Sansan株式会社

© Sansan, Inc.