Sansan R&D TECH SHOWCASE -ビジネスをドライブするR&Dのウラガワ大公開-を開催しました

こんにちは、研究開発部の西田です。
週末朝9時からのバスケの練習に向かう電車の中でこの記事を執筆しています。

先週の金曜日、研究開発部の取り組みを紹介するSansan R&D TECH SHOWCASEを開催しました！その興奮が冷めやらぬうちに、イベントのハイライトをお届けします！
sansan.connpass.com
TECH SHOWCASEは今回が2回目の開催であり、前回は6月にポスター発表で研究開発部メンバーと会話しながら取り組み内容を紹介する形で実施しました。前回は大雨という足元の悪い中、たくさんの方にお越しいただきました。

今回は秋晴れでの開催を願っておりましたが、今回も雨...。バスケに向かう今日も雨。今日のバスケにも参加するあの運営メンバーが雨を呼んでいるのではないかと疑ってしまいます。

そんな話はさておき、今回はオフラインとオンラインのハイブリッド形式での開催でした。今回はビジネスをドライブするR&Dのウラガワ大公開というサブタイトルのもと、6つの発表をLT形式で実施しました。

発表テーマは大きく2パートに分かれており、前半はMLOps/データプロダクトマネジメント、後半はSansan R&Dのお家芸であるデータ化プロセスについてCV/ML/NLPがキーワードになっています。
それでは、ここから各発表のハイライトと裏話をお伝えしていきます。

データ活用のためならなんでもやるDataDirectionTeamの話
営業DXのためのアプリケーション提供で⾒えてきたデータ活⽤、データプロダクトマネジメント
アプリケーション基盤側から⾒たリードタイム2週間、年間100リリースへの挑戦
NineOCRの改善を⽀えるFeature Store
メール署名取り込みにおける名刺情報抽出の取り組み
データ入力の自動化率向上のための取り組み
おわりに

データ活用のためならなんでもやるDataDirectionTeamの話

トップバッターは入社3ヶ月目の坂口（@hacchi_san_dayo）の発表です。
統合データ基盤をもとにして、どのようにSansanのデータ活用をドライブしているかを紹介しました。

speakerdeck.com

データ基盤、つくっても使われない...と困っている人は少なくないはずです。でもこの統合データ基盤は違います。Data Direction Teamが現場に入り込み、ビジネス課題を特定した上でデータ活用を推進しています。
かくいう私も統合データ基盤を利用しており、本当にデータ取得に関するストレスはなくなりました！

坂口の発表にある、データを使って5分で意思決定できる世界を作る、Sansanにおける知の高速道路を作るという言葉に痺れました。Data Direction Teamが中心となり、統合データ基盤を一つのプロダクトとして捉え、ミッションステートメントを決めているのもとても良いなと思いました。

そんな最強の統合データ基盤を一緒につくっていく人も募集中です！ぜひ！
https://open.talentio.com/r/1/c/sansan/pages/76397
https://open.talentio.com/r/1/c/sansan/pages/76398

営業DXのためのアプリケーション提供で⾒えてきたデータ活⽤、データプロダクトマネジメント

続いての発表はこちらも入社5ヶ月目の猿田（@srt_taka）からです。
余談ですが、バスケ日本代表の比江島選手にそっくりです。出るか？比江島セレブレーション！と期待してタイムキーパーしてたら、発表後にヘラヘラしてたって怒られてしまいました。

speakerdeck.com

真面目な話に戻ります。
前の発表で統合データ基盤があるのはわかったし、活用されているのもわかった。でも本当？と疑っている方もいるでしょう。この発表を見ればそんな疑いは吹き飛びます。
統合データ基盤をフルに活用して、Sansanにおいてデータ活用機能を実験的に提供しているSansan Labsや社内向けデータ活用アプリケーションが高速にかつ大量にリリースされています。Sansan Labsでは20個、社内向けは10個リリースされています！それもただR&Dがデータだけを見て作ってリリースしているのではなく、坂口の発表同様に営業やCSメンバーにがっつりインタビューしながら、ビジネス課題の解決を重視したアプリケーションを提供しています。愚直なプロダクトマネジメントを継続した賜物です。

そのスピード感でどんどんリリースしていきたいと思った方、ぜひ一緒に働きましょう！
https://open.talentio.com/r/1/c/sansan/pages/78655
https://open.talentio.com/r/1/c/sansan/pages/78712

アプリケーション基盤側から⾒たリードタイム2週間、年間100リリースへの挑戦

前半最後の発表はこの日のイベントのために名古屋から駆けつけた、新井 a.k.a KAZY（@KAZYPinkSaurus）。
普段からR&Dを沸かせる存在の新井に、実は今回のイベントの司会を任せました。名古屋で最高のイベントをしてもらいたくて、チャンスを与えたつもりです。余裕でフロアを沸かせてくれる！と思ってたところ、序盤から緊張しすぎててスマイルってかいたカンペを出す羽目になって笑いました。

speakerdeck.com

ここまで統合データ基盤が整っており、データ活用も進んでいることを発表してきました。
では、どのようにしてアプリケーションとしてリリースしているのでしょう？その質問に答えるのがこの発表です。

研究開発部では機械学習モデルを構築したり、データサイエンスに取り組むメンバーに比べて、MLOps/DevOpsを担うエンジニアが少ないという課題がありました。そのため、研究成果をなかなかプロダクトとしてリリースすることができません。この課題を解決するために、MLOps/DevOpsエンジニアが時間をかけなくても研究員が中心となってリリースできる基盤を整えています。基盤ができたからといって簡単にリリースまでのリードタイムが減るわけではありませんでしたが、日々基盤の改善に努めており、数ヶ月かかっていたリリースも今では1ヶ月程度でリリースできています。

研究活動を成果につなげるのは困難で試行錯誤が伴います。この基盤があるからこそ、仮説検証を繰り返し、成果につなげられる環境にあると考えてます。MLOps/DevOpsエンジニアが研究開発部をリードしているといっても過言ではありません。

基盤の詳細は以下のスライドから。
speakerdeck.com

こちらの基盤のさらなるアップデートに興味のある方は以下をチェックしてみてください。
https://open.talentio.com/r/1/c/sansan/pages/76616

NineOCRの改善を⽀えるFeature Store

ここからはいよいよ後半。
後半はこちらも関西からこのために駆けつけてくれた、八藤丸からの発表です。

speakerdeck.com

SansanのOCR技術をはじめ画像処理/画像認識技術についての発表はこれまで聞いたことがある方も多いかもしれません。今回は普段と少し異なる角度で、OCR技術の改善を支える裏側についての発表です。
OCR技術は研究開発部発足当時から長らく取り組んできたコア技術です。そのため、精度の向上の難易度も高いです。また、データガバナンスの観点からもデータを永続的に扱うことはできないため、学習データの作成も簡単ではありません。
その中でFeature Storeを導入して最新のデータを含む大量のデータから必要なデータを取得することが可能になり、これまで取得に30日かかるようなケースでも8時間で取得できるようになっています。

私はOCR技術のプロジェクトに関わったことはないですが、コア技術になるまで積み上げてきた専門技術に加えて、さらに高みを目指せる環境は画像処理/画像認識技術を専門とする方にとっては魅力的な環境ではないでしょうか？

そんな最高峰とも言える環境で挑戦してみたいという方は是非！
https://open.talentio.com/r/1/c/sansan/pages/76600
https://open.talentio.com/r/1/c/sansan/pages/76616

メール署名取り込みにおける名刺情報抽出の取り組み

後半2番手は、研究開発部で勤務しながら博士課程にも在籍している橋本からの発表です。

speakerdeck.com

メール署名取り込みは、営業DXサービスSansanにおいてメール接点をデータとして蓄積できる機能です。Sansanは名刺管理のイメージが強いと思いますが、名刺以外から名刺相当の情報を抽出する技術も開発しており、さまざまなチャネルから接点情報を管理できるようになっています。

メール署名取り込みは、メールの署名部分の特定とその署名欄から名刺相当の情報を抽出の2ステップに分かれて情報抽出が行われています。メールのデータは過去のやりとりも含まれ、テキスト量が大きくなる可能性があるため、TransformerベースのモデルやLLMの活用はスケールやデータ化コストの問題から利用が難しい課題があります。この課題を乗り越えるため、比較的軽量なCRFモデルでの署名部分を特定し、高速かつ省メモリの有向無閉路文字グラフ（DAWG）を用いるなどして名刺相当の情報抽出を実現しています。

このように単に精度の高い情報抽出を開発するのではなく、機能としてリリースすることやデータ化コストを鑑みた上での制約の上で研究に取り組んでいます。データ基盤の話でもありましたが、ここでもビジネス課題として定義した上で課題解決に取り組む部分は共通していると思います。

この技術を初め、自然言語処理を活用してモデルの精度向上や新たな情報抽出に取り組んでいくため、メンバーを募集中です！
https://open.talentio.com/r/1/c/sansan/pages/76598

データ入力の自動化率向上のための取り組み

そして最後の発表は、予測モデリングの精度を競い合うデータ分析コンペティションでも成果を上げている齋藤（@sinchir0）からの発表です。

speakerdeck.com

99.9％以上の精度と早いスピードを実現しながらアナログ情報をデジタル化する技術は、Sansanのビジネスモデルを支える大きな強みとなっています。その中で、データ入力作業の自動化率改善のために取り組んだ内容を紹介しました。99.9％以上の精度を担保するために、オペレーターとの協働により実現しています。オペレーターが関与する部分を減らし、自動化率を向上できればビジネスインパクトは大きいです。実際に、発表内容では年間数千万円のコスト削減を実現したケースをもとに、どのようなステップでプロジェクトを進めているかを紹介しています。

研究開発部らしさが出ていると感じたのは、このプロジェクトでもオペレーターへのインタビューを行い、かつ実際のデータを自分の目で見るようにしている部分です。データを特徴量ベースで見るのではなく、実物を見てモデリングを思考していきます。データ分析コンペティションにおいても、実データをしっかり見ることは重要とされているのと同様です。データ化の取り組みは成熟している技術も多く、「神は細部に宿る」の精神で細かい部分までこだわり抜くことが成果につながります。

データ化オペレーションの研究開発にはさまざまな技術が使われています。いろんな角度からデータ化オペレーションの効率化を考えてみたい方も募集中です！
https://open.talentio.com/r/1/c/sansan/pages/76600

おわりに

最後は懇親会をして登壇者と参加者が交流できる時間を設けました。

個人的に参加者の方と話して、Sansanは大きな会社になり挑戦できる環境なのか聞かれることがありました。私が入社した頃は全社員300名程度で今では4倍以上になっていますが、挑戦できる環境は変わっていないと思います。また、複数のプロダクトが立ち上がり、プロダクトごとにさまざまなフェーズがあるので、新規開発が必要になるプロジェクトもあれば、成熟した技術をさらに向上させる取り組みもあります。いろんなフェーズの事業に関われるのは私が入社したころとは変わって、魅力的な環境になっているのではないかと思いました。

今回のTECH SHOWCASEもオフラインとオンラインからたくさんの方に参加いただき、ありがとうございました！イベント運営の至らない点もあったかと思いますが、今後もみなさんに研究開発部のさまざまな知見を共有できるイベントを実施していきたいと思います。次回のTECH SHOWCASEもお楽しみに！

▼中途採用
https://open.talentio.com/r/1/c/sansan/pages/76397
https://open.talentio.com/r/1/c/sansan/pages/76398
https://open.talentio.com/r/1/c/sansan/pages/78655
https://open.talentio.com/r/1/c/sansan/pages/78712
https://open.talentio.com/r/1/c/sansan/pages/76616
https://open.talentio.com/r/1/c/sansan/pages/76598
https://open.talentio.com/r/1/c/sansan/pages/76600

▼新卒採用
25卒新卒採用研究開発職（データ解析・機械学習）