Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

【22新卒 1年間の振り返り】第1回 Bill Oneのデータ化に携わる22卒が入社時の決意を振り返ってみた

連載企画「22新卒 1年間の振り返り」では、2022年に入社した新卒がそれぞれの1年目の振り返りをまとめたブログをお届けします。

はじめに

こんにちは、技術本部 Digitization部 Bill One Entryグループの大森です。2022年4月に新卒入社し、早いものでもうすぐ2年目を迎えようとしています。 本記事では、私の入社時の記事である 入社のきめて で述べた中から3つの決意をピックアップし、約1年経過して実際どうだったかを振り返ります。

自己紹介

私は大学で情報工学を専攻しながら部活やアルバイトでアプリ開発に取り組み、大学院で機械学習アルゴリズムの信頼性評価の研究をしていました。趣味はアニメを見ることで、初めてのボーナスで良いプロジェクターを買い、壁一面に投影して見ています。

Sansan に入社したきっかけ

私は学生時代の経験からデータの持つ可能性に興味があり、データ活用が強い自社開発企業を探して Sansan に出会いました。 2020年の夏に Sansan のインターンでデータ化システムに携わったことで、 Sansan の技術的挑戦の面白さやミッション・ビジョンに共感し入社を決意しました。

Bill One Entry とは

Bill One Entry(BOE)とは、請求書データベースサービスである Bill One のデータ化を担うシステムです(位置付けのイメージはこちらの記事の Bill One アーキテクチャ図が分かりやすいです)。 アナログ情報をデータ化する部署である Digitization部の技術を用いて、請求書画像から金額や取引先名といった様々な情報をデータ化し、 Bill One を介してユーザーに価値を提供しています。 データ化には AI と人(オペレーター)の入力の組み合わせが用いられており、大量の請求書をいかに迅速かつ正確にデータ化できるか日々向き合っています。

決意の振り返り

入社のきめて で述べた内容から、次の3つの決意について今の自分が振り返ろうと思います。

  1. QCD(クオリティ、コスト、デリバリー)の課題を解決
  2. 「出会いのデータベース」を開発したい
  3. データでユーザーに価値を届けられるエンジニアになりたい

1. QCD(クオリティ、コスト、デリバリー)の課題を解決

Digitization部では、データ化の精度(クオリティ)・費用(コスト)・納品時間(デリバリー)を併せて QCD と呼んでおり、この3つのバランスをとりながら最適化し続けています。 この1年で実際に取り組んだ内容をそれぞれ紹介しようと思います。

クオリティ

BOE では定期的にクオリティチェックを行い、データ化ミスがあればそれを防ぐ方法を検討し実装に落とし込みます。中でも、AI やオペレーターの入力で発生する文字の揺れや頻出ミスに対して行う独自の正規化や変換処理は、Digitization部の叡智の結晶です。

新たな処理を追加したい時には、過去データから影響範囲を特定し、どのくらい改善の見込みがあるかを検証してから追加の判断を慎重に行います。自分もいくつかの処理を追加してきましたが、検証結果を共有する度にチームのメンバーから様々なフィードバックをもらい、1行の実装のために1日中何度も検証を繰り返したりしました。

データ化精度がどのくらい上がったか観測するのが不可能なほど小さな改善がほとんどですが、対処した原因由来のミスをクオリティチェックで見なくなった時は、取り組んでよかったなと思います。

コスト

Bill One の成長と共に取り込まれる請求書も増えていくため、データ化のスケーリングは必須です。AI による自動入力はこのスケーリングを低コストで実現します。

基本的に AI による自動入力は全て研究開発部のエンジンを利用していましたが、最近 BOE チームでもルールベースで自動入力を実装し始めました。その第1弾の実装を私が担当し、わずかではありますが自動化率の向上に寄与することができました。

今後も BOE チームで自動入力機能を発明し自動化率向上を目指していきたいところです。私としては、学生時代の機械学習の経験や今回の経験を踏まえて、自分がリードできるように頑張っていきたいと思っています。

デリバリー

日によってデータ化依頼の数は大きく増減するため、データ化にかかる時間はクオリティやコストに比べて非常に不安定になりうる部分です。また、私たちのデータ化スピードの限界は Bill One をどれだけのユーザーに使ってもらえるかの限界とも言い換えることができます。

BOE が注力できる施策の一つに入力作業効率の改善があります。入力システムの UI や UX を改善して、データ化のスピードを向上させる施策です。

私は今まで frontend の開発経験が少なく正直あまり興味もなかったのですが、このシステムでは作業効率という定量的な目標と結びつくと気づき、frontend の技術も積極的に勉強するようになりました。まだ細かな実装しか担当したことがないのですが、影響力の大きい実装に少しづつ挑戦していきたいと思っています。

2. 「出会いのデータベース」を開発したい

私は請求書データと向き合っているので、一見すると「出会いのデータベース」とは関係のないことをやっていると思われるかもしれません。ところが、請求書データも立派な出会いのデータなのです。

私も内定当時は「出会いのデータベース」のイメージとして「個人と個人の出会い」しかなく、配属時は「あれ?」と思いました。しかし、請求書データには企業と企業の繋がりがあります。つまり、請求書は企業と企業が出会い、繋がった証なのです。

これを知った時のワクワクは今でも覚えています。今では「出会いのデータベース」を改め、「繋がりのデータベース」を開発したいと思いながら請求書データに日々向き合いっています。

3. データでユーザーに価値を届けられるエンジニアになりたい

上記のQCDの課題を解決する取り組みを見てもらったら気づくとは思いますが、もうなってはいると思います。とは言っても、私が届けている価値はまだまだ少ないです。今の BOE の価値を、10倍100倍と大きくできるように成果を積み重ねていきたいです。

また、今の価値のままではユーザーにとってデータ化は特別なこととして認識され続けるだろうと思います。しかし、データ化は当たり前のことなんだとユーザーが認識するくらい突き抜けた価値を私は届けていきたいです。

そして、私たちがデータ化した請求書データから生まれる「繋がりのデータベース」から、もっと突き抜けた価値を届けられるように、引き続き請求書データと向き合っていきたいと思っています。

終わりに

本記事では、新卒入社で1年経過した自分による、入社当時の決意に対する振り返りを述べました。 この記事を書きながら改めて、Sansan への入社や BOE への配属でたくさん面白い経験させてもらっているなと感じています。 まだまだ挑戦することはたくさんありますが、全ては自分のやりたいことである「データでユーザーに価値を届けられる」ことに通じているので、これからも精進してまいります。

© Sansan, Inc.