MIRU2023に参加しました

こんにちは。研究開発部の本田です。

2023年7月25日（火）から7月28日（金）にかけて、静岡県浜松市にて画像の認識・理解シンポジウムMIRU2023が開催されました。弊社からは今年、今井・内田・猿田・本田・李の計5名の研究員が現地に赴き、企業展示に加えてポスター発表を2件行なっています。本ブログは、発表内容も併せたMIRU2023の参加レポートとなります。

ところで、浜松ひいては静岡のお土産といえば「うなぎパイ」ですよね。ただ、猛烈に汗をかく今日この頃。甘いものだけでなく塩っけのあるものも食べたくなります。そこで(元静岡県民が)オススメする静岡土産が「バリ勝男クン。」です。名の表す通り、バリバリ食感の鰹節を使ったチップスで、ふりかけなどもあり白米のお供にもオススメです。静岡に行く機会がある方は是非探してみてください。

さて、それでは本題の参加レポートに入ります。

MIRUとは

MIRU (Meeting on Image Recognition and Understanding; 画像の認識・理解シンポジウム) とは、電子情報通信学会PRMU研究会・情報処理学会CVIM研究会が共催している画像系の国内学会です。画像系の学会としては国内最大規模であり、産学問わず多くの研究者・技術者・学生が参加します。

去年と同じくオフライン開催となった今年のMIRU2023でしたが、過去最多の参加人数であったり軽食ありの交流会であったりと、去年と比較しても盛り上がりは一層増しているように感じます。来年あたりでバンケットが復活すると嬉しいですね。

企業ブース

今年の企業ブースでは、主に名刺データ化に関するコンテンツとして、弊社独自のOCRエンジン「NineOCR」・NineOCRに関わるMLopsの取り組み・名刺画像ホワイトニング技術及び画像品質評価技術についてご紹介しました。
加えて、実際の名刺データ化・名刺デザインテンプレート作成のデモを展示しており、多くの方にSansanの技術を体験していただくことができたと思います。

また、弊社は名刺だけでなく、請求書や契約書のデータ化や営業効率化のための諸機能の提供などにも取り組んでいます。請求書項目抽出や営業支援サービス「Sansan labs」など、名刺以外の取り組みについても「Sansan R&D TECH SHOWCASE」という技術イベントのパンフレットをお渡ししながら説明しました。「Sansan R&D TECH SHOWCASE」は6月に開催した、研究開発部の取り組みを包括的にご紹介するイベントとなります。ご興味ある方は、以下をご覧ください。
buildersbox.corp-sansan.com

ポスター発表内容

今年のMIRUでは弊社より以下2つの研究について発表しました。画像品質評価（IQA）と文字認識という、最近の学会傾向から見ると少しニッチな研究分野になりますが、弊社においては大きなビジネス価値を生み出す重要な研究です。
それぞれの研究内容について、軽くご紹介したいと思います。

[IS2-81] Vision-Language Modelによる局所構造を考慮したFew-shot画像品質評価モデル

今井海人, 内田奏（Sansan）

画像品質評価 (Image Quality Assessment; IQA）という研究分野をご存知でしょうか？
IQA は、画像の品質や劣化の程度を定量化するコンピュータビジョンの基本的な問題であり、画像復元モデルの学習やデジタルメディアにおけるユーザ体験への影響評価など、各分野で重要な役割を担っているものです。ここで言う劣化にはガウシアンノイズやブラーなどから、深層学習モデル特有のノイズといったものまで含まれます。

弊社ではOCR精度向上を目的とした画像品質向上技術として、名刺撮影画像を綺麗に復元するホワイトニング技術を開発しています。この復元結果には元画像の劣化やホワイントニングモデルによるアーティファクトが含まれる可能性があり、これらの劣化を評価するのにIQAが使えるわけです。

本論文では、Contrastive LanguageImage Pre-training（CLIP）を利用したIQA手法（CLIP-IQA）に着目しています。CLIP-IQAは、事前学習によって得られる画像・テキスト共通の特徴空間を利用して、画像品質に関するポジティブ・ネガティブなプロンプトと画像特徴を比較することで画像品質評価を実現する手法です。高い汎化性能とzero-shot性能の反面、1. 画像中局所的な劣化も適切に考慮できない, 2. few-shot学習時に過学習する という課題がありました。本論文ではこれら課題の解決に加え、3. 効率的にCLIPを再学習するAdapterの追加, 4. マルチプロンプトペアを利用した性能向上を実現しました。

[IS3-90] 確信度に基づいた自己修正機構を持つ高速な文字認識モデル

竹長慎太朗（筑波大学）, 内田奏（Sansan）

画像中の文字を正確かつ高速に認識する技術は、ドキュメントのデジタル化では必要不可欠な技術です。弊社で行っている名刺データ化の根幹もこの技術が担っています。本論文はこの「高精度な文字認識モデル開発」という研究テーマに取り組んだインターン成果となります。

文字認識において、しばしば似た字形の文字の認識ミスが課題となります。例えば、漢字の"口"をカタカナの"ロ"と誤認識するなどです。これを解決する方法として、それまでに認識した結果、つまり文脈を利用することが考えられます。例えば、"渋谷南口"が認識対象の文字画像だったとすると、"渋谷南"までの認識結果を利用することで、"渋谷南ロ"（しぶやみなみろ）ではなく"渋谷南口"（しぶやみなみぐち）であることが分かります。

さて、現時点より前の認識文字を入力し一文字ずつデコードする自己回帰型モデルは、画像情報とそれまでの認識文字情報（文脈情報）を利用できますが、処理時間が文字列長に依存するという課題がありました。対して、処理を高速化することを考えると、全ての文字を並列にデコードする非自己回帰型モデルが考えられます。ただし文字列画像のみを入力し認識結果の文字を利用しないために、文脈を考慮することができず、似た字形に対する頑健性が低い問題がありました。

本論文ではこの並列化と文脈考慮のトレードオフを解決するために、Transformerを利用し文字列を並列にデコードしながらも、認識確信度に基づいて認識文字を動的に繰り返し修正するIterative-ViTSTRを提案しました。典型的な非自己回帰型モデルであるTransformerを利用することで高速処理しながらも、画像とは別に文字入力ゲートを用意し、認識結果を確信度に基づいて繰り返し利用することで前後文脈を効率的に考慮します。

左図はIterative-ViTSTRのモデル構造。右図はIterative-ViTSTRを用いた繰り返し処理の概要。

まとめ

本ブログではMIRU2023における弊社の取り組みをご紹介しました。

去年のMIRU2022終了時点では、弊社からの研究発表がないことを課題としていました。今年は2件の発表を無事行うことができたのは嬉しいことです。画像系研究者の増員やインターンでの研究活動など、研究に向き合いやすい環境が整ってきたように感じます。特に、インターン成果を論文という形にできたことは大きいことです。今後も継続して対外的な研究発表を続けていくためにも、研究環境の充実・インターン成果の外部発信に取り組んでいきます。

最後に、Sansanでは一緒に働く仲間を募集しています。Sansanの研究内容やビジネスにご興味ある方は、ぜひ以下のリンクより募集ポジションや関連記事をご覧ください。

https://sansan-engineering.notion.site/Sansan-R-D-for-25-Graduates-1d2bce974f83482ba85fd8c889f0a218

https://media.sansan-engineering.com/randd