Sansan Tech Blog

Sansanのものづくりを支えるメンバーの技術やデザイン、プロダクトマネジメントの情報を発信

MIRU2024に参加してきました

こんにちは。研究開発部の今井です。 2024年8月6日(火)から8月9日(金)にかけて、熊本県熊本市にて画像の認識・理解シンポジウムMIRU2024が開催されました。弊社からは、今井・内田・関・猿田の計4名の研究員が現地に赴き、企業展示を行いました。本ブログはMIRU2024の参加レポートとなります。

MIRUとは

MIRU2024
MIRU(Meeting on Image Recognition and Understanding; 画像の認識・理解シンポジウム)は、電子情報通信学会PRMU研究会・情報処理学会CVIM研究会が共催している画像系の国内最大規模の学会です。産学問わず多くの研究者・技術者・学生が参加します。

今年のMIRU2024も昨年に引き続きオフラインで開催されました。また、新型コロナウイルスの影響で中止されていたバンケット(懇親会)が数年ぶりに復活したこともあり、参加者同士の交流や情報交換の機会が増え、学会全体に活気が溢れていました。

企業ブース

Sansanの企業ブースでは、名刺のデータ化に関するコンテンツを中心に紹介しました。特に、弊社独自のOCRエンジン「NineOCR」や、画像復元・品質評価技術、MLOpsの取り組みについて説明しました。また、新たな展示として、Vision Language Modelを利用した名刺・請求書OCRエンジン「Viola」のデモを行いました。

企業展示の様子

さらに、名刺のデータ化だけでなく、請求書や契約書のデータ化、営業効率化に関する技術も紹介しました。会場では、研究開発部の取り組みをまとめた『Sansan R&D Tech Report』を配布し、多くの参加者にご覧いただきました。

気になった研究発表

IS-2-100: 泉晴翔, 右田雅裕, 戸田真志, 伊藤正彦(熊本大), 「深層学習による画像インペインティングを用いた古文書画像における紙背文書の復元」

本研究は、深層学習技術を用いて、古文書の裏面に書かれた文書(紙背文書)の復元手法を提案しています。古文書は袋とじの製本が一般的で、紙が貴重だった時代には、表面に書かれた文書の裏面が再利用されることがありました。そのため、表面の文字が紙背文書に影響を与え、読み取りが困難になる問題が生じています。この問題に対処するため、表面の文字を消去し、紙背文書を復元する画像インペインティングモデル(Edge-Connectベース)が提案され、効果的な復元が期待されています。

裏面に書かれた文字ではなく、表面の文字を除去するというタスクは珍しく、非常に興味深い研究でした。

IS-1-147: 佐藤雅也, 前田圭介, 藤後廉, 小川貴弘, 長谷山美紀 (北大), 「Identify-and-generate: VQAにおける大規模マルチモーダルモデルの獲得知識と視覚情報の統合強化」

本研究では、大規模マルチモーダルモデル(LMMs)の弱点である、獲得知識と視覚情報の統合のを改善するために、新たなフレームワーク「Identify-and-generate (IAG)」を提案しています。

現行のLMMsでは、知識と視覚情報をうまく統合できず、画像内の対象に関する質問に対して正確に答えるのが難しいという課題があります。たとえば、「この湖の名前は?」といった質問には正確に答えられても、「この湖の面積は?」といった質問には正確に答えられない場合があります。

提案手法では、まず画像から質問に関連する対象を特定し、その対象に関する知識をモデルから抽出して回答を生成します。モデル自体の知識を活用することで外部データやファインチューニングなしに、正確な回答を導き出すことが可能です。本研究により、LMMsの精度が大幅に向上し、視覚情報と獲得知識を効果的に統合することが可能であることが示されました。

SansanでもVQAを用いたOCRエンジンの研究開発を行っており、研究における有益な知見を得られました。

OS-2B/IS-2A: オーディエンス賞, 鈴木共生, 前野一樹, 橋本潔 (パナソニックコネクト), 石井育規 (パナソニックホールディングス), 山下隆義(中部大)「物体特徴を捉えるためのFDSLとCGを組み合わせた事前学習」

本研究は、物体認識のための新しい事前学習手法を提案しています。従来のFormula-driven Supervised Learning (FDSL)を用いた事前学習では、物体の輪郭にのみ注目するという課題がありました。これを解決するため、FDSLデータとCGデータを組み合わせた「ミックス学習」と「シーケンシャル学習」の2つの手法が提案されました。特にシーケンシャル学習は評価実験において、従来のFDSLを超える認識精度を示しました。

提案手法により、ImageNetで訓練されたモデルと比較しても遜色のないAttentionを獲得でき、コストを抑えつつ高品質な認識モデルの構築が可能であることが示されています。これにより、さまざまな実運用環境での物体認識精度の向上が期待されます。

OS-3A-10 大谷豪(慶大, 産総研), 田所龍(産総研), 山田亮佑(筑波大, 産総研), Yuki Asano(Univ. of Amsterdam), Iro Laina, Christian Rupprecht(Univ. of Oxford), 井上中順, 横田理央(東工大, 産総研), 片岡裕雄(産総研), 青木義満(慶大, 産総研)「画像超解像における学習データ構築の再考」

本研究は、画像超解像(SR)における従来のデータセット構築手法を再考するものです。提案されたDiverSegデータセットは、低解像度のWeb画像を使用しながらも、従来の高解像度でノイズの少ないデータセットを上回る性能を示しました。研究では、SRモデルの学習における本質的な要素を画像のBlockiness分布で評価し、セグメント数で多様性を定量化することで、低解像度画像から高精度な学習が可能であることを示しています。

Sansanでは、名刺や文書の画像復元精度向上のために、データセットの構築に注力しているため、非常に参考になりました。

まとめ

本ブログでは、MIRU2024における弊社の取り組みと気になった研究発表をご紹介しました。今年も多くの方々と交流する機会に恵まれ、特に数年ぶりに復活したバンケットでは、普段お会いできない方々とも新たな交流が広がり、学会全体が一層活気づいたと感じています。今年は残念ながら研究発表の機会はありませんでしたが、来年のMIRU2025では発表を行えるよう、引き続き努めてまいります。

最後に、Sansanでは一緒に働く仲間を募集しています。Sansanの研究内容やビジネスにご興味ある方は、ぜひ以下のリンクより募集ポジションをご覧ください。 [Sansan R&D採用ページ ] https://media.sansan-engineering.com/randd

© Sansan, Inc.