こんにちは,DSOC R&Dグループ インターン生の内田です.
最近巷でキーボードが話題になっているのに触発されて,ついHHKBを購入してしまいました.
ものすごく快適である一方,出先で手が痛くなる問題に悩まされる今日このごろです.
はじめに
弊社で取り扱う名刺画像の入り口には主にスキャナとカメラの2つが存在しており,画像品質はどうしても スキャナ > カメラ となります.
現在カメラ画像に対してHand-Craftedな手法で影の除去や輝度値の引き上げなどを行っています.
これを機械学習ベースの手法へ置き換えたいと考えたとき,品質の高いスキャナ画像を正解として学習したいという願望が出てきます.
カメラ画像とスキャナ画像のペア画像データセットを作成する場合,カメラ画像とスキャナ画像の位置合わせが必要となります.
安直には,キーポイントマッチング・ロバスト推定・射影変換を用いて位置を合わせる方法などが考えられます.
しかし実際のところ,カメラ画像にはブレやピンボケなどの歪みがあり,写っている名刺が物理的に折れ曲がっていたりもするため,厳密に位置を合わせることはかなり難しいです*1.
位置合わせを頑張るのを半ば諦めて「位置が合ってない状況で学習できないかな~」と考えていた矢先,以前の連載に登場したContextual Bilateral Loss (CoBi)[*2]を思い出しました.
CoBiは焦点距離の変化による位置ずれを考慮した誤差関数であり,やりたいこととマッチしている感じがします.
そんなわけで今回は,CoBiの派生元であるContextual Loss[*3][*4]について勉強がてらにまとめたいと思います.
続きを読む