今明かされる、AI-OCRの不都合な真実！？

紙をなくす救世主「AI-OCR」。もちろんsweeepでも使用されている技術です。AI-OCRを語る際に必ず出てくる単語「精度」って何でしょう？これ、結構誤解が生じているキーワードなんです。そこで、今回はOCRの解説から、AI-OCRの成否が分かれるポイントなどをご紹介します。（※こちらの記事は弊社HPからの転載です。）

OCRとは

OCRをご存知ない方に少しだけご説明します。OCRは紙に書かれた文字などを読み取りデータ化するための技術です。郵便局でハガキを高速で仕分けする映像を見たことありますね？そこで使われてる技術がOCRです。最近、この技術が向上してきたため、それを使って色々データ化して業務効率化してしまおうというのがDX（デジタルトランスフォーメーション）の中の流行となっています。

精度99%

最近ではOCRとAI（この界隈では主に機械学習を指して使われる）を組み合わせてAI-OCRという分野で語られることが多くなりました。AI-OCR界隈では精度99%という言葉を良く耳にします。これは文字が正しくデータ化される確率のことで、文字一つを読み取った時の精度として使われていることがほとんどと言って良いです。仮に99.5%という精度のOCR製品の場合、20文字あたり90.46%、40文字で81.83%で正しい答えを導く計算になります。仮に精度99.9%なら20文字で98%なので精度が更にあがれば期待は膨らみます。

OCRの現実

残念ながら現実はそうなりません。OCR製品を試した方のほとんどはガッカリします。すべての文書が99%の確率で正しく読めると誤解している人はもちろんのこと、1文字あたり精度と理解してる人でも期待値に合わない結果が出るからです。（ちなみに「誤解」を生じさせている原因はベンダー側にあり、精度合戦はやめるべきというのが我々のスタンスです。）期待値と合わない（＝カタログの精度が正しくない）理由は2つあります。

一つは文字のコンディションが定義されていないことからくるものです。カスレ、ニジミ、クセ字、アブノーマルなフォント、改行、文字間隔など実際に読み取る文字は様々な顔を持ちます。しかし、カタログ上の精度はそれを考慮していません。

もう一つは、カタログ上の精度は読み取る「場所」がわかっている前提で計測されている点です。一般的なOCRではまず読み取る場所を決定し、その場所に対して読み取りを始めます。精度99％は、この場所を決めるという作業を完璧にやった前提の数字なのです。この読み取り場所を決める作業を「帳票定義」といいます。

例えばスポーツジムの入会申込書をイメージしてください。氏名、生年月日、住所などを記入する欄がありますよね。帳票定義をすることで氏名はここから、生年月日はここから読むという指示を出すことができ、他の文字と誤って取り扱うことを減らすことができます。しかし、帳票定義をしたからといって、99.9％が保証される訳ではありません。実際に申込書をスキャンした時に帳票定義とのズレが必ず出てきますし、定義した範囲に必ず文字が収まってくれるとは限らないのです。なので帳票定義したけど、実際にOCRしたら想像してた精度には程遠かったということはざらにあります。

「精度」との付き合い方

ではどういうスタンスで精度と向き合うべきなのでしょうか？まずは、人が言う精度を信じないことです。カタログ上の精度はもちろんのこと、他社事例や噂もあてにしない方がいいです。必ず自社にある書類を使い、自社の実際の担当者が帳票定義などの設定から読み取りまでを一通りやるべきです。そこで出た精度はすごく意味のある指標です。

もう一つは、評価ポイントとして「精度」の比重を上げすぎないことです。OCRサービスの成否を決めるポイントは精度だけではありません。精度と直結している業務は人間で言えば「見る」という行為だけです。書類のレイアウトと意味を理解すること（＝帳票定義）や入力する作業は含まれておりません。もちろん、書類を集めたりスキャンしたり、入力の後にやる作業もすべて「精度」とは無関係です。業務全体として効率化されるようなITおよびフローの設計が必要なのです。