OCR 【Optical Character Reader】 光学式文字読取装置 / Optical Character Recognition / 光学式文字認識

概要

OCR(Optical Character Reader)とは、紙面を写した画像などを解析して、その中に含まれる文字に相当するパターンを検出し、書かれている内容を文字データとして取り出す装置やソフトウェアのこと。また、そのような方式による自動文字認識。

文字が印刷された紙などをイメージスキャナやカメラなどで撮影し、その中に含まれる線の形状などのパターンを解析して、人間の使う文字や数字、記号に相当するものを発見して文字データの並びとして出力する。

古くから郵便番号の読み取り装置などとして利用されてきたが、近年ではパソコンスマートフォンなどでも利用できる精度の良い安価なソフトウェアも増え、書類や書籍の電子化、帳簿や伝票などの読み取りシステムなどに応用されている。

書籍のように印刷された紙面の文字は字形が美しく規則正しく並んでいるため認識しやすいが、かすれや汚れで不鮮明な箇所や、人間が手書きした文字などでは認識精度が下がる。また、漢字文化圏では文字の種類の多さや互いにそっくりな形の異なる文字の識別という独特の困難さがあり、アルファベット文化圏では筆記体の読み取りという困難さがある。

これに対し、択一式試験のマークシート式答案用紙の読み取りなどに用いられる、紙面の所定の位置が黒くマークされているか否かを光学的に読み取る装置やシステムのことを「OMR」(Optical Mark Reader光学式マーク読取装置)という。

(2024.1.10更新)

他の辞典による解説 (外部サイト)

この記事を参照している文書など (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。
ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる