OCR 【Optical Character Reader】 光学式文字読取装置 / Optical Character Recognition / 光学式文字認識
概要
OCR(Optical Character Reader)とは、紙面を写した画像などを解析して、その中に含まれる文字に相当するパターンを検出し、書かれている内容を文字データとして取り出す装置やソフトウェアのこと。また、そのような方式による自動文字認識。文字が印刷された紙などをイメージスキャナやカメラなどで撮影し、その中に含まれる線の形状などのパターンを解析して、人間の使う文字や数字、記号に相当するものを発見して文字データの並びとして出力する。
古くから郵便番号の読み取り装置などとして利用されてきたが、近年ではパソコンやスマートフォンなどでも利用できる精度の良い安価なソフトウェアも増え、書類や書籍の電子化、帳簿や伝票などの読み取りシステムなどに応用されている。
書籍のように印刷された紙面の文字は字形が美しく規則正しく並んでいるため認識しやすいが、かすれや汚れで不鮮明な箇所や、人間が手書きした文字などでは認識精度が下がる。また、漢字文化圏では文字の種類の多さや互いにそっくりな形の異なる文字の識別という独特の困難さがあり、アルファベット文化圏では筆記体の読み取りという困難さがある。
これに対し、択一式試験のマークシート式答案用紙の読み取りなどに用いられる、紙面の所定の位置が黒くマークされているか否かを光学的に読み取る装置やシステムのことを「OMR」(Optical Mark Reader:光学式マーク読取装置)という。
(2024.1.10更新)
関連用語
他の辞典による解説 (外部サイト)
この記事を参照している文書など (外部サイト)
- 東京都昭島市「昭島市デジタル化推進計画」(PDFファイル)にて引用 (2022年3月)