機械可読 【machine readable】 マシンリーダブル / 機械判読可能
概要
機械可読(machine readable)とは、コンピュータ上のデータ集合やファイルの持つ性質の一つで、記述された内容がコンピュータプログラムによって容易に処理可能であること。単純な処理で個々の要素を読み込むことができ、集計や変換などを行える状態を指す。例えば、数値を集計した表が記された紙面を撮影した画像データは、人間が見れば書かれている項目や値を理解することができるが、コンピュータに画像の中に写っている内容を文字や数字として認識させるには複雑で高度な処理が必要で、認識精度も低くなる。
一方、「支店,年,月,売上(改行)東京,2021,1,7650000(改行)大阪,2021,1,9610000(改行)…」という形式で記述されたテキスト(文字)データは、「改行文字で分割して一件のデータ列を取り出す」「一件のデータ列をカンマ(,)文字で分割して各項目を取り出す」という単純な処理により、構造化されたデータ集合として扱えるようになる。
このように、単純なルールに基づいて処理を行うことでプログラム上で扱えるデータ構造に変換できるようなデータ形式を機械可読であるという。この例で挙げたCSV(Comma-Separated Value:カンマ区切り)形式は代表的な機械可読形式であり、他にもXML(Extensible Markup Language)やJSON(JavaScript Object Notation)などの形式が機械可読データの記述に適している。
ソフトウェアにより読み書きや編集などが可能なデータ形式であっても、例えばワープロソフトの文書ファイル(Microsoft WordのDOCX形式など)やPDF(Portable Document Format)ファイルなどは文書データを人間が閲覧するために表示・印刷するのが目的であるため、記述された内容は機械可読とはならない。
Webページの記述に用いられるHTML(Hypertext Markup Language)や表計算ソフトのワークシート(Microsoft ExcelのXLSX形式など)などは両者の中間的な性質を持ち、人間もソフトウェアも内容を読み取れるよう機械可読な構成とすることも、機械可読性を無視して人間が読むためだけに見栄えを整形することもできる(そしてそのことがしばしばトラブルや余計な手間が発生する原因となっている)。