高校「情報Ⅰ」単語帳 - 第一学習社「高等学校情報Ⅰ」 - データの収集・整理・分析

オープンデータ ⭐⭐⭐

誰でも自由に入手や使用、加工、再配布などができるよう広く一般に公開されているデータ。特に、ソフトウェアなどによる自動処理に適した一定のデータ形式に整理・整形された機械可読(マシンリーダブル)なもの。

データの中には著作権などによって保護されていたり、所有者によって入手や利用に制限が課せられ、手続きや対価が必要なものが多くある。オープンデータはこのような制約から解放され、営利・非営利を問わず誰でも自由に使用や再配布が可能なデータを指す。

こうしたデータ公開が期待され、また積極的に行われているのは主に学術・科学分野や公共分野である。大学や研究機関の持つ科学的な資料や、政府や自治体などの公的機関の持つ公共的な情報や、事業などで調査・収集した統計データなどの公開が進められている。

行政などのデータ公開・提供はこれまでも白書やWebサイトなどの形で行われてきたが、これはもっぱら人間が閲覧するための文書として発行されたものであり、ソフトウェアで解析・加工するには人間の手で整形しなければならなかった。オープンデータではコンピュータ上での自動処理を前提としたデータ形式が求められ、XMLやCSVファイル、Excelファイル(XLSXファイル)などの形で提供される。

ある完結したひとまとまりのデータ集合を「データセット」と呼び、これを一つのファイルなどに(複雑・大規模な場合はいくつかに分割して)記録してWebサイトなどで公開する。複数のデータセットを公開する機関やサイトでは、どこにどんなデータセットがどのような形式で公開されているかをまとめた「データカタログ」が作成されることが多い。

2000年代後半頃から、米連邦政府の「Data.gov」や日本政府の「データカタログサイト」(DATA.GO.JP)など、政府機関が提供している様々なオープンデータをまとめたデータカタログや専用のWebサイトを公開する国が増えている。

全数調査 ⭐

統計的な調査を行う際に、対象となる母集団全体を調査対象とする方式。国勢調査のように、標本の抽出などを行わずに対象すべてを虱潰しに調べる調査。

高校「情報Ⅰ」単語帳 - 第一学習社「高等学校 情報Ⅰ」 - データの収集・整理・分析

オープンデータ ⭐⭐⭐

全数調査 ⭐

標本調査 ⭐

標本の抽出法

量的データ ⭐⭐⭐

質的データ ⭐⭐⭐

異常値 ⭐

外れ値 ⭐⭐⭐

欠損値 ⭐⭐⭐

尺度 ⭐⭐

尺度水準 ⭐⭐

名義尺度

順序尺度

間隔尺度

比例尺度

比例尺度 ⭐⭐

順序尺度 ⭐⭐⭐

間隔尺度 ⭐⭐⭐

名義尺度 ⭐⭐⭐

メタデータ

AND検索 ⭐

OR検索 ⭐

NOT検索 ⭐

検索エンジンのマイナス検索

CSV ⭐

仕様のばらつき

同じ用途の他形式

JSON

格納できるデータ

保存形式

歴史

XML

XMLの表記法

用途と関連規格

PDF

PDF文書の作成

ビッグデータ ⭐⭐⭐

データマイニング ⭐

データクレンジング

平均値 ⭐⭐

最頻値 ⭐

中央値 ⭐⭐

分散 ⭐⭐⭐

統計学の分散

分散処理

標準偏差 ⭐⭐

クロス集計 ⭐⭐

相関関係 ⭐⭐⭐

因果関係 ⭐

正の相関 ⭐

負の相関 ⭐

相関なし

テキストマイニング ⭐⭐⭐

散布図 ⭐⭐⭐

ヒストグラム ⭐⭐⭐

度数分布図

表計算ソフト ⭐⭐

製品

行 ⭐

表や行列の行

列 ⭐

表における行と列

データベースにおける行と列

データ列

絶対参照 ⭐⭐

降順 ⭐

昇順 ⭐

オートフィル ⭐

高校「情報Ⅰ」単語帳 - 第一学習社「高等学校情報Ⅰ」 - データの収集・整理・分析