高校「情報Ⅰ」単語帳 - データの収集・整理・分析

オープンデータ ⭐⭐⭐

誰でも自由に入手や使用、加工、再配布などができるよう広く一般に公開されているデータ。特に、ソフトウェアなどによる自動処理に適した一定のデータ形式に整理・整形された機械可読(マシンリーダブル)なもの。

データの中には著作権などによって保護されていたり、所有者によって入手や利用に制限が課せられ、手続きや対価が必要なものが多くある。オープンデータはこのような制約から解放され、営利・非営利を問わず誰でも自由に使用や再配布が可能なデータを指す。

こうしたデータ公開が期待され、また積極的に行われているのは主に学術・科学分野や公共分野である。大学や研究機関の持つ科学的な資料や、政府や自治体などの公的機関の持つ公共的な情報や、事業などで調査・収集した統計データなどの公開が進められている。

行政などのデータ公開・提供はこれまでも白書やWebサイトなどの形で行われてきたが、これはもっぱら人間が閲覧するための文書として発行されたものであり、ソフトウェアで解析・加工するには人間の手で整形しなければならなかった。オープンデータではコンピュータ上での自動処理を前提としたデータ形式が求められ、XMLやCSVファイル、Excelファイル(XLSXファイル)などの形で提供される。

ある完結したひとまとまりのデータ集合を「データセット」と呼び、これを一つのファイルなどに(複雑・大規模な場合はいくつかに分割して)記録してWebサイトなどで公開する。複数のデータセットを公開する機関やサイトでは、どこにどんなデータセットがどのような形式で公開されているかをまとめた「データカタログ」が作成されることが多い。

2000年代後半頃から、米連邦政府の「Data.gov」や日本政府の「データカタログサイト」(DATA.GO.JP)など、政府機関が提供している様々なオープンデータをまとめたデータカタログや専用のWebサイトを公開する国が増えている。

全数調査 ⭐

統計的な調査を行う際に、対象となる母集団全体を調査対象とする方式。国勢調査のように、標本の抽出などを行わずに対象すべてを虱潰しに調べる調査。

高校「情報Ⅰ」単語帳 - データの収集・整理・分析

オープンデータ ⭐⭐⭐

全数調査 ⭐

標本調査 ⭐

標本の抽出法

正規化

リレーショナルデータベースの正規化

浮動小数点数の正規化

XML文書の正規化

量的データ ⭐⭐⭐

質的データ ⭐⭐⭐

構造化データ ⭐⭐

Webページの構造化データ

非構造化データ ⭐

異常値 ⭐

外れ値 ⭐⭐⭐

欠損値 ⭐⭐⭐

尺度 ⭐⭐

尺度水準 ⭐⭐

名義尺度

順序尺度

間隔尺度

比例尺度

比例尺度 ⭐⭐

順序尺度 ⭐⭐⭐

間隔尺度 ⭐⭐⭐

名義尺度 ⭐⭐⭐

テキスト形式 ⭐

バイナリ形式

キー・バリュー形式

インデックス ⭐

AND検索 ⭐

OR検索 ⭐

NOT検索 ⭐

検索エンジンのマイナス検索

CSV ⭐

仕様のばらつき

同じ用途の他形式

データサイエンス

データサイエンティスト ⭐

ビッグデータ ⭐⭐⭐

データマイニング ⭐

データクレンジング

代表値 ⭐

平均値 ⭐⭐

最頻値 ⭐

中央値 ⭐⭐

四分位数 ⭐

第1四分位数

第2四分位数

第3四分位数

正規分布 ⭐

分散 ⭐⭐⭐

統計学の分散

分散処理

標準偏差 ⭐⭐

偏差値

クロス集計 ⭐⭐

相関関係 ⭐⭐⭐

因果関係 ⭐

正の相関 ⭐

負の相関 ⭐

相関なし

相関係数 ⭐⭐

交絡因子

回帰分析 ⭐

回帰直線 ⭐

テキストマイニング ⭐⭐⭐

円グラフ ⭐

棒グラフ ⭐

折れ線グラフ ⭐

散布図 ⭐⭐⭐

箱ひげ図 ⭐⭐

ヒストグラム ⭐⭐⭐

度数分布表 ⭐⭐

表計算ソフト ⭐⭐

製品

行 ⭐

表や行列の行

列 ⭐