高校「情報Ⅰ」単語帳 - 日本文教「情報Ⅰ」 - データの収集・整理・分析
オープンデータ ⭐⭐⭐
誰でも自由に入手や使用、加工、再配布などができるよう広く一般に公開されているデータ。特に、ソフトウェアなどによる自動処理に適した一定のデータ形式に整理・整形された機械可読(マシンリーダブル)なもの。
データの中には著作権などによって保護されていたり、所有者によって入手や利用に制限が課せられ、手続きや対価が必要なものが多くある。オープンデータはこのような制約から解放され、営利・非営利を問わず誰でも自由に使用や再配布が可能なデータを指す。
こうしたデータ公開が期待され、また積極的に行われているのは主に学術・科学分野や公共分野である。大学や研究機関の持つ科学的な資料や、政府や自治体などの公的機関の持つ公共的な情報や、事業などで調査・収集した統計データなどの公開が進められている。
行政などのデータ公開・提供はこれまでも白書やWebサイトなどの形で行われてきたが、これはもっぱら人間が閲覧するための文書として発行されたものであり、ソフトウェアで解析・加工するには人間の手で整形しなければならなかった。オープンデータではコンピュータ上での自動処理を前提としたデータ形式が求められ、XMLやCSVファイル、Excelファイル(XLSXファイル)などの形で提供される。
ある完結したひとまとまりのデータ集合を「データセット」と呼び、これを一つのファイルなどに(複雑・大規模な場合はいくつかに分割して)記録してWebサイトなどで公開する。複数のデータセットを公開する機関やサイトでは、どこにどんなデータセットがどのような形式で公開されているかをまとめた「データカタログ」が作成されることが多い。
2000年代後半頃から、米連邦政府の「Data.gov」や日本政府の「データカタログサイト」(DATA.GO.JP)など、政府機関が提供している様々なオープンデータをまとめたデータカタログや専用のWebサイトを公開する国が増えている。
全数調査 【悉皆調査】 ⭐
統計的な調査を行う際に、対象となる母集団全体を調査対象とする方式。国勢調査のように、標本の抽出などを行わずに対象すべてを虱潰しに調べる調査。
調査の対象となる母集団に含まれるすべての要素を一つ一つ調べる調査方式をこのように呼ぶ。一方、母集団の中から一定の基準や方法で少数の標本(サンプル)を抽出して調査する方式を「標本調査」という。
全数調査はすべての対象についてのデータを揃えることができるため、抽出調査で生じる標準誤差などの不確かさに影響されない。対象の総数が少ない場合は容易に実施できるが、日本人全体など母集団が巨大な場合には大きなコストや長い期間を要したり、そもそも不可能なこともある。
社会調査の多くは標本調査だが、国が5年ごとに実施する、国内の全居住者を対象とした「国勢調査」や、国内の全法人を対象に行われ企業の国勢調査とも言われる「経済センサス」は全数調査として行われている。これらは統計としての意義と共に他の標本調査の基礎となるデータを提供する意義がある。
標本調査 ⭐
統計的な調査を行う際に、対象となる母集団から一定の基準や方法で少数の標本(サンプル)を抽出し、これを対象に調査を実施する方式。社会調査や品質検査などで広く用いられる。
ある母集団に含まれるすべての要素を調査することを「全数調査」(悉皆調査)というが、社会調査の場合は膨大なコストや時間が必要になったり、母集団全体にアクセスすることがそもそも不可能であったりする。商品の品質検査などでは破壊的な検査を全数に行うことはできないという問題もある。
そこで、母集団から一定の方法で要素を抽出して調査を行う標本調査が広く行われている。抽出した要素を「標本」(sample)という。標本に対する調査結果から統計的な推計を行い、母集団全体の状態を推定する。標本による推計値と母集団の本当の値(真の値)とのズレ(乖離)を「標本誤差」という。標本数などから精度の予測は可能だが誤差をゼロにすることはできない。
標本の抽出法
抽出した標本の属性に偏りがあると母集団の状態を正しく推定できないため、なるべく母集団全体を代表する標本の組み合わせを選択する必要がある。適切な抽出方法は母集団の特性により様々で、抽出の枠組みと要素の選出方法を組み合わせて抽出方法を決定する。
抽出の枠組みは母集団を複数の枠に分割してそれぞれの枠から抽出することを指す。特に枠を設けず全体を対象とする「単純抽出」、重なりのない複数のカテゴリーに分けてそれぞれから選出する「層化抽出」(層別抽出)、ある属性が共通している(クラスターを形成している)がそれ以外の属性がバラけている集団から抽出する「集落抽出」(クラスターサンプリング)などがある。
枠(あるいは全体)からの要素の選出方法としては、くじ引きのようにランダムに選ぶ「無作為抽出」、「登録番号の末尾が00で終わる」といったようにある属性の値を規則的に選んでいく「系統抽出」などがある。大規模な調査では、抽出した要素の集合から再び抽出を行う「多段階抽出」(多くの場合は2段階抽出)が行われることもある。
正規化 【ノーマライズ】
データなどをある基準や形式に適合するように、一定の手順や規則に従って変形・変換すること。様々な分野で用いられる概念であり、それぞれ目的や方法などが大きく異なる。
リレーショナルデータベースの正規化
リレーショナルデータベース(RDBMS)では、データの保守性向上や処理の高速化を図るため、データベース内で同じ情報が複数の箇所に重複して記録されず、個々のテーブルは主キーから直接連想されるデータのみで構成されるよう設計するのが理想とされている。
この基準に基づいてデータ構造を再編する作業や操作のことをデータベースの正規化と呼び、正規化の度合いによって第1正規化から第5正規化、およびボイスコッド正規化などの種類に分類されている。
浮動小数点数の正規化
浮動小数点数を符号部、仮数部、指数部に分けてビット列で表す場合、同じ数を同じ符号化方式で表す場合でも仮数と指数の取り方によって複数の表現が可能となるが、標準となる形式を定めてこれに合わせて表現することを正規化という。
IEEE 754などの標準規格では有効数字の桁数が最大限に確保される表現に正規化するよう定められている。具体的には仮数部のビット列の左端の値が0以外になるように仮数を決め、それに合わせて指数が算出される。
XML文書の正規化
XML文書はテキスト形式を採用しているため、ホワイトスペースの扱いや要素の出現順序などに非常に寛容である。しかし、ソフトウェアにXML文書のデータを渡す場合や、データが改竄されていないことを証明するための署名などを行う場合には、XML文書を一定のルールに従って整形しなおす必要がある。
XMLの正規化は「Canonicalized XML」規格に定められたカノニカライズ(canonicalize)と、「XML Normalization」規格に定められたXML文書のノーマライズ(normalize)、XML規格本体に定められた属性値のノーマライズ(Attribute-Value Normalization)の3種類がある。
カノニカライズは論理的に同等の文書がバイナリデータのレベルで完全に一致するように整形する手順を定めており、XML文書が改竄されていないことを証明するための電子署名を有効に機能させるために必要となる。
XML文書のノーマライズは、ソフトウェアが文書の解釈や変換などを行いやすいように表記法を統一する処理を指す。XMLは名前空間を使用する場合などに意味的に同じ内容を複数の表記で書くことができるが、XML Normalization規格ではこれを一定の基準に基づいて統一された表記にすることを求めている。
属性値のノーマライズは、人間の入力の都合や見やすさなどのために様々な表記が混在する属性値を一定の基準で変換し、ソフトウェアが表記の揺れに影響されないようにする処理である。文字参照表現を参照先の文字自体で置き換えたり、改行文字やタブ文字を空白文字(16進数で20)に置き換えたり、連続する複数の空白を一文字に短縮するといった変換が行われる。
量的データ 【量的変数】 ⭐⭐⭐
調査や観測などで得られたデータのうち、物事の量的な側面を表す数値データのこと。長さ、重さ、人数、金額など大小や高低の程度を反映したデータである。
数で表され、数の大きさが量の多寡や性質の強さ、度合いを反映しているようなデータをこのように呼ぶ。物事の質的な側面を表す「質的データ」(質的変数)と対比される。
量的データを測る尺度のうち、数の間隔に意味があるものを「間隔尺度」という。数の間隔が量の大きさを反映している尺度で、温度の摂氏(℃)や年号などが当てはまる。原点が量的な「0」を表さないため値同士の比率には意味がない。
一方、間隔だけでなく値そのものの比に意味があるような尺度を「比例尺度」という。数がそのまま量の大きさを反映しているような尺度で、長さ、面積、体積、重さ、時間、速度、絶対温度、人数、金額など多くの量的データは比例尺度で表される。数で表されていても、数が順序や順位しか表さない、ランキングや段階評価、段位のような「順序尺度」のデータは含まない。
構造化データ ⭐⭐
項目の形式や順序など、明確に定義された構造に従って記述、配置されたデータ集合のこと。プログラムによって自動処理するために用いられることが多い。
リレーショナルデータベースのテーブルやCSVファイルのように、一件のレコードの構成、各項目のデータ型や形式、項目の並び順、項目やレコードの区切り文字などが事前に決まっており、同じ構成のレコードの繰り返しとしてデータを列挙したものを指すことが多い。
ソフトウェアによって容易に読み込んで内容を認識させることができ、大量のデータを集計したり分析するのに適している。人間がそのまま眺めて読みやすい形式とは限らず、ソフトウェアによって抽出や集計を行ったり、見やすいよう整形したり、レポートなど別の形式へ変換してから人間に供されることが多い。
一方、Webページや電子メール等のメッセージ、ワープロソフトやプレゼンテーションソフトなどで作成した(見栄え重視の)文書ファイル、画像や音声、動画などのメディアデータといった、決まった形式や配置に従ってデータが並んでいるわけではない不定形なデータ群のことを「非構造化データ」(unstructured data)という。
Webページの構造化データ
WebページのHTMLコードは、Webブラウザにその文書の構造やレイアウトを伝達するという意味では構造化されているが、書かれている情報をサイト横断的に同じ形式に従って自動収集・処理できるような構造にはなっていない。
そこで、ソフトウェアが自動処理しやすいようページ内に書かれている内容を特定の規約に則って構造化データとして記述する手法が提唱されている。同じ情報を人間向けと機械向けに同じページに埋め込んでおき、ブラウザは人間向けのデータを表示し、Webロボットなどの自動処理プログラムは機械向けのデータを収集する。
様々な手法が提唱されているが、現在有力な方式はHTMLのヘッダ領域などにJSON-LD形式でスクリプトの形で情報を埋め込む手法で、Schema.orgという業界団体が情報の種類ごとにデータの記述形式(スキーマ)の標準を提案している。
例えば、ある行事の開催案内のWebページに、Schema.orgの定義する「Event」(行事)のスキーマで構造化データを埋め込むことで、巡回してきたロボットに行事名や主催、出演者、開催日時などを伝達することができる。
非構造化データ ⭐
項目の形式や順序などについて明確に定義された構造を持たない不定形なデータ集合のこと。主に人間が情報を把握するために作成されるデータ群で、コンピュータによる内容の自動処理には適さない。
コンピュータが扱うデータの多くは何らかの形式や構造に従って記録されているものが大半だが、非構造化データといった場合はリレーショナルデータベース(RDB)の表(テーブル)のように構成要素を分割、配列した構造を持たず、コンピュータプログラムによって要素を個別に把握して処理するような利用方法が難しいようなものを指す。
よく挙げられる例として、(人間が閲覧するための)Webページ、電子メールやメッセンジャーなどのメッセージ、ワープロソフトやプレゼンテーションソフトなどで作成した(見栄え重視の)文書ファイル、画像や音声、動画などのメディアデータなどがある。
これらのデータはそれぞれ特定のデータ形式で記録されてはいるものの、主に人間が見聞きするために視聴覚的な構成を整えることを主眼に作成・編集されており、内部の構成要素をプログラムが自動認識できるような形になっていない。データベースのような検索性や再利用性は乏しく、情報として後から活用することが難しい。
一方、データベースのテーブルやCSVファイルのように、一件のレコードの構成、各項目のデータ型や形式、項目の並び順、項目やレコードの区切り文字などが事前に決まっており、同じ構成のレコードの繰り返しとしてデータを列挙したものを「構造化データ」(structured data)という。
外れ値 ⭐⭐⭐
調査や測定、観測などで同種のデータをいくつも取得したとき、全体のデータの傾向から大きく外れた値のこと。統計処理などの際に一定の基準を設けて除外することがある。
収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを外れ値という。このうち、測定機器の不具合や記入ミスなど、何らかの誤りによっておかしな値になってしまったものは「異常値」という。対象や方法によって、異常値と異常値以外の外れ値を区別できる場合とできない場合がある。
外れ値を含んだデータをそのまま分析すると、平均値や相関係数などの統計量に大きな影響を与え、歪んだ結果が導き出されることがある。このため、一定の基準を設けて外れ値を取り除く操作を行うことがある。
よく用いられる手法として、箱ひげ図を描いて「第1四分位数-箱の幅×1.5以下」「第3四分位数+箱の幅×1.5以上」のデータを外れ値と判定する方法がある。また、平均値や標準偏差などから特定の統計量を算出し、基準値を設けて判定する方法もある。こうした検定にはスミルノフ・グラブス検定やトンプソン検定などが知られている。
なお、用意した結論に都合のよいデータのみを残してそれ以外を外れ値として排除することはデータの改竄とみなされる可能性があるため値の削除は慎重に行う必要がある。どんな調査や観測でも、現実の対象を調べれば全体の傾向から外れたサンプルが存在するのは普通のことであるため、異常値として理由が説明できる値以外は恣意的に取り除くべきではないとする考え方もある。
欠損値 【欠測値】 ⭐⭐⭐
調査や測定、観測などでデータを収集した際、あるデータの記録場所を参照してもデータが記録されておらずに欠けていること。一定周期で観測値を記録するシステムでデータが欠けた時刻がある場合などが該当する。
観測において、装置の不具合や操作ミスなどで測定値が得られなかった状態や、調査において特定の記入項目が空欄で記載されていない状態などを指す。値は存在するが傾向から大きく外れている「外れ値」や、装置故障やミスなどでおかしな値になってしまった「異常値」とは異なる。
観測における欠測などは機械的に取り除いて分析することが多いが、調査では記入が任意の項目が複数ある場合などに完全にデータが揃っているサンプルが十分な数揃わないこともある。そのような場合には欠損の多い項目を解析から外したり、平均値などの代表値で穴埋めしたり、他の項目の値が似ているサンプルのデータで補完するといった操作を行うことがある。
尺度 ⭐⭐
対象の測定や計量、評価などを行うときの基準。特に、結果を数字に対応付けるための規則を指すことが多い。定規やメジャーなど長さを測る道具を尺度と呼ぶこともある。
尺度水準 (level of measurement)
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
「名義尺度」(類別尺度)は対象や状態を区別するためだけに(便宜上の)数字を割り当てたもので、値が同じか異なるかしか評価することができない。順序や大きさ、比率などに意味はなく、計算を行うこともできない。例えば、電話番号の国番号は米国が1、日本が81だが、日本が何かの大きさで81位であるとか、何かが米国の81倍であるというわけではない。
「順序尺度」は数字の大小が順序を表すような尺度である。大きさを比較したり順位を付けることができるが、他の値との差や比率には意味がなく、計算を行うことはできない。競技の順位、成績やアンケートなどの5段階評価、検定制度の段位や級などが該当する。「将棋8段は4段より強い」とは言えるが、「2倍強い」といった比較はできない。
「間隔尺度」は数字が順序を表すとともに間隔に意味があるような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、「0」で表される点は便宜上置いたもので、値の比には意味がない。例えば、摂氏5度が15度になるのと15度が25度になるのは同じ幅だけ温度が上昇したと言えるが、摂氏15度は5度の3倍の温度やエネルギーであるとは言えない。
「比例尺度」(比率尺度)は数字が順序や間隔を表すともに、「0」に原点としての意味があり、値の比や割合も議論することができる尺度である。長さ、重さ、時間、速度、絶対温度などの物理量、金額などが該当する。これらの尺度水準には上下関係があり、名義、順序、間隔、比例の順に水準が高くなる。高い水準の尺度は自身より低い水準の尺度を兼ねている。
比例尺度 【比率尺度】 ⭐⭐
統計などで用いられる数値データの尺度のうち、数字が順序や間隔を表すともに、値の比や割合も議論することができるもの。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
比例尺度は最も高い水準の尺度で、数字がそのまま何らかの量の大きさを表している。値の「0」は「存在しない」ことを表す原点であり、値の間隔や比には意味がある。加減乗除などの計算も行うことができ、すべての統計量を使うことができる。
例としては、長さや面積、体積、重さ、時間、速度、絶対温度などの物理量、金額、個数などが該当する。一段階低い水準の間隔尺度である摂氏では27℃が54℃になったからといって温度が2倍になったとは言えないが、絶対温度600K(約327℃)は300K(約27℃)の2倍の温度と言うことができる。
順序尺度 ⭐⭐⭐
統計などで用いられる数値データの尺度のうち、数字の大小が順番や順位を表すようなもの。大小や高低、前後の比較はできるが、値の差や比には意味がない。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
順序尺度は名義尺度に次いで2番目に低い水準の尺度で、数字の大小で順序を表すことができる。大きさを比較したり順位を付けることができるが、値同士の差や他の値との比、割合などには意味がなく、値の計算を行うこともできない。統計量としては度数や最頻値に加え、中央値や四分位数、パーセンタイルなどが使用できる。
例としては、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級、自動車保険の等級、がんのステージ、国際原子力事象評価尺度などが該当する。「将棋8段は4段より強い」とは言えるが、「2倍強い」といった比較はできない。
間隔尺度 ⭐⭐⭐
統計などで用いられる数値データの尺度のうち、数字の大小が順序を表すと共に、2つの値の差の大きさに意味があるもの。値の比には意味がない。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
間隔尺度は比例尺度についで2番目に高い水準の尺度で、数字の間隔が量の大きさを表すような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、「0」で表される点は量が0になる原点ではなく便宜上置いたものである。値自体の比には意味がないが、値の差同士の比には意味がある。統計量としては最頻値や中央値、パーセンタイルなどに加え、平均値(相加平均)や標準偏差、相関係数なども使うことができる。
例としては、温度の摂氏(℃)や華氏、西暦や元号で表した年、日付などがある。15℃が20℃になるのと20℃が30℃になるのでは2倍の温度上昇が生じたと言うことができるが、15℃が30℃になったのを温度が2倍に上昇したと言うことはできない。
名義尺度 【類別尺度】 ⭐⭐⭐
統計などで用いられる数値データの尺度のうち、対象や状態を区別するためだけに(便宜上の)数字を割り当てたもの。値は順番や順位を意味せず、値の差や比にも意味はない。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
名義尺度は最も低い水準の尺度で、数字は対象や状態を識別する名前の役割しか果たさず、量的な意味合いを一切もたない。値が同じか異なるかを見分けるためだけに使用することができ、順序、間隔、大きさ、比率などを表すことはできず、値の計算にも意味がない。統計量としては各値の度数や出現頻度、最頻値などを求めることはできる。
例としては、電話番号や郵便番号、学籍番号、背番号、国際電話の国番号、総務省の都道府県コードなどがある。例えば、都道府県コードで「10」が群馬県、「20」が長野県だが、群馬県が何かで10位であるとか、長野県の何かが群馬県の2倍であるといった意味はない。
データサイエンス
統計解析や数理解析、コンピュータによる処理などを駆使して大量のデータを解析・分析し、有用な知見を導く手法を研究する学問領域。
現代ではコンピュータや通信技術の発達で大量のデータの記録や蓄積、伝送が可能となった。これを様々な手法を駆使して処理、解析し、学術研究やビジネスなど人間の社会的な活動にとって有用な知見を導き出す方法論を研究するのがデータサイエンスである。
人間の知的活動と機械によるデータ処理を橋渡しするという性質上、様々な既存の学問や技術を横断的に活用する学際的な側面を持っている。統計や数理解析、線形代数、機械学習、データモデリングなどの数理科学やコンピュータ科学の知見、データベース操作やデータ形式の理解、プログラミング、データ加工・変換・処理といったエンジニアリング領域の技法が総合的に求められる。
データサイエンスを修め、あるいは研究する人材を「データサイエンティスト」(data scientist)という。日本では2011年頃からビッグデータ活用の重要性が叫ばれるようになるなか、データ活用を推進する具体的な人材像として2013年頃からデータサイエンティストという職種が認識され始めた。十分な技能を持ったデータサイエンティストは常に人材不足であるとされ、今後もそのニーズは高まっていくと予想されている。
平均値 【平均】 ⭐⭐
値の集団があるとき、全体の量は変えずにすべての値が同じだったらいくつになるかを求めたもの。集団全体の性質を表す代表値として最もよく用いられる。
単に平均値という場合はすべての値を足して個数で割った「算術平均」(相加平均、単純平均)を指す。全体の総和は変わらずすべての値が同じだったらいくつになるかを求めたもので、全体の値の水準を表している。
平均値の算出法として、すべての値(n個)を掛け合わせてn乗根を求めることもある。全体の積が同じですべての値が同じだったらいくつになるかを求めたもので、「幾何平均」(相乗平均)と呼ばれる。他にも調和平均、対数平均、加重平均など様々な算出法がある。
平均値は代表値として最もよく用いられるが、値の分布によっては必ずしも全体の性質を表すのに適さない場合がある。例えば、少数の値が極端に大きい(あるいは小さい)と、その値に引きずられてほとんどの値よりずっと大きい(あるいは小さい)値が平均値となることがある。
他によく用いられる代表値として、大きい順に並べ替えたときに順位がちょうど真ん中の値を求める「中央値」(median:メディアン/メジアン)、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)がある。
分散 ⭐⭐⭐
分かれて散らばること。確率・統計の分野では、データの散らばり具合を分散という。IT分野では処理やデータを複数の機器などで分担することを分散処理、分散システムなどという。
統計学の分散
統計学では、あるデータ群のそれぞれの値について平均値との差を取って二乗し、その合計をデータの数で割って平均した値(二乗平均)を分散(variance)という。データ群が平均に対してどのくらい散らばっているかを表す指標として用いられる。
例えば、{10,20,30} という3つの標本の分散は平均値の20を用いて {(10-20)2+(20-20)2+(30-20)2}/3 と表すことができ、約66.7となる。{0,20,40} であれば約266.7となり、すべて平均に等しい {20,20,20} ならば分散は0となる。
分散は算出過程で値を二乗しており元の値とは次元が異なるが、分散の正の二乗根を取って次元を揃えた値を散らばりの指標として用いることがある。これを「標準偏差」(SD:Standard Deviation)と呼び、元の値と同じ尺度で散らばり具合を評価することができる。
分散処理
IT分野では、一つの処理やデータ群に対して複数の機器を動員し、分担して処理する方式を「分散処理」(distributed processing)、「分散システム」(distributed system)、「分散コンピューティング」(distributed computing)などという。
このうち、処理の前後関係に従って異なる機能の機器を連結し、それぞれが特定の工程に専念する方式を「垂直分散システム」、同じ機能の機器を並べて処理を振り分け、並行に処理する方式を「水平分散システム」という。一般には後者を指して単に分散システムと呼ぶことが多い。
標準偏差 【SD】 ⭐⭐
統計における指標の一つで、データ群のばらつき具合を表す値。この値が小さいほど平均付近にデータが集まっていることを表し、大きければ平均から外れたデータがたくさんあることを表している。
標準偏差は分散の正の平方根で、データが平均値から平均でどのくらい離れているかを表している。算出方法は、各値と平均値の差を二乗した値の和を求め、これをデータの数で割った平均のルートを取る(二乗平均平方根)。
例えば、{10,20,30} という3つの標本の標準偏差は、平均値20を用いて √[{(10-20)2+(20-20)2+(30-20)2}/3] と表され、約8.16となる。{0,20,40} ならば約16.33となり、すべて平均値に等しい {20,20,20} ならば標準偏差は0となる。
分散も散らばり具合を表しているが、元の値と平均の差の二乗の平均であるため、元の値とは次元が異なる。標準偏差はその平方根を取っているため、元の値と同じ次元となり、値自体の大きさと散らばり具合の大きさを同じ尺度で比較することができる。日本では学力試験のいわゆる偏差値を算出するのに用いられている。
クロス集計 ⭐⭐
複数の項目からなるデータの集合があるときに、そのうちの2つ(ないし3つ)の項目を組み合わせて2次元の表の形で集計すること。項目間の関係や相関、傾向などを見やすくまとめることができる。
2つの項目でクロス集計する場合、一方の項目を縦軸、もう一方を横軸として、それぞれについて選択肢を並べる。各マス目には、縦軸と横軸の選択肢を同時に満たすデータを数えて集計値として書き入れていく。
例えば、「性別」「喫煙」の2項目のアンケートがあるとき、単純集計では「喫煙○」と「喫煙×」の数を集計するが、クロス集計表では縦軸を「男性」「女性」、横軸を「喫煙○」「喫煙×」として4つの値を集計する。
さらに、飲酒についても同時に尋ね、縦軸を「男性・飲酒○」「男性・飲酒×」「女性・飲酒○」「女性・飲酒×」の4つに分解し、3項目について同時に集計することを「多重クロス集計」という。
代表的な表計算ソフトのMicrosoft Excel(マイクロソフト・エクセル)では、ロス集計機能のことを「ピボットテーブル」(pivot table)、これをグラフ化する機能を「ピボットグラフ」(pivot chart)という。
相関関係 【相関】 ⭐⭐⭐
2つの事象に関わりがあり、一方が変化するともう一方も変化するような関係のこと。特に、何らかの規則性に基づいて双方の変化が連動しているような関係を指す。
「冬の気温と桜の開花日」や「親の身長と子の身長」のように、傾向として片方が増えるともう片方も増える、あるいは逆に片方が増えるともう片方は減るといった関係性が見られるとき、両者の間に「相関がある」あるいは、両者は「相関関係にある」という。
一方、片方が原因となってもう一方の変化が引き起こされる関係性を「因果関係」という。相関関係は因果関係を含む概念で、因果があれば必ず相関もあるが、相関があるからといって必ずしも因果もあるとは限らない。
統計学では2つのデータ系列の分布について、一方の値が高ければ高いほどもう一方の値も高くなる(同じ方向に連動する)関係を「正の相関」、一方の値が高ければ高いほどもう一方の値は低くなる(逆方向に連動する)という関係を「負の相関」という。
2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば完全な正の相関、「0」ならば相関なし、「-1」ならば完全な負の相関があることを表す。
正の相関 【順相関】 ⭐
相関関係の一種で、2つのデータ系列の間に、片方が増えるともう片方も増えるという関係があること。
2つの事象に関わりがあり、片方が変化するともう片方も変化する関係を「相関」という。正の相関は片方が増えるともう片方も増える、片方が減るともう片方も減るという同じ方向に変化する関係を指す。2つの系列を散布図で表すと右肩上がりの分布になる。
一方、片方が増えるともう片方は減るといったように、互いに逆方向へ変化する関係を「負の相関」という。散布図では右肩下がりの分布が現れる。正の相関も負の相関も見られず、変化の傾向になんの類似性も無い場合は「相関なし」となる。
2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば「完全な正の相関」、「0」ならば相関なし、「-1」ならば「完全な負の相関」があることを示す。相関係数が0.2~0.4程度の関係を「弱い正の相関」、0.7~0.9程度の関係を「強い正の相関」と呼ぶことがある。
負の相関 【逆相関】 ⭐
相関関係の一種で、2つのデータ系列の間に、片方が増えるともう片方は減るという関係があること。
2つの事象に関わりがあり、片方が変化するともう片方も変化する関係を「相関」という。負の相関は相関のうち、片方が増えるともう片方は減るといったように、双方が互いに逆の方向に変化するような関係を指す。2つの系列を散布図で表すと右肩下がりの分布になる。
一方、片方が増えるともう片方も増えるといったように、互いに同じ方向へ変化する関係を「正の相関」という。散布図では右肩上がりの分布が現れる。負の相関も正の相関も見られず、変化の傾向になんの類似性も無い場合は「相関なし」となる。
2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば「完全な正の相関」、「0」ならば相関なし、「-1」ならば「完全な負の相関」があることを示す。相関係数が-0.2~-0.4程度の関係を「弱い負の相関」、-0.7~-0.9程度の関係を「強い負の相関」と呼ぶことがある。
回帰分析 ⭐
何かの結果を表す数値があるとき、原因と考えられる数値がどのような形で影響を与えているのか規則性を明らかにすること。因果関係の推定や事象の予測、シミュレーションなどのためによく行われる。
調査などで得られた様々な数値の組み合わせのうち、着目している数値(従属変数)が、他の数値(説明変数)からどのように影響を受けているかを関数の形で明らかにする。説明変数が一つの場合を「単回帰分析」、複数の場合を「重回帰分析」という。
例えば、ある飲食店のビールの売上(y)とその日の最高気温(x)についての記録を単回帰分析したところ、y=ax+c という1次関数の形で表されたとする。この関係が分かれば、天気予報を元に仕入れ量を調整することができる。降水量(z)との関係も合わせて重回帰分析することで、y=ax+bz+c という関係が明らかになれば、より精度の高い予測が可能となる。
この例では説明変数と従属変数が直線的な比例関係で表されることを仮定しており、これを「線形回帰」あるいは「直線回帰」という。物事の関係性は単純な比例関係で表されるとは限らず、x2 のような高次の項を含む多項式、指数関数、対数関数、三角関数などが含まれる場合がある。これを「非線形回帰」という。
統計値などから回帰分析を行う場合、各標本は誤差を含んで一定の範囲にばらついているため、数値計算を繰り返して関数のパラメータ(係数)を推定する。代表的な手法として「最小二乗法」がよく知られ、回帰式から得られる値と各標本の実際の値の誤差を二乗して足し合わせた値が最小になるよう係数を決定する。
回帰直線 ⭐
2つのデータ系列を描画した散布図で、分布の傾向に最もよく当てはまるように引いた直線のこと。両者の関係を一次関数として近似している。
測定値などの分布に基づいて、2つの変数の関係を という一次関数で近似することを単回帰分析という。 を説明変数、 を目的変数と呼び、 の値から未知の を予測・推測できるようになる。
2つの変数の関係について、横軸を説明変数、縦軸を目的変数とする散布図で表したときに、分布の様子を直線で近似したものを回帰直線という。回帰分析で求めた一次関数(回帰式)をグラフ上に描画したものである。先の方程式の は直線の傾きを、 はy切片を表している。
回帰直線は実際のデータを表す各点との距離がなるべく小さくなることが望ましい。この条件を満たすため、一般的には「最小二乗法」という計算法で係数 と の値を決定する。説明変数 において、実測された目的変数は 、回帰式から求めた予測値は となる。
両者の差である を2乗し、各点について合計したものを残差平方和という。これが最小になるときの および を算出すると、 と の平均 と 、標準偏差 と 、相関係数 を用いて、 、 として表すことができる。
テキストマイニング ⭐⭐⭐
定型化されていない文字情報(テキストデータ)の集まりを自然言語解析などの手法を用いて解析し、何らかの未知の有用な知見を見つけ出すこと。
「データマイニング」(data mining)の手法を非定型のテキストデータに応用したもので、自然言語の文の蓄積として集められたデータを分析し、鉱山から鉱石などを掘り出す(mining)ように、業務や製品に役立つ情報を探し出す。
目的や具体的な技術は様々だが、多くの場合、文章に形態素解析を行ってテキストを単語やフレーズに分解し、特定の表現の出現頻度やその増減、複数の表現の関連性や時系列の変化などを調べる。
これにより、知られていなかった問題点を見出したり、様々な要素や要因の間の結びつきを可視化したり(共起ネットワーク分析)、顧客や消費者の評判(肯定的か否定的か)や時系列の推移を把握したりする(センチメント分析)ことができる。
対象となるデータの例として、アンケートや報告書などに含まれる自由記述の文章、電子掲示板(BBS)やSNSの書き込み、ニュース記事、OCRでスキャンしてテキストデータ化した過去の書籍、雑誌、新聞の記事などが挙げられる。
円グラフ 【パイチャート】 ⭐
数値データを図示するグラフの一つで、円の中を大小の扇形に区切って各項目に対応付け、扇の面積によって各項目の大きさを表すもの。各項目の全体に占める割合を一目で比較できる。
円全体が全項目の値の和(100%)に相当し、各項目を全体に占める割合に従って扇形で示す。時計でいう0時方向から時計回りに配置するのが一般的である。あまりに構成比の小さな項目は細すぎて見にくいため、最下位の位置に「その他」としてまとめる。
各項目が独立している場合は大きい順に並べるのが原則だが、項目間にグループ関係や何らかの順序性がある場合にはそちらに従って配置することがある。例えば、アンケートの回答が「とてもそう思う」「そう思う」「どちらとも言えない」「そう思わない」「まったくそう思わない」であれば、構成比に関わらずこの順に並べる。議会の勢力図であれば、右側に与党系、左側に野党系、中央に独立系とすると分かりやすい。
英語では切り分けたパイになぞらえて “pie chart” (パイチャート)と呼ぶことが多い。バリエーションとして、中心を空けて表題などを書き入れた「ドーナツグラフ」、複数の系列や各項目の内訳などを同心円状に重ねる「二重円グラフ」などがある。ソフトウェアによっては厚みのある円盤状の「3D円グラフ」を描画する機能もあるが、3D化すると扇の面積比が歪むため好ましくないとする考え方もある。
棒グラフ 【バーチャート】 ⭐
数値データを図示するグラフの一つで、各項目の大きさに対応する長さの棒を縦または横に並べたもの。片方の端の位置が揃っており、棒の長さで各項目の大きさを一目で比較できる。
同じ幅の細長い棒(長方形)を並べた図で、棒の長さが各項目の大きさを表している。垂直に伸びる棒を横に並べた「縦棒グラフ」と、水平に伸びる棒を縦に並べた「横棒グラフ」がある。縦棒の場合は下端を、横棒の場合は左端を揃えて並べる。
項目の並び順は図で示したい内容に応じて決められるが、左端や上端から値の大きい順に並べる場合や、年齢のように項目の順序や大きさに従って並べる場合がある。項目が時系列の場合は過去から順に並べることが多い。
バリエーションとして、棒を区切って内訳を示す「積み上げ棒グラフ」、棒の長さを揃えて内訳の比率の比較や変化を示す「100%積み上げ棒グラフ」、一つの項目に複数の細い棒を並べて時系列の変化などを表す「集合棒グラフ」などがある。折れ線グラフなどと組み合わせて複合グラフとする場合もある。ソフトウェアによっては棒の並びを3次元的に描画する「3D棒グラフ」の機能が利用できる場合もあるが、3D化すると棒の長さの比が歪むため好ましくないとする考え方もある。
折れ線グラフ ⭐
数値データを図示するグラフの一つで、各項目を点で表し、隣接する項目同士を線分で結んで推移を折れ線で表したもの。時系列の変化などを表すのに適している。
縦軸に量、横軸に時間を取り、各時点における量の大きさを点で示す。隣接する点同士を端から順に線分で繋いでいくことで、すべての点を一つの折れ線で結びつける。線分が右上がりの箇所は増加、右下がりの箇所は減少を表し、折れ線の上下で量の時系列の変化を視覚的に把握することができる。
同じグラフに複数の異なる系列を表す折れ線を重ねて描画したり、折れ線グラフと棒グラフを重ねて描画することもあり、複数の項目の変化を直感的に把握することができる。複数の系列を重ねる場合は実線と折れ線、破線を使い分けたり、線を色分けしたり、点を表す図形(●▲■など)を変えるなどして見分けやすいようにする。
散布図 【分布図】 ⭐⭐⭐
一つのデータが複数の量や特性の組として表される場合に、二つの値の間の関係を明らかにするために作成される図。縦軸と横軸にそれぞれ別の特性を割り当て、各データについて対応する位置に点を打って作図する。
点の分布する様子を見て、データを構成する二つの量の間に関連があるか、どのような関連があるかを知ることができる。例えば、点が右上がりの帯状に分布していれば正の相関があると分かり、(左上から)右下がりなら負の相関があると分かる。まんべんなく散らばっていれば相関が薄いか無さそうであると考えられる。
全体の傾向から大きく外れた特異点(外れ値)がどこにあるかも容易に知ることができ、これを除外して計算を行ったり、外れた理由を詳しく調べたりすることもある。また、全体に当てはまる傾向を調べるだけでなく、点の集まり具合から二つの量の関係が同じ傾向を示している項目群をグループ分け(グルーピング)するといった使い方をする場合もある。
箱ひげ図 【箱髭図】 ⭐⭐
数値データを図示するグラフの一つで、長方形の上下に線分を付け加えた図形で一つのデータ系列の分布を要約するもの。箱の上下の線分を「ひげ」になぞらえた名称である。
縦軸に量を取り、横軸方向に系列を箱ひげとして並べていく。各箱ひげは、上のひげの上端が分布の最大値、箱の上端が第3四分位数、箱の中に引かれた仕切り線が第2四分位数(中央値)、箱の下端が第1四分位数、下のひげの下端が最小値となっている。最大値や最小値は外れ値の場合もあるため、ひげの端は最大・最小から1~10%程度の値を用いる場合もある。
一つの箱ひげで一つのデータ系列の分布を直感的に把握することができる。これを系列の数だけ横に並べていくことで、系列間の分布の違いを視覚的に比較することができる。複数の異なる対象の分布を比べるために作成する場合もあれば、同じ対象の時系列の分布の変化を知るために作成することもある。
ヒストグラム 【度数分布図】 ⭐⭐⭐
データの分布を表す統計図の一つで、縦軸に値の数(度数)、横軸に値の範囲(階級)を取り、各階級に含まれる度数を棒グラフにして並べたもの。どの範囲の値が多く、どの範囲が少ないかを視覚的に表現できる。
値の出現頻度の高い階級は高い棒で、低い階級は低い棒で図示されるため、出現頻度の高低やバラつき具合を視覚的に容易に把握できる。各階級の度数を示す棒のことを「ビン」(bin)と呼ぶことがある。
すべてのビンの面積の総和が全体の度数を表しており、各ビンの面積は全体に占めるその階級の度数の割合を視覚的に表現したものとなっている。同じデータ群でも階級の幅の取り方次第でビンの形状や分布は異なるが、どのような基準で区分すべきかについて様々な方法論が提唱されている。
また、手前のすべての区間の度数を足し合わせた累計値をその区間の度数とし、これを右肩上がりの棒グラフの列で示したものを「累積ヒストグラム」(cumulative histogram/累積度数図)という。端からどの区間までが重要かを見極める場合などに利用される。
度数分布表 ⭐⭐
多数のデータを整理する手法の一つで、値を一定の幅ごとに区切った範囲に属するデータの数を数え、表の形にまとめたもの。どの範囲の値が多く、どの範囲が少ないかを一目で確認できる。
数値データの分布を調べるのに用いられるシンプルな表で、データが取りうる値を均等な幅の区間(これを階級という)に分割し、各階級に属するデータを数える。階級と属するデータの数(これを度数という)を2列の表の形でまとめる。
例えば、テストの点数を表にまとめる場合、「0~19点」「20~39点」「40~59点」「60~79点」「80~100点」といった階級に区切り、それぞれに属する人数を数えて「3人」「5人」「7人」「13人」「5人」などのように書き入れていく。
各階級の中央の値「10点」「30点」「50点」「70点」「90点」を、その階級を代表する「階級値」という。階級の幅は任意に決めてよいが、小さすぎると度数の差がつきにくく、大きすぎると度数の変化が大きすぎて分布の様子が分かりにくくなる。
度数分布表をグラフ化したものを「ヒストグラム」(histogram)という。横軸に階級、縦軸に度数を取り、各階級に度数の長さの棒(長方形)を並べて分布の様子を視覚的に表現する。複数の系列を同じグラフに描画して比較したい場合は棒の代わりに折れ線グラフで度数を表現した「度数分布多角形」(frequency polygon)が用いられる。
表計算ソフト 【スプレッドシート】 ⭐⭐
データが並んだ表を作成・編集することができるアプリケーションソフト。表中の項目間で集計や解析を行ったり、グラフに表したりすることができる。
縦横に並んだマス目(セル)の広がる表を用い、各セルにデータや計算ルールなどを入力・設定していくと、ソフトウェアが自動的に計算や処理を実行し、所定の位置に計算結果を代入したり、グラフを描画したりしてくれる。
このマス目の並んだ表のことを「スプレッドシート」(spreadsheet)あるいは「ワークシート」(worksheet)と呼び、一つのファイルに複数のシートを収めることができる。表計算ソフト自体を指してスプレッドシートと呼ぶこともある。
計算ルールには特定範囲の合計や平均を算出するといった単純なものから、数学的な関数や統計関数、財務関数などが利用できる。数値を扱う関数以外にも、日付や時刻を扱う関数、論理式を扱う関数、文字列を操作する関数、特定の条件を満たす値を数え上げる関数など、様々な種類がある。
表に貼り付けるように矩形の領域を設けて内部にグラフを描画する機能があり、特定の範囲のデータを対象にして折れ線グラフや棒グラフ、円グラフ、散布図などを描くことができる。セルの内容を変更すると、追随してすぐにグラフに反映されるようになっている。
行や列の幅や高さを変更したり、先頭のセルに項目名を記載したり、表やセルに枠線や背景色、文字書式、表示形式などを設定して見栄えを整える機能もあり、ファイルとして配布して入力フォームに利用したり、そのまま印刷して資料や帳票などとして用いる場合もある。
製品
パソコン向けの表計算ソフトとしては、米マイクロソフト(Microsoft社)のオフィスソフト「Microsoft Office」の一部として提供される「Microsoft Excel」(マイクロソフト・エクセル)が世界的に最も有名でシェアが高く、「Excel」を表計算ソフトの代名詞のように扱うこともある。
他にも、米アップル(Apple)社の「Numbers」や、オープンソースのLibreOfficeやApache OpenOfficeに含まれる「Calc」などが知られる。米グーグル(Google)社の「Google Sheets」(日本名は「Googleスプレッドシート」)のようにWebブラウザで操作できるネットサービスもある。
絶対参照/相対参照 ⭐
表などで項目の位置を指定する方式のこと。絶対参照は全体の端(原点など)を基準とする絶対位置を、相対参照は現在選択されている項目の位置を基準に相対位置を指定する。
絶対セル参照
表計算ソフトのセル指定でワークシート内の絶対位置を指定する方式を「絶対セル参照」(absolute cell reference)という。
参照先となるセルの位置は固定されており、参照元となるセルの値を他のセルにコピーしても、常に参照先となるセルの位置は一定となる。列のみ、あるいは行のみを絶対セル参照とし、もう片方を相対セル参照とすることもできる。
Microsoft Excelでは、セル内の関数や計算式などで「$A$1」のように「$」(ドル記号)に続けて列番号(アルファベット)や行番号を記述すると絶対セル参照となる。他のソフトウェアでもこれにならって同じ記法を採用しているものがある。
相対セル参照
表計算ソフトのセル指定で現在のセルからの相対位置を指定する方式を「相対セル参照」(relative cell reference)という。
参照元となるセルの値を他のセルにコピーすると、参照先となるセルの位置も、コピー元とコピー先の位置関係に応じて変化する。列のみ、あるいは行のみを相対セル参照とし、もう片方を絶対セル参照とすることもできる。
Microsoft Excelでは、セル内の関数や計算式などで「A1」のように列番号と行番号を指定すると、それを記述したセルからの相対セル参照とみなされる。これを右隣のセルに複製すると「A2」、下隣に複製すると「B1」というように、相対的に同じ位置関係にあるセルの位置に自動的に書き換えてくれる。
絶対参照/相対参照 ⭐⭐
表などで項目の位置を指定する方式のこと。絶対参照は全体の端(原点など)を基準とする絶対位置を、相対参照は現在選択されている項目の位置を基準に相対位置を指定する。
絶対セル参照
表計算ソフトのセル指定でワークシート内の絶対位置を指定する方式を「絶対セル参照」(absolute cell reference)という。
参照先となるセルの位置は固定されており、参照元となるセルの値を他のセルにコピーしても、常に参照先となるセルの位置は一定となる。列のみ、あるいは行のみを絶対セル参照とし、もう片方を相対セル参照とすることもできる。
Microsoft Excelでは、セル内の関数や計算式などで「$A$1」のように「$」(ドル記号)に続けて列番号(アルファベット)や行番号を記述すると絶対セル参照となる。他のソフトウェアでもこれにならって同じ記法を採用しているものがある。
相対セル参照
表計算ソフトのセル指定で現在のセルからの相対位置を指定する方式を「相対セル参照」(relative cell reference)という。
参照元となるセルの値を他のセルにコピーすると、参照先となるセルの位置も、コピー元とコピー先の位置関係に応じて変化する。列のみ、あるいは行のみを相対セル参照とし、もう片方を絶対セル参照とすることもできる。
Microsoft Excelでは、セル内の関数や計算式などで「A1」のように列番号と行番号を指定すると、それを記述したセルからの相対セル参照とみなされる。これを右隣のセルに複製すると「A2」、下隣に複製すると「B1」というように、相対的に同じ位置関係にあるセルの位置に自動的に書き換えてくれる。