高校「情報Ⅰ」単語帳 - 第一学習社「高等学校 情報Ⅰ」 - データの収集・整理・分析
オープンデータ ⭐⭐⭐
誰でも自由に入手や使用、加工、再配布などができるよう広く一般に公開されているデータ。特に、ソフトウェアなどによる自動処理に適した一定のデータ形式に整理・整形された機械可読(マシンリーダブル)なもの。
データの中には著作権などによって保護されていたり、所有者によって入手や利用に制限が課せられ、手続きや対価が必要なものが多くある。オープンデータはこのような制約から解放され、営利・非営利を問わず誰でも自由に使用や再配布が可能なデータを指す。
こうしたデータ公開が期待され、また積極的に行われているのは主に学術・科学分野や公共分野である。大学や研究機関の持つ科学的な資料や、政府や自治体などの公的機関の持つ公共的な情報や、事業などで調査・収集した統計データなどの公開が進められている。
行政などのデータ公開・提供はこれまでも白書やWebサイトなどの形で行われてきたが、これはもっぱら人間が閲覧するための文書として発行されたものであり、ソフトウェアで解析・加工するには人間の手で整形しなければならなかった。オープンデータではコンピュータ上での自動処理を前提としたデータ形式が求められ、XMLやCSVファイル、Excelファイル(XLSXファイル)などの形で提供される。
ある完結したひとまとまりのデータ集合を「データセット」と呼び、これを一つのファイルなどに(複雑・大規模な場合はいくつかに分割して)記録してWebサイトなどで公開する。複数のデータセットを公開する機関やサイトでは、どこにどんなデータセットがどのような形式で公開されているかをまとめた「データカタログ」が作成されることが多い。
2000年代後半頃から、米連邦政府の「Data.gov」や日本政府の「データカタログサイト」(DATA.GO.JP)など、政府機関が提供している様々なオープンデータをまとめたデータカタログや専用のWebサイトを公開する国が増えている。
全数調査 ⭐
統計的な調査を行う際に、対象となる母集団全体を調査対象とする方式。国勢調査のように、標本の抽出などを行わずに対象すべてを虱潰しに調べる調査。
調査の対象となる母集団に含まれるすべての要素を一つ一つ調べる調査方式をこのように呼ぶ。一方、母集団の中から一定の基準や方法で少数の標本(サンプル)を抽出して調査する方式を「標本調査」という。
全数調査はすべての対象についてのデータを揃えることができるため、抽出調査で生じる標準誤差などの不確かさに影響されない。対象の総数が少ない場合は容易に実施できるが、日本人全体など母集団が巨大な場合には大きなコストや長い期間を要したり、そもそも不可能なこともある。
社会調査の多くは標本調査だが、国が5年ごとに実施する、国内の全居住者を対象とした「国勢調査」や、国内の全法人を対象に行われ企業の国勢調査とも言われる「経済センサス」は全数調査として行われている。これらは統計としての意義と共に他の標本調査の基礎となるデータを提供する意義がある。
標本調査 ⭐
統計的な調査を行う際に、集団全体から一定の基準や方法で少数の対象のみを抜き出して調査する方式。社会調査や品質検査などで広く用いられる。
ある母集団に含まれるすべての要素を調査することを「全数調査」(悉皆調査)というが、社会調査の場合は膨大なコストや時間が必要になったり、母集団全体にアクセスすることがそもそも不可能であったりする。商品の品質検査などでは破壊的な検査を全数に行うことはできないという問題もある。
そこで、母集団から一定の方法で要素を抽出して調査を行う標本調査が広く行われている。抽出した要素を「標本」(sample)という。標本に対する調査結果から統計的な推計を行い、母集団全体の状態を推定する。標本による推計値と母集団の本当の値(真の値)とのズレ(乖離)を「標本誤差」という。標本数などから精度の予測は可能だが誤差をゼロにすることはできない。
標本の抽出法
抽出した標本の属性に偏りがあると母集団の状態を正しく推定できないため、なるべく母集団全体を代表する標本の組み合わせを選択する必要がある。適切な抽出方法は母集団の特性により様々で、抽出の枠組みと要素の選出方法を組み合わせて抽出方法を決定する。
抽出の枠組みは母集団を複数の枠に分割してそれぞれの枠から抽出することを指す。特に枠を設けず全体を対象とする「単純抽出」、重なりのない複数のカテゴリーに分けてそれぞれから選出する「層化抽出」(層別抽出)、ある属性が共通している(クラスターを形成している)がそれ以外の属性がバラけている集団から抽出する「集落抽出」(クラスターサンプリング)などがある。
枠(あるいは全体)からの要素の選出方法としては、くじ引きのようにランダムに選ぶ「無作為抽出」、「登録番号の末尾が00で終わる」といったようにある属性の値を規則的に選んでいく「系統抽出」などがある。大規模な調査では、抽出した要素の集合から再び抽出を行う「多段階抽出」(多くの場合は2段階抽出)が行われることもある。
量的データ ⭐⭐⭐
調査や観測などで得られたデータのうち、数値で表され、値の大きさに意味があるデータのこと。長さ、重さ、人数、金額など大小や高低の程度を反映したデータである。
数で表され、数の大きさが量の多寡や性質の強さ、度合いを反映しているようなデータをこのように呼ぶ。物事の質的な側面を表す「質的データ」(質的変数)と対比される。
量的データを測る尺度のうち、数の間隔に意味があるものを「間隔尺度」という。数の間隔が量の大きさを反映している尺度で、温度の摂氏(℃)や年号などが当てはまる。原点が量的な「0」を表さないため値同士の比率には意味がない。
一方、間隔だけでなく値そのものの比に意味があるような尺度を「比例尺度」という。数がそのまま量の大きさを反映しているような尺度で、長さ、面積、体積、重さ、時間、速度、絶対温度、人数、金額など多くの量的データは比例尺度で表される。数で表されていても、数が順序や順位しか表さない、ランキングや段階評価、段位のような「順序尺度」のデータは含まない。
質的データ ⭐⭐⭐
調査や観測などで得られたデータのうち、数値で表されないようなものや、数値であっても値の大小や比率に意味がないようなデータのこと。
性別や血液型、「はい」「いいえ」を選択するアンケート項目、色、形状など、結果を数値で表すことができないデータや、数字で表されていても自動車ナンバーや電話番号のように大小に意味がない「名義尺度」のデータが含まれる。物事の量的な側面を表す「量的データ」(量的変数)と対比される。
また、数の大小が順位や順序を表していても、間隔や比には意味がない「順序尺度」の数値データも質的データに分類される。例えば、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級などは、上位と下位の区別はできても度合いを数量比較することはできないため質的データに分類される。
異常値 ⭐
調査や測定、観測などで同種のデータをいくつも取得したとき、ミスなどで混入した誤った値のこと。また、単に傾向から大きく外れた値や、何らかの基準を超えて異状を示す値を指すこともある。
収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを「外れ値」という。このうち、測定機器の不具合や故障、測定ミス、記入ミスなど、何らかの明確な原因によっておかしな値になってしまったものを異常値という。
ミスなどの不手際に限らず、人間の身長を示す値が「10m」になるなど、理論的に絶対に起こり得ない値を含むこともある。データを取る対象や方法によって、外れ値から異常値と他の外れ値を区別できる場合と、区別がつかない場合がある。文脈によっては外れ値のことを異常値と呼ぶ(両者を特に区別しない)場合もある。
また、医療における検査や、システムや機械の監視など、正常な状態と異常な状態を区別するために測定などを行う場合には、異常な状態を示す値のことを異常値と呼ぶことがある。この場合には値そのものは正しく得ることができており、「正しく捉えられなかった値」という意味合いはない。
外れ値 ⭐⭐⭐
調査や測定、観測などで同種のデータをいくつも取得したとき、全体のデータの傾向から大きく外れた値のこと。統計処理などの際に一定の基準を設けて除外することがある。
収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを外れ値という。このうち、測定機器の不具合や記入ミスなど、何らかの誤りによっておかしな値になってしまったものは「異常値」という。対象や方法によって、異常値と異常値以外の外れ値を区別できる場合とできない場合がある。
外れ値を含んだデータをそのまま分析すると、平均値や相関係数などの統計量に大きな影響を与え、歪んだ結果が導き出されることがある。このため、一定の基準を設けて外れ値を取り除く操作を行うことがある。
よく用いられる手法として、箱ひげ図を描いて「第1四分位数-箱の幅×1.5以下」「第3四分位数+箱の幅×1.5以上」のデータを外れ値と判定する方法がある。また、平均値や標準偏差などから特定の統計量を算出し、基準値を設けて判定する方法もある。こうした検定にはスミルノフ・グラブス検定やトンプソン検定などが知られている。
なお、用意した結論に都合のよいデータのみを残してそれ以外を外れ値として排除することはデータの改竄とみなされる可能性があるため値の削除は慎重に行う必要がある。どんな調査や観測でも、現実の対象を調べれば全体の傾向から外れたサンプルが存在するのは普通のことであるため、異常値として理由が説明できる値以外は恣意的に取り除くべきではないとする考え方もある。
欠損値 ⭐⭐⭐
調査や測定、観測などでデータを収集した際、あるデータの記録場所を参照してもデータが記録されておらずに欠けていること。一定周期で観測値を記録するシステムでデータが欠けた時刻がある場合などが該当する。
観測において、装置の不具合や操作ミスなどで測定値が得られなかった状態や、調査において特定の記入項目が空欄で記載されていない状態などを指す。値は存在するが傾向から大きく外れている「外れ値」や、装置故障やミスなどでおかしな値になってしまった「異常値」とは異なる。
観測における欠測などは機械的に取り除いて分析することが多いが、調査では記入が任意の項目が複数ある場合などに完全にデータが揃っているサンプルが十分な数揃わないこともある。そのような場合には欠損の多い項目を解析から外したり、平均値などの代表値で穴埋めしたり、他の項目の値が似ているサンプルのデータで補完するといった操作を行うことがある。
尺度 ⭐⭐
対象の測定や計量、評価などを行うときの基準。特に、結果を数字に対応付けるための規則を指すことが多い。定規やメジャーなど、長さを測る道具を尺度と呼ぶこともある。
統計的な変数やその値を、表している情報の性質に基づいて分類したものを「尺度水準」(level of measurement)という。「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
「名義尺度」(類別尺度)は対象や状態を区別するために数字を割り当てたもので、値が同じか異なるかしか評価することができない。「順序尺度」は数字の大小が順序を表すような尺度である。前後や順位を付けることはできるが、他の値との差や比率には意味がない。この2つの尺度で表されるデータは物事の質的な側面を表しており、「質的データ」と呼ばれる。
「間隔尺度」は数字が順序を表すとともに間隔に意味があるような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、値の比には意味がない。「比例尺度」(比率尺度)は数字が順序や間隔を表すともに、値の比や割合も議論することができる。この2つの尺度で表されるデータは物事の量的な側面を表しており、「量的データ」と呼ばれる。
尺度水準 ⭐⭐
統計的な変数やその値を、表している情報の性質に基づいて分類したもの。数字にどのような意味があり、どのような操作や議論が可能かが異なる。
1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。名義、順序、間隔、比例の順に水準が高くなり、高い水準の尺度は自身より低い水準の尺度を兼ねることができる。
名義尺度
「名義尺度」あるいは「類別尺度」は、対象や状態を区別するためだけに(便宜上の)数字を割り当てたもので、値が同じか異なるかしか評価することができない。順序や大きさ、比率などに意味はなく、計算もできない。例えば、電話番号の国番号は米国が1、日本が81だが、日本が何かの大きさで81位であるとか、何かが米国の81倍であるというわけではない。
順序尺度
「順序尺度」は、数字の大小が順序を表すような尺度である。大きさを比較したり順位を付けることができるが、他の値との差や比率には意味がなく、計算はできない。競技の順位、成績やアンケートなどの5段階評価、検定制度の段位や級などが該当する。「徒競走1位は2位より速かった」とは言えるが、「2倍速い」といった比較はできない。
間隔尺度
「間隔尺度」は、数字が順序を表すとともに間隔に意味があるような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、「0」で表される点は便宜上置いたもので、値の比には意味がない。例えば、気温5℃が15℃になるのと15℃が25℃になるのは同じ幅だけ上昇したと言えるが、15℃は5℃の3倍の温度やエネルギーであるとは言えない。
比例尺度
「比例尺度」あるいは「比率尺度」は、数字が順序や間隔を表すともに、「0」に原点としての意味があり、値の比や割合も議論することができる尺度である。長さ、重さ、広さ、時間、速度、絶対温度などの物理量、金額などが該当する。最も高い尺度水準であり、他の3つの尺度を兼ねることができる。
比例尺度 ⭐⭐
統計などで用いられる数値データの尺度のうち、数字が順序や間隔を表すともに、値の比や割合も議論することができるもの。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
比例尺度は最も高い水準の尺度で、数字がそのまま何らかの量の大きさを表している。値の「0」は「存在しない」ことを表す原点であり、値の間隔や比には意味がある。加減乗除などの計算も行うことができ、すべての統計量を使うことができる。
例としては、長さや面積、体積、重さ、時間、速度、絶対温度などの物理量、金額、個数などが該当する。一段階低い水準の間隔尺度である摂氏では27℃が54℃になったからといって温度が2倍になったとは言えないが、絶対温度600K(約327℃)は300K(約27℃)の2倍の温度と言うことができる。
順序尺度 ⭐⭐⭐
統計などで用いられる数値データの尺度のうち、数字の大小が順番や順位を表すようなもの。大小や高低、前後の比較はできるが、値の差や比には意味がない。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
順序尺度は名義尺度に次いで2番目に低い水準の尺度で、数字の大小で順序を表すことができる。大きさを比較したり順位を付けることができるが、値同士の差や他の値との比、割合などには意味がなく、値の計算を行うこともできない。統計量としては度数や最頻値に加え、中央値や四分位数、パーセンタイルなどが使用できる。
例としては、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級、自動車保険の等級、がんのステージ、国際原子力事象評価尺度などが該当する。「将棋8段は4段より強い」とは言えるが、「2倍強い」といった比較はできない。
間隔尺度 ⭐⭐⭐
統計などで用いられる数値データの尺度のうち、数字の大小が順序を表すと共に、2つの値の差の大きさに意味があるもの。値の比には意味がない。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
間隔尺度は比例尺度についで2番目に高い水準の尺度で、数字の間隔が量の大きさを表すような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、「0」で表される点は量が0になる原点ではなく便宜上置いたものである。値自体の比には意味がないが、値の差同士の比には意味がある。統計量としては最頻値や中央値、パーセンタイルなどに加え、平均値(相加平均)や標準偏差、相関係数なども使うことができる。
例としては、温度の摂氏(℃)や華氏、西暦や元号で表した年、日付などがある。15℃が20℃になるのと20℃が30℃になるのでは2倍の温度上昇が生じたと言うことができるが、15℃が30℃になったのを温度が2倍に上昇したと言うことはできない。
名義尺度 ⭐⭐⭐
統計などで用いられる数値データの尺度のうち、対象や状態を区別するためだけに(便宜上の)数字を割り当てたもの。値は順番や順位を意味せず、値の差や比にも意味はない。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
名義尺度は最も低い水準の尺度で、数字は対象や状態を識別する名前の役割しか果たさず、量的な意味合いを一切もたない。値が同じか異なるかを見分けるためだけに使用することができ、順序、間隔、大きさ、比率などを表すことはできず、値の計算にも意味がない。統計量としては各値の度数や出現頻度、最頻値などを求めることはできる。
例としては、電話番号や郵便番号、学籍番号、背番号、国際電話の国番号、総務省の都道府県コードなどがある。例えば、都道府県コードで「10」が群馬県、「20」が長野県だが、群馬県が何かで10位であるとか、長野県の何かが群馬県の2倍であるといった意味はない。
メタデータ
データについてのデータ。あるデータそのものではなく、そのデータを表す属性や関連する情報を記述したデータのこと。データを効率的に管理したり検索したりするためには、メタデータの適切な付与と維持が重要となる。
例えば、文書データであればタイトルや著者名、作成日などが、楽曲を収めた音声データであれば曲名や収録媒体、作曲家、作詞家、実演家、発表(発売)日時などが考えられる。どのような属性がメタデータとして適切あるいは必要かはデータの種類によって異なり、また、データの作成方法、利用目的などによっても異なる。
文書や画像、音声、動画など多くのファイル形式では、ファイルの先頭などにメタデータを格納する領域が用意されており、あらかじめ決められた形式で、データと一緒にメタデータを保管できるようになっている。ファイル自体もまた、ファイルシステムによって作成者、作成日時、最終更新日時、アクセス権などのメタデータと共に管理されている。
AND検索 ⭐
情報を検索する際の条件の指定方法の一つで、複数の条件をいずれも満たすものを検索すること。
条件AとBがあるとき、検索条件を「A and B」と指定すると、「AとBの両方の条件を満たす」という意味になる。条件が3つ以上の場合も同様で、挙げられたすべてを満たすという意味になる。
Web検索エンジンのキーワード指定では、キーワードを半角スペースで区切るとAND検索の指定を意味することが多く、列挙したキーワードすべてを含むページを検索せよという意味になる。例えば、「スクリーンショット Android」と検索すると、「スクリーンショット」と「Android」の両方を含むページが検索される。
一方、挙げられた条件の少なくとも一つを満たすものを検索することは「OR検索」、ある条件を満たさないものを検索することは「NOT検索」という。
OR検索 ⭐
情報を検索する際の条件の指定方法の一つで、複数の条件のうち少なくともいずれか一つを満たすものを検索すること。
条件AとBがあるとき、検索条件を「A or B」と指定すると、「AとBのいずれかの条件を満たす」という意味になる。条件が3つ以上の場合も同様で、挙げられた条件の少なくともいずれか一つを満たすという意味になる。
Web検索エンジンのキーワード指定では、キーワードを「|」(縦棒、縦線、バーティカルバーなどと呼ばれる)で区切るとOR検索の指定を意味することが多く、列挙したキーワードのいずれかを含むページを検索せよという意味になる。例えば、「iPad|Androidタブレット」と検索すると、「iPad」と「Androidタブレット」のどちらか、あるいは両方を含むページが検索される。
一方、挙げられた条件のすべてを満たすものを検索することは「AND検索」、ある条件を満たさないものを検索することは「NOT検索」という。
NOT検索 ⭐
情報を検索する際に条件を指定する方法の一つで、ある条件を満たさないものを検索すること。
条件Aについて検索条件を「not A」と指定すると、「Aを満たさない」という意味になる。通常は他の検索条件と組み合わせ、得られた検索結果から特定の条件に一致するものだけを除外するために用いられる。
一方、複数の検索条件を列挙して「すべてを満たす」ものを検索する指定方法は「AND検索」(アンド検索)、「少なくとも一つを満たす」ものを検索する指定方法は「OR検索」(オア検索)という。
検索エンジンのマイナス検索
Web検索エンジンのキーワード指定では、キーワードの先頭に「-」(ハイフン、マイナス記号)を付けるとNOT検索の意味になる記法を採用していることが多く、「マイナス検索」とも呼ばれる。
通常は他のキーワードや検索条件と組み合わせて検索結果を絞り込むのに用いられる。例えば、「アリ -シロアリ」と検索すると、「アリ」を含むWebページから「シロアリ」を含むものを除外したページ一覧が表示される。
CSV ⭐
テキスト(文字)データの形式の一つで、項目をカンマ「,」で区切って列挙したもの。複数の項目をレコードとしてまとめる場合は、改行でレコードの区切りを表す。表形式で項目が並んだデータの保存に用いられる。
表のように項目が縦横に並んだデータを記述することができる形式の一つで、標準のファイル拡張子は「.csv」。表計算ソフトやデータベースソフトなど多くのソフトウェアが標準で対応している。異種システム間のデータ交換などで古くから広く用いられている。
実体は単純な記法のテキストデータであるため、対応プログラムの開発もしやすく、人間がテキストエディタなどで開いて直接読み書きすることも容易である。反面、アプリケーション固有の複雑なデータや動的なデータ(他のセルの参照や関数など)や、画像などのバイナリデータ、データ全体についての情報(メタデータ)などを記録するのには向いていない。
仕様のばらつき
システムによって「項目をカンマで区切る」以外の仕様には細かな差異がある。例えば、改行文字として「CR+LF」(16進数で0D+0A)を用いるシステムが多いが、システム標準のテキストデータの扱いの違いにより、「CR」(0D)のみの場合や「LF」(0A)のみの場合もある。
また、項目を二重引用符「"」や一重引用符「'」で囲むのを原則とする場合と、文字列型のデータのみを引用符で括る場合、項目内にカンマや引用符、改行など区切り文字が出現する場合に引用符で括る場合などがある。項目内に引用符が現れる場合は「,"私は""神""だ",」のように二文字連続とする。
慣例として先頭行を「氏名,住所,電話番号」のように項目名の列挙とすることが多く、アプリケーションで開いたときに最上段に項目名を表示させることができる。各列が何を表しているのか容易に把握することができるが、そのまま表示・編集することを意図しない自動処理用のファイルなどでは省略してデータ本体のみとすることも多い。
同じ用途の他形式
<$Img:CSV-File.png|right|mcmurryjulie|https://pixabay.com/vectors/spreadsheet-icon-spreadsheet-excel-1898557/>CSVと同じように、項目を記号文字や制御文字で分離して改行でレコードを区切る形式は他にもあり、タブ文字(16進数で09)で区切る「TSV」(Tab-Separated Values)形式や、スペース文字(16進数で20)で区切る「SSV」(Space-Separated Values)などがよく知られる。西欧の一部のように数値の桁区切りにカンマを用いる国では、CSVの区切り文字にカンマでなくセミコロン「;」を用いる場合もある。
Microsoft Excelなどの表計算ソフトでは表形式に項目を並べたワークシートを扱うが、標準では各アプリケーション固有のファイル形式(Excelの場合はXLSXファイルなど)でこれを保存する。ほとんどのソフトにはCSVファイルの取り込み(インポート)や書き出し(エクスポート)機能があるため、標準ファイル形式では対応できない他のアプリケーションとのデータ交換などの際にはCSVを利用することがある。
JSON
JavaScriptにおけるオブジェクトの表記法を応用したテキスト(文字)ベースのデータ形式。多数の要素が複雑な構造で組み合わせられたデータを簡潔な表記で書き表すことができる。JavaScriptプログラム上ではコードとして実行するだけで読み込みが完了する。
JavaScriptではオブジェクト定義の構文として、キーと値のペアを列挙したデータ構造を用いる。これは他のプログラミング言語では連想配列、ハッシュ、マップ、辞書(ディクショナリ)などと呼ばれるものに近い。
JSONでは、これと配列を利用して複合的なデータ構造を記述することができる。配列やオブジェクトの値として別の配列やオブジェクトを入れ子の形で記述でき、深い階層構造を持つ複雑なデータを表すことができる。
値として利用できるデータ型はJavaScriptに用意されているプリミティブデータ型で、整数型、浮動小数点数型、文字列型、ブール型(真偽値)、null(値無し)、配列、オブジェクトである。
配列は [“A”,“B”,“C”] のように全体を角括弧で囲み、値をカンマ区切りで列挙していく。オブジェクトは { Key1:“Value1”, Key2:“Value2”} のように全体を中括弧で囲み、キーと値をコロン(:)で区切って表記したペアをカンマ区切りで列挙していく。
JSONはJavaScriptでの扱いが簡単なため、WebサービスやAjaxなどでプログラム間でのデータ交換フォーマットとして多用されている。また、数多くのプログラミング言語でJSONを簡単扱えるようにする追加機能などが公開されており、設定ファイルやデータ交換などでXMLに代わって普及している。
歴史
JSONはもともとJavaScriptの構文規則の一部だが、2001年にダグラス・クロックフォード(Douglas Crockford)氏がこれをデータ形式のように扱うことできることを「発見」し、これをJSONと命名した。
2006年には独立したデータ形式としてIETFがRFC 4627として規格化した。JavaScriptの標準化を行っていたEcma Internationalが2011年にECMAScript 5.1の一部として標準化、2013年にはECMA-404として独立した規格が発行された。両団体間で一部の仕様が異なる問題があったため、2017年にRFC 8259およびECMA-404の改訂版として仕様が統一された。
XML
文書やデータの意味や構造を記述するためのマークアップ言語の一つ。汎用性、拡張性が高く、用途に応じて独自のマークアップ言語を定義することができる。
マークアップ言語とは「タグ」(tag)と呼ばれる特定の記法の文字列で地の文に情報の意味や構造、装飾などを埋め込んでいく人工言語のことで、XMLは利用者が独自のタグを定義できることから、マークアップ言語を作成するためのメタ言語とも言われる。
XMLの表記法
XMLにおけるタグはHTMLやSGMLなどと同じように「<」(小なり記号)と「>」(大なり記号)に囲まれた文字列で、「<」に続く先頭部分が要素名(タグ名)を表し、続いてスペース区切りで属性が「 属性名="値"」という形式で列挙される。
タグには「<要素名>」という形式の開始タグと「</要素名>」という形式の終了タグがあり、両者に挟まれた領域が要素の内容(タグによる指定の有効範囲)となる。内容を含まず単体で完結したタグもあり、「<要素名 属性群 />」のようにタグの末尾を「/」とする。
用途と関連規格
XMLにより統一的な記法を用いながら独自の意味や構造を持ったマークアップ言語を作成することができるため、ソフトウェア間の通信・情報交換に用いるデータ形式や、様々な種類のデータを保存するためのファイルフォーマットなどの定義に使われている。
XMLを応用して特定の種類やデータや用途のために定義された標準的なマークアップ言語もある。ベクター画像を記述するための「SVG」(Scalable Vector Graphics)、数式を記述するための「MathML」、Webページを記述するHTMLをXMLの仕様を満たす形式に改めた「XHTML」、各種のオフィスソフトの文書を記述するための「Office Open XML」および「ODF」(OpenDocument Format)などである。
また、XMLを様々な場面で利用しやすいよう、関連技術の規格も数多く存在する。文書を表示する際の書式や装飾などを指定する「XSL」(Extensible Stylesheet Language」や「XSLT」(XSL Transformations)、ハイパーリンク機能を実現する「XLink」や「XPointer」、XMLベースの言語の仕様を記述するためのスキーマ言語である「XML Schema」や「RELAX」、XMLをプログラムで利用するためのAPIである「DOM」(Document Object Model)や「SAX」(Simple API for XML)などである。
米アドビ(Adobe)社が開発した、どのような環境でも同じように表示・印刷できる電子文書のファイル形式。1993年に登場し、2008年にはISO(国際標準化機構)によって標準化された。
従来の文書ファイルの形式は特定のアプリケーションソフトや制作環境に依存した方式となっており、正しく表示・印刷するためには作成時に用いたソフトやフォントファイルなどを入手して同じ環境を再現する必要があった。
PDFでは特定のソフトウェアや環境に依存せず独立して取り扱うことができる文書のデータ形式を定義しており、作成した文書をPDF形式に変換して配布・提供することで、閲覧側ではPDF表示ソフト(PDFビューワ)さえあればどのような環境でも制作時と同じように表示・印刷することができる。
PDF形式のファイルには文字情報だけでなく、フォントや文字の大きさ、字飾り、埋め込まれた画像、それらのレイアウトなどの情報を保存できる。ファイルサイズは増大するが、フォントの字形データ自体を埋め込んで保存することもでき、閲覧側にフォントファイルが用意されていなくても同じフォントで表示できる。
PDF文書の作成
同社ではPDF文書の作成ソフトとして「Adobe Acrobat」(アドビ・アクロバット)を販売し、表示ソフトとして「Acrobat Reader」(アクロバット・リーダー)を無償配布しているが、いずれも他社の互換ソフトを利用することができる。
Acrobatを含めPDF作成ソフトの多くは仮想的なプリンタのように振舞うドライバソフトとして提供されているため、文書作成に用いるソフトウェア自体がPDFファイル書き出し機能を内蔵している必要はなく、印刷機能さえあればPDF文書を作成することができる。
ビッグデータ ⭐⭐⭐
従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。単にデータ量が多いというだけでなく、多様な形式や情報源を含む、日々大量に蓄積されていくといった特徴を備えるものを指すことが多い。
企業や官公庁などが記録・管理する極めて規模の大きいデータの集積を指す。多くの場合、量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指す。厳密な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。
今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。
米大手IT調査会社ガートナー(Gartner)社では、ビッグデータを特徴づける要素として、データの大きさ(Volume)、入出力や処理の速度(Verocity)、データの種類や情報源の多様性(Variety)を挙げ、これら3つの「V」のいずれか、あるいは複数が極めて高いものがビッグデータであるとしている。これに価値(Value)や正確性(Veracity)を加える提案もある。
コンピュータやソフトウェアの技術の進歩は速く、具体的にどのような量や速度、多様さであればビッグデータと言えるかは時代により異なる。ビッグデータという用語がビジネスの文脈で広まった2010年代前半にはデータ量が数テラバイト程度のものも含まれたが、2010年代後半になるとペタバイト(1000テラバイト)級やそれ以上のものがこのように呼ばれることが多い。
近年ではスマートフォンやSNS、電子決済、オンライン通販の浸透により人間が日々の活動で生み出す情報のデータ化が進み、また、IoT(Internet of Things)やM2M、機器の制御の自動化などの進展により人工物から収集されるデータも爆発的に増大している。
また、人工知能(AI)の構築・運用手法として、膨大なデータから規則性やルールなどを見出し、予測や推論、分類、人間の作業の自動化などを行う機械学習(ML:Machine Learning)、中でも、多階層のニューラルネットワークで機械学習を行う深層学習(ディープラーニング)と呼ばれる手法が台頭している。
このような背景から、膨大なデータを的確、効率的に扱う技術上の要請はますます高まっており、統計やデータ分析、大容量データを扱う手法やアルゴリズムなどに精通した「データサイエンティスト」(data scientist)と呼ばれる専門職の育成が急務とされている。
データマイニング ⭐
蓄積された大量のデータを統計学や数理解析などの技法を用いて分析し、これまで知られていなかった規則性や傾向など、何らかの未知の有用な知見を得ること。
「マイニング」(mining)とは「採掘」の意味で、膨大なデータの集積を鉱山に、そこから有用な知見を見出すことを資源の採掘になぞらえている。適用分野や目的、対象となるデータの種類は多種多様だが、ビジネスの分野では企業が業務に関連して記録したデータ(過去の取引記録、行動履歴など)を元に、意思決定や計画立案、販売促進などに有効な知見を得るために行われることが多い。
例えば、小売店の商品の売上データの履歴は、それ自体は会計上の手続きや監査などの業務にしか使われないが、データマイニングの手法で統計的に処理することで、これまで知られていなかった「商品Aと商品Bを一緒に購入する顧客が多い」といった傾向が分かる場合がある。これにより、AとBの売り場を統合するといった販売促進施策を行うことが可能となる。
商業分野だけでなく、自然言語処理やパターン認識、人工知能などの研究などでも利用される。分析・解析の手法も様々だが、代表的な手法としては、頻度の高いパターンの抽出や、相関関係にある項目の組の発見、データの特徴や共通点に基づく分類、過去の傾向に基づく将来の予測などがある。
近年では、一般的なシステムやソフトウェアでの解析が困難な巨大なデータセットである「ビッグデータ」を対象とした解析手法や、人工知能の一分野である機械学習、特に先進的な手法である「ディープラーニング」を応用したマイニング手法などが活発に研究・開発されている。
データクレンジング
データベースなどに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行ってデータの品質を高めること。
蓄積されたデータを分析したり活用したりする際に、同じ意味を表しているのに表記が微妙に異なっていて同一とみなされない例など、そのままでは自動処理に適さない状態になっていることがある。特に、複数の情報源からデータを集めた場合や、一件ごとに入力者が異なる場合などにこの点が問題となることが多い。
そのような場合に、一定の基準やルールなどを定め、一項目ずつデータを調べて適切な状態に編集、統合、補正などしていく処理や作業をデータクレンジングという。具体的な手法はデータの種類や形式、利用目的などにより様々である。
一般的な例としては、全角文字と半角文字の違いや、空白文字や区切り記号の有無、人名の異体字の誤りや姓名の分割・併合、法人名の表記(株式会社と(株)の違いなど)、住所や電話番号の表記法などが対象となり、それぞれについて表記ルールを決めて修正や削除などを行なっていく。
平均値 ⭐⭐
値の集団があるとき、全体の量は変えずにすべての値が同じだったらいくつになるかを求めたもの。集団全体の性質を表す代表値として最もよく用いられる。
単に平均値という場合はすべての値を足して個数で割った「算術平均」(相加平均、単純平均)を指す。全体の総和は変わらずすべての値が同じだったらいくつになるかを求めたもので、全体の値の水準を表している。
平均値の算出法として、すべての値(n個)を掛け合わせてn乗根を求めることもある。全体の積が同じですべての値が同じだったらいくつになるかを求めたもので、「幾何平均」(相乗平均)と呼ばれる。他にも調和平均、対数平均、加重平均など様々な算出法がある。
平均値は代表値として最もよく用いられるが、値の分布によっては必ずしも全体の性質を表すのに適さない場合がある。例えば、少数の値が極端に大きい(あるいは小さい)と、その値に引きずられてほとんどの値よりずっと大きい(あるいは小さい)値が平均値となることがある。
他によく用いられる代表値として、大きい順に並べ替えたときに順位がちょうど真ん中の値を求める「中央値」(median:メディアン/メジアン)、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)がある。
最頻値 ⭐
値の集団があるとき、各値が出現する回数を数え、最も多く現れる値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。
集団の中で同じ値が何回出現するかを調べ、最も多く出現する値が最頻値である。例えば、{ 0, 1, 1, 1, 2 } という値の集合があるとき、この中には「0」が1回、「1」が3回、「2」が1回出現しており、最頻値は3回の「1」となる。
連続値の場合は全く同じ値が繰り返し現れることは稀であるため、度数分布表やヒストグラムを用いて「0以上10未満」「10以上20未満」のように区間を区切って頻度を数え、最も多い区間の中心の値(10~20が最多なら15)を最頻値とする。
最頻値は一つに定まるとは限らない。「0, 1, 1, 2, 3, 3, 4」の場合、最多頻度2回の値が「1」と「3」2つとなり、両者ともに最頻値となる。このように最頻値が複数の場合を「多峰性」(multimodal)の分布、中でも2つの場合を「二峰性」(bimodal)の分布という。最も極端な場合、すべての値が同じ頻度で出現するとすべての値が最頻値となる(最頻値を考える意味がなくなる)。
代表値としては他にも、全体を同じ値に均した「平均値」(average)、順位がちょうど真ん中の値を取る「中央値」(median:メジアン、メディアン)などがある。統計値などがきれいな山型の分布にならない場合には、これらより最頻値で代表させるのが適していることがある。また、平均値や中央値と異なり、「○○という回答が最も多かった」というように数値で表されないデータ(名義尺度)の集計にも適用できるという重要な性質がある。
中央値 ⭐⭐
値の集団があるとき、最大値から最小値まで順に整列したとき順位がちょうど真ん中である値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。
値を大きい順あるいは小さい順に並べた時、ちょうど真ん中にある値が中央値である。値が偶数個の場合は中央の値が2つになるため、両者の平均値(算術平均)を中央値とする。例えば、「0, 5 ,1, 9, 7」という値の集合がある場合、大きい順でも小さい順でもちょうど3番目が「5」となり、これが中央値となる。
代表値としては値を均した「平均値」(算術平均/相加平均)を用いることが多いが、平均値は極端な値が含まれる場合にその影響を受けやすいという難点がある。例えば、10軒の家があって9軒は車を1台所有しており、残り1軒が11台所有している場合、1軒あたりの平均所有台数は「2台」となるが、実際に2台以上所有しているのは1軒だけである。
このような場合、中央値は5位と6位の中間、すなわち「1台」となり、大半の家が1台のみである実態をよく表している。ただし、時系列の比較などを行う場合、中央値は中央付近の値の動向しか反映しないため、全体の変化の傾向などを表すのには不向きである。
集団の代表値としては平均値、中央値の他にも、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)を用いることがある。先の車の所有台数の例では最頻値も「1台」である。
分散 ⭐⭐⭐
分かれて散らばること。確率・統計の分野では、データの散らばり具合を分散という。IT分野では処理やデータを複数の機器などで分担することを分散処理、分散システムなどという。
統計学の分散
統計学では、あるデータ群のそれぞれの値について平均値との差を取って二乗し、その合計をデータの数で割って平均した値(二乗平均)を分散(variance)という。データ群が平均に対してどのくらい散らばっているかを表す指標として用いられる。
例えば、{10,20,30} という3つの標本の分散は平均値の20を用いて {(10-20)2+(20-20)2+(30-20)2}/3 と表すことができ、約66.7となる。{0,20,40} であれば約266.7となり、すべて平均に等しい {20,20,20} ならば分散は0となる。
分散は算出過程で値を二乗しており元の値とは次元が異なるが、分散の正の二乗根を取って次元を揃えた値を散らばりの指標として用いることがある。これを「標準偏差」(SD:Standard Deviation)と呼び、元の値と同じ尺度で散らばり具合を評価することができる。
分散処理
IT分野では、一つの処理やデータ群に対して複数の機器を動員し、分担して処理する方式を「分散処理」(distributed processing)、「分散システム」(distributed system)、「分散コンピューティング」(distributed computing)などという。
このうち、処理の前後関係に従って異なる機能の機器を連結し、それぞれが特定の工程に専念する方式を「垂直分散システム」、同じ機能の機器を並べて処理を振り分け、並行に処理する方式を「水平分散システム」という。一般には後者を指して単に分散システムと呼ぶことが多い。
標準偏差 ⭐⭐
統計における指標の一つで、データ群のばらつき具合を表す値。この値が小さいほど平均付近にデータが集まっていることを表し、大きければ平均から外れたデータがたくさんあることを表している。
標準偏差は分散の正の平方根で、データが平均値から平均でどのくらい離れているかを表している。算出方法は、各値と平均値の差を二乗した値の和を求め、これをデータの数で割った平均のルートを取る(二乗平均平方根)。
例えば、{10,20,30} という3つの標本の標準偏差は、平均値20を用いて √[{(10-20)2+(20-20)2+(30-20)2}/3] と表され、約8.16となる。{0,20,40} ならば約16.33となり、すべて平均値に等しい {20,20,20} ならば標準偏差は0となる。
分散も散らばり具合を表しているが、元の値と平均の差の二乗の平均であるため、元の値とは次元が異なる。標準偏差はその平方根を取っているため、元の値と同じ次元となり、値自体の大きさと散らばり具合の大きさを同じ尺度で比較することができる。日本では学力試験のいわゆる偏差値を算出するのに用いられている。
クロス集計 ⭐⭐
複数の項目からなるデータの集合があるときに、そのうちの2つ(ないし3つ)の項目を組み合わせて2次元の表の形で集計すること。項目間の関係や相関、傾向などを見やすくまとめることができる。
2つの項目でクロス集計する場合、一方の項目を縦軸、もう一方を横軸として、それぞれについて選択肢を並べる。各マス目には、縦軸と横軸の選択肢を同時に満たすデータを数えて集計値として書き入れていく。
例えば、「性別」「喫煙」の2項目のアンケートがあるとき、単純集計では「喫煙○」と「喫煙×」の数を集計するが、クロス集計表では縦軸を「男性」「女性」、横軸を「喫煙○」「喫煙×」として4つの値を集計する。
さらに、飲酒についても同時に尋ね、縦軸を「男性・飲酒○」「男性・飲酒×」「女性・飲酒○」「女性・飲酒×」の4つに分解し、3項目について同時に集計することを「多重クロス集計」という。
代表的な表計算ソフトのMicrosoft Excel(マイクロソフト・エクセル)では、ロス集計機能のことを「ピボットテーブル」(pivot table)、これをグラフ化する機能を「ピボットグラフ」(pivot chart)という。
相関関係 ⭐⭐⭐
2つの事象に関わりがあり、一方が変化するともう一方も変化するような関係のこと。特に、何らかの規則性に基づいて双方の変化が連動しているような関係を指す。
「冬の気温と桜の開花日」や「親の身長と子の身長」のように、傾向として片方が増えるともう片方も増える、あるいは逆に片方が増えるともう片方は減るといった関係性が見られるとき、両者の間に「相関がある」あるいは、両者は「相関関係にある」という。
一方、片方が原因となってもう一方の変化が引き起こされる関係性を「因果関係」という。相関関係は因果関係を含む概念で、因果があれば必ず相関もあるが、相関があるからといって必ずしも因果もあるとは限らない。
統計学では2つのデータ系列の分布について、一方の値が高ければ高いほどもう一方の値も高くなる(同じ方向に連動する)関係を「正の相関」、一方の値が高ければ高いほどもう一方の値は低くなる(逆方向に連動する)という関係を「負の相関」という。
2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば完全な正の相関、「0」ならば相関なし、「-1」ならば完全な負の相関があることを表す。
因果関係 ⭐
2つの事象が原因と結果の関係になっていること。一方の事象に起因して、ある特定の機序によってもう一方の事象が生起されるような関係。
「降水量が増えると川が増水する」といったように、ある事象が別の事象の原因となっているような関係である。「降水量の増大」と「川の増水」の間には「降った雨水が川に流れ込む」という機序が存在する。
一方、2つの事象の変化の間に「一方が変化するともう一方も変化する」という傾向が存在する場合、これを「相関関係」あるいは略して「相関」という。相関は因果を含む概念で、因果関係にある事象間には必ず相関もある。逆に、相関があるからと言って両者に因果があるとは限らない。
例えば、河川敷の湿度と川の水位の変化に相関が見られたとして、「湿度上昇によって水位上昇が引き起こされた」あるいは「水位上昇によって湿度上昇が引き起こされた」とは言えない。両者は共に「降水」という共通の原因の結果に過ぎないからである。このように両方に影響する外部の要因を「交絡因子」という。
正の相関 ⭐
相関関係の一種で、2つのデータ系列の間に、片方が増えるともう片方も増えるという関係があること。
2つの事象に関わりがあり、片方が変化するともう片方も変化する関係を「相関」という。正の相関は片方が増えるともう片方も増える、片方が減るともう片方も減るという同じ方向に変化する関係を指す。2つの系列を散布図で表すと右肩上がりの分布になる。
一方、片方が増えるともう片方は減るといったように、互いに逆方向へ変化する関係を「負の相関」という。散布図では右肩下がりの分布が現れる。正の相関も負の相関も見られず、変化の傾向になんの類似性も無い場合は「相関なし」となる。
2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば「完全な正の相関」、「0」ならば相関なし、「-1」ならば「完全な負の相関」があることを示す。相関係数が0.2~0.4程度の関係を「弱い正の相関」、0.7~0.9程度の関係を「強い正の相関」と呼ぶことがある。
負の相関 ⭐
相関関係の一種で、2つのデータ系列の間に、片方が増えるともう片方は減るという関係があること。
2つの事象に関わりがあり、片方が変化するともう片方も変化する関係を「相関」という。負の相関は相関のうち、片方が増えるともう片方は減るといったように、双方が互いに逆の方向に変化するような関係を指す。2つの系列を散布図で表すと右肩下がりの分布になる。
一方、片方が増えるともう片方も増えるといったように、互いに同じ方向へ変化する関係を「正の相関」という。散布図では右肩上がりの分布が現れる。負の相関も正の相関も見られず、変化の傾向になんの類似性も無い場合は「相関なし」となる。
2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば「完全な正の相関」、「0」ならば相関なし、「-1」ならば「完全な負の相関」があることを示す。相関係数が-0.2~-0.4程度の関係を「弱い負の相関」、-0.7~-0.9程度の関係を「強い負の相関」と呼ぶことがある。
相関なし
2つの事象の間に、片方が変化するともう片方も変化するという関係性(相関)が見られないこと。統計解析では2つのデータ系列の間に直線的な関係がないことを意味する。
2つの事象に関わりがあり、片方が変化するともう片方も変化するような関係を「相関」という。片方が増えるともう片方が増える関係を「正の相関」、片方が増えるともう片方は減る関係を「負の相関」という。
2つのデータ系列があるとき、その分布どの程度相関しているかは相関係数という値を算出することにより調べることができる。2つの系列の共分散と標準偏差から求めることができ、-1から1の間の実数で表される。
相関係数が1ならば完全な正の相関、-1ならば完全な負の相関があり、きれいな正比例の関係にある。 という1次関数の形で関係を記述することができる。相関係数が0の場合は両者の分布に関係性が一切見られないことを示している。この状態を「無相関」あるいは「相関なし」という。
一方、確率変数についても相関の概念があり、確率変数 について という関係が成り立つとき、両者は無相関であるという。これは両者の間に直線的な関係がないことを表しており、事象が独立であることとは異なる。独立であれば相関もないが、相関がないからといって独立とは限らない。
テキストマイニング ⭐⭐⭐
定型化されていない文字情報(テキストデータ)の集まりを自然言語解析などの手法を用いて解析し、何らかの未知の有用な知見を見つけ出すこと。
「データマイニング」(data mining)の手法を非定型のテキストデータに応用したもので、自然言語の文の蓄積として集められたデータを分析し、鉱山から鉱石などを掘り出す(mining)ように、業務や製品に役立つ情報を探し出す。
目的や具体的な技術は様々だが、多くの場合、文章に形態素解析を行ってテキストを単語やフレーズに分解し、特定の表現の出現頻度やその増減、複数の表現の関連性や時系列の変化などを調べる。
これにより、知られていなかった問題点を見出したり、様々な要素や要因の間の結びつきを可視化したり(共起ネットワーク分析)、顧客や消費者の評判(肯定的か否定的か)や時系列の推移を把握したりする(センチメント分析)ことができる。
対象となるデータの例として、アンケートや報告書などに含まれる自由記述の文章、電子掲示板(BBS)やSNSの書き込み、ニュース記事、OCRでスキャンしてテキストデータ化した過去の書籍、雑誌、新聞の記事などが挙げられる。
散布図 ⭐⭐⭐
一つのデータが複数の量や特性の組として表される場合に、二つの値の間の関係を明らかにするために作成される図。縦軸と横軸にそれぞれ別の特性を割り当て、各データについて対応する位置に点を打って作図する。
点の分布する様子を見て、データを構成する二つの量の間に関連があるか、どのような関連があるかを知ることができる。例えば、点が右上がりの帯状に分布していれば正の相関があると分かり、(左上から)右下がりなら負の相関があると分かる。まんべんなく散らばっていれば相関が薄いか無さそうであると考えられる。
全体の傾向から大きく外れた特異点(外れ値)がどこにあるかも容易に知ることができ、これを除外して計算を行ったり、外れた理由を詳しく調べたりすることもある。また、全体に当てはまる傾向を調べるだけでなく、点の集まり具合から二つの量の関係が同じ傾向を示している項目群をグループ分け(グルーピング)するといった使い方をする場合もある。
ヒストグラム ⭐⭐⭐
データの分布を表す統計図の一つで、縦軸に値の数(度数)、横軸に値の範囲(階級)を取り、各階級に含まれる度数を棒グラフにして並べたもの。どの範囲の値が多く、どの範囲が少ないかを視覚的に表現できる。
値の出現頻度の高い階級は高い棒で、低い階級は低い棒で図示されるため、出現頻度の高低やバラつき具合を視覚的に容易に把握できる。各階級の度数を示す棒のことを「ビン」(bin)と呼ぶことがある。
すべてのビンの面積の総和が全体の度数を表しており、各ビンの面積は全体に占めるその階級の度数の割合を視覚的に表現したものとなっている。同じデータ群でも階級の幅の取り方次第でビンの形状や分布は異なるが、どのような基準で区分すべきかについて様々な方法論が提唱されている。
また、手前のすべての区間の度数を足し合わせた累計値をその区間の度数とし、これを右肩上がりの棒グラフの列で示したものを「累積ヒストグラム」(cumulative histogram/累積度数図)という。端からどの区間までが重要かを見極める場合などに利用される。
度数分布図
データの分布を表す統計図の一つで、縦軸に値の数(度数)、横軸に値の範囲(階級)を取り、各階級に含まれる度数を棒グラフにして並べたもの。どの範囲の値が多く、どの範囲が少ないかを視覚的に表現できる。
値の出現頻度の高い階級は高い棒で、低い階級は低い棒で図示されるため、出現頻度の高低やバラつき具合を視覚的に容易に把握できる。各階級の度数を示す棒のことを「ビン」(bin)と呼ぶことがある。
すべてのビンの面積の総和が全体の度数を表しており、各ビンの面積は全体に占めるその階級の度数の割合を視覚的に表現したものとなっている。同じデータ群でも階級の幅の取り方次第でビンの形状や分布は異なるが、どのような基準で区分すべきかについて様々な方法論が提唱されている。
また、手前のすべての区間の度数を足し合わせた累計値をその区間の度数とし、これを右肩上がりの棒グラフの列で示したものを「累積ヒストグラム」(cumulative histogram/累積度数図)という。端からどの区間までが重要かを見極める場合などに利用される。
表計算ソフト ⭐⭐
データが並んだ表を作成・編集することができるアプリケーションソフト。表中の項目間で集計や解析を行ったり、グラフに表したりすることができる。
縦横に並んだマス目(セル)の広がる表を用い、各セルにデータや計算ルールなどを入力・設定していくと、ソフトウェアが自動的に計算や処理を実行し、所定の位置に計算結果を代入したり、グラフを描画したりしてくれる。
このマス目の並んだ表のことを「スプレッドシート」(spreadsheet)あるいは「ワークシート」(worksheet)と呼び、一つのファイルに複数のシートを収めることができる。表計算ソフト自体を指してスプレッドシートと呼ぶこともある。
計算ルールには特定範囲の合計や平均を算出するといった単純なものから、数学的な関数や統計関数、財務関数などが利用できる。数値を扱う関数以外にも、日付や時刻を扱う関数、論理式を扱う関数、文字列を操作する関数、特定の条件を満たす値を数え上げる関数など、様々な種類がある。
表に貼り付けるように矩形の領域を設けて内部にグラフを描画する機能があり、特定の範囲のデータを対象にして折れ線グラフや棒グラフ、円グラフ、散布図などを描くことができる。セルの内容を変更すると、追随してすぐにグラフに反映されるようになっている。
行や列の幅や高さを変更したり、先頭のセルに項目名を記載したり、表やセルに枠線や背景色、文字書式、表示形式などを設定して見栄えを整える機能もあり、ファイルとして配布して入力フォームに利用したり、そのまま印刷して資料や帳票などとして用いる場合もある。
製品
パソコン向けの表計算ソフトとしては、米マイクロソフト(Microsoft社)のオフィスソフト「Microsoft Office」の一部として提供される「Microsoft Excel」(マイクロソフト・エクセル)が世界的に最も有名でシェアが高く、「Excel」を表計算ソフトの代名詞のように扱うこともある。
他にも、米アップル(Apple)社の「Numbers」や、オープンソースのLibreOfficeやApache OpenOfficeに含まれる「Calc」などが知られる。米グーグル(Google)社の「Google Sheets」(日本名は「Googleスプレッドシート」)のようにWebブラウザで操作できるネットサービスもある。
行 ⭐
文字が縦あるいは横に一直線上に連なったもの。また、表や数学の行列のように縦横に整然と複数の要素が並んでいるときに、横方向・水平方向の並びのこと。
長い文章を紙面などに記すときに、文字を読み進める方向(縦書きの場合は縦、横書きの場合は横)に並んだ文字の連なりの一本一本のことを行(line)という。
一文が紙幅や画面の表示範囲の幅を超える場合、行の終わりの文字の続きを次行の先頭から開始する「折り返し」が行われる。段落の末尾などでは、行の途中で終わった文の右側を空白とし、次の文を次行の冒頭から始める「改行」が行われる。
表や行列の行
ソフトウェアの表示・操作画面で、碁盤目状の表の形で項目を整理する場合、横方向に並んだ項目の連なりを「行」(row)、縦方向の連なりのことを「列」(column)、という。
リレーショナルデータベース(RDB:Relational Database)では、一件のデータを複数の属性(attribute)の値の組(tuple/タプル)として表現するが、この一組のデータ群を行(row)あるいはレコード(record)という。各行の同じ属性の要素を集めた集合のことは列(column)という。表の形で表したときに要素の組を横方向に、同じ属性の要素を縦方向に並べるためこのように呼ばれる。
列 ⭐
同種の複数のものを規則正しく順番に並べたもの。また、表のように縦横に整然と複数の要素が並んでいるときに、縦方向や垂直方向の並びのこと。
表における行と列
ソフトウェアの操作画面やWebページなどで、データなどを表の形でまとめる場合に、縦方向に並んだ項目の連なりのことを「列」(column)、横方向の連なりを「行」(row)という。HTMLのtable要素では、各行のtr要素で同じ位置にあるtd要素やth要素が列を構成する。colgroup要素とcol要素で共通の属性やスタイルを指定することができる。
データベースにおける行と列
リレーショナルデータベース(RDB:Relational Database)では、一件のデータを複数の属性(attribute)の値の組(tuple:タプル)として表現するが、この属性のことや、表内のある属性の集合のことを列(column:カラム、コラム)と呼ぶことがある。
データの集合を表(table:テーブル)の形で表した時に、データの組を縦に並べて表示するが一般的であることからこのように呼ばれる。同様に、表であらわすと横の並びになる一件のデータの組のことを行(row)と呼ぶ。
データ列
プログラミングやデータ形式、データ通信などの分野では、ある同じ種類の複数のデータが順番に並んだ構造のデータを「数値列」「文字列」「ビット列」「バイト列」のように呼ぶことがある。
これは表の縦の並びの意味ではなく、日常生活で窓口に並んだ人の列のように「順に並べたもの」の意味である。英語では文字列などを “string” (ストリング)、配列などを “array” (アレイ)、終わりの決まっていない連続的なデータの流れを “stream” (ストリーム)という。
絶対参照 ⭐⭐
表計算ソフトでセルを指定する方法の一つで、ワークシート内の絶対位置を指定するもの。どのセルからでも同じ表記で特定のセルを指し示すことができる。
代表的な表計算ソフトのMicrosoft Excelでは、セル内の関数や計算式などで「$A$1」のように「$」(ドル記号)に続けて列番号(アルファベット)や行番号を記述すると、絶対参照となる。他のソフトウェアでもこれにならって同じ記法を採用しているものがある。
絶対参照では参照先となるセルの位置は固定されており、参照元となるセルの値を他のセルにコピーしても、常に参照先となるセルの位置は同じである。一方、そのセルからの相対位置でセルを指し示す方式もあり「相対参照」(relative reference)という。「$A1」「A$1」のように列のみ、あるいは行のみを絶対参照とし、もう片方を相対参照とすることもできる。
降順 ⭐
数字やアルファベット、ひらがな・カタカナ、日付、時刻、曜日など順序や方向が決まっている要素の列について、本来とは逆の順序のこと。「3、2、1」「C、B、A」「う、い、あ」といった並び方。
データの並べ替え(ソート)における順序の指定などに用いられる概念で、大きい方から小さい方へ、あるいは本来の並び順における末尾側から先頭側へ「降(お)りていく」順序のことを意味する。英語の “descending order” を略した “DESC” “desc” などの略号で示されることもある。
数字であれば9、8、7…と大きい値から小さい値へ、アルファベットであれば「Z」から「A」に向けて、カナであれば「ン」から「ア」に向けて、日付や時刻であれば未来側・新しい側から過去側・古い側に向けて並べる順序である。
一方、小さい方から大きい方へ、あるいは本来の並び順の通りに並べる順序は「昇順」(ascending order)という。「1、2、3」「A、B、C」「あ、い、う」といった本来定められた並び順のことである。
昇順 ⭐
数字やアルファベット、ひらがな・カタカナ、日付、時刻、曜日など順序や方向が決まっている要素の列について、本来定められた順序のこと。「1、2、3」「A、B、C」「あ、い、う」といった並び方。
データの並べ替え(ソート)における順序の指定などに用いられる概念で、小さい方から大きい方へ、あるいは本来の並び順における先頭側から末尾側へ「昇(のぼ)っていく」順序のことを意味する。英語の “ascending order” を略した “ASC” “asc” などの略号で示されることもある。
数字であれば1、2、3…と小さい値から大きい値へ、アルファベットであれば「A」から「Z」に向けて、カナであれば「ア」から「ン」に向けて、日付や時刻であれば過去側・古い側から未来側・新しい側に向けて並べる順序である。
一方、大きい方から小さい方へ、あるいは本来の並び順とは逆に並べる順序は「降順」(descending order)という。「9、8、7」「Z、Y、X」「ん、を、わ」といった本来とは逆の並び順のことである。
オートフィル ⭐
表計算ソフトなどの機能の一つで、規則性のある入力値を、選択した範囲に連続して自動的に当てはめてくれる機能。
表中のある項目(セル)に特定の値を入力して選択状態にし、そのままマウスなどのドラッグ操作で縦あるいは横に選択領域を広げていくと、新たに選択された項目に次々に連続した値が入力されていく。
例えば、1から1000までの整数を順に入力する時、一つ一つ手動で入力していくと大変だが、オートフィル機能を使うと、「1」「2」まで入力して両者をマウスで範囲選択し、端をドラッグしていくと、隣接する空白の領域に「3」「4」「5」…と次々に値を入力してくれる。
規則性はあらかじめ入力済みの項目からソフトウェア側が自動的に推定し、最初の値が「1,3,5」であれば「7,9,11…」のように埋めてくれる。数値だけでなく日付や曜日など順序性のあるデータを入力することができる。文字列など規則性が明らかでないデータの場合は既存の入力箇所のコピーを繰り返し行う(東京,大阪,名古屋→東京,大阪,名古屋,東京,大阪,名古屋…)動作となる。