高校「情報Ⅰ」単語帳 - 実教出版「図説情報Ⅰ」 - データの収集・整理・分析

量的データ 【量的変数】 ⭐⭐⭐

調査や観測などで得られたデータのうち、物事の量的な側面を表す数値データのこと。長さ、重さ、人数、金額など大小や高低の程度を反映したデータである。

数で表され、数の大きさが量の多寡や性質の強さ、度合いを反映しているようなデータをこのように呼ぶ。物事の質的な側面を表す「質的データ」(質的変数)と対比される。

量的データを測る尺度のうち、数の間隔に意味があるものを「間隔尺度」という。数の間隔が量の大きさを反映している尺度で、温度の摂氏(℃)や年号などが当てはまる。原点が量的な「0」を表さないため値同士の比率には意味がない。

一方、間隔だけでなく値そのものの比に意味があるような尺度を「比例尺度」という。数がそのまま量の大きさを反映しているような尺度で、長さ、面積、体積、重さ、時間、速度、絶対温度、人数、金額など多くの量的データは比例尺度で表される。数で表されていても、数が順序や順位しか表さない、ランキングや段階評価、段位のような「順序尺度」のデータは含まない。

質的データ 【質的変数】 ⭐⭐⭐

調査や観測などで得られたデータのうち、物事の質的な側面を表すデータのこと。数で表されないような記録や、数値の場合は値自体や値同士の差の比率には意味がないようなデータである。

性別や血液型、「はい」「いいえ」を選択するアンケート項目、色、形状など、結果を数値で表すことができないデータや、数字で表されていても自動車ナンバーや電話番号のように大小に意味がない「名義尺度」のデータが含まれる。物事の量的な側面を表す「量的データ」(量的変数)と対比される。

また、数の大小が順位や順序を表していても、間隔や比には意味がない「順序尺度」の数値データも質的データに分類される。例えば、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級などは、上位と下位の区別はできても度合いを数量比較することはできないため質的データに分類される。

外れ値 ⭐⭐⭐

調査や測定、観測などで同種のデータをいくつも取得したとき、全体のデータの傾向から大きく外れた値のこと。統計処理などの際に一定の基準を設けて除外することがある。

収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを外れ値という。このうち、測定機器の不具合や記入ミスなど、何らかの誤りによっておかしな値になってしまったものは「異常値」という。対象や方法によって、異常値と異常値以外の外れ値を区別できる場合とできない場合がある。

外れ値を含んだデータをそのまま分析すると、平均値や相関係数などの統計量に大きな影響を与え、歪んだ結果が導き出されることがある。このため、一定の基準を設けて外れ値を取り除く操作を行うことがある。

よく用いられる手法として、箱ひげ図を描いて「第1四分位数-箱の幅×1.5以下」「第3四分位数+箱の幅×1.5以上」のデータを外れ値と判定する方法がある。また、平均値や標準偏差などから特定の統計量を算出し、基準値を設けて判定する方法もある。こうした検定にはスミルノフ・グラブス検定やトンプソン検定などが知られている。

なお、用意した結論に都合のよいデータのみを残してそれ以外を外れ値として排除することはデータの改竄とみなされる可能性があるため値の削除は慎重に行う必要がある。どんな調査や観測でも、現実の対象を調べれば全体の傾向から外れたサンプルが存在するのは普通のことであるため、異常値として理由が説明できる値以外は恣意的に取り除くべきではないとする考え方もある。

欠損値 【欠測値】 ⭐⭐⭐

調査や測定、観測などでデータを収集した際、あるデータの記録場所を参照してもデータが記録されておらずに欠けていること。一定周期で観測値を記録するシステムでデータが欠けた時刻がある場合などが該当する。

観測において、装置の不具合や操作ミスなどで測定値が得られなかった状態や、調査において特定の記入項目が空欄で記載されていない状態などを指す。値は存在するが傾向から大きく外れている「外れ値」や、装置故障やミスなどでおかしな値になってしまった「異常値」とは異なる。

観測における欠測などは機械的に取り除いて分析することが多いが、調査では記入が任意の項目が複数ある場合などに完全にデータが揃っているサンプルが十分な数揃わないこともある。そのような場合には欠損の多い項目を解析から外したり、平均値などの代表値で穴埋めしたり、他の項目の値が似ているサンプルのデータで補完するといった操作を行うことがある。

尺度 ⭐⭐

対象の測定や計量、評価などを行うときの基準。特に、結果を数字に対応付けるための規則を指すことが多い。定規やメジャーなど長さを測る道具を尺度水準と呼ぶこともある。

尺度水準 (level of measurement)

統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。

「名義尺度」(類別尺度)は対象や状態を区別するためだけに(便宜上の)数字を割り当てたもので、値が同じか異なるかしか評価することができない。順序や大きさ、比率などに意味はなく、計算を行うこともできない。例えば、電話番号の国番号は米国が1、日本が81だが、日本が何かの大きさで81位であるとか、何かが米国の81倍であるというわけではない。

「順序尺度」は数字の大小が順序を表すような尺度である。大きさを比較したり順位を付けることができるが、他の値との差や比率には意味がなく、計算を行うことはできない。競技の順位、成績やアンケートなどの5段階評価、検定制度の段位や級などが該当する。「将棋8段は4段より強い」とは言えるが、「2倍強い」といった比較はできない。

「間隔尺度」は数字が順序を表すとともに間隔に意味があるような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、「0」で表される点は便宜上置いたもので、値の比には意味がない。例えば、摂氏5度が15度になるのと15度が25度になるのは同じ幅だけ温度が上昇したと言えるが、摂氏15度は5度の3倍の温度やエネルギーであるとは言えない。

「比例尺度」(比率尺度)は数字が順序や間隔を表すともに、「0」に原点としての意味があり、値の比や割合も議論することができる尺度である。長さ、重さ、時間、速度、絶対温度などの物理量、金額などが該当する。これらの尺度水準には上下関係があり、名義、順序、間隔、比例の順に水準が高くなる。高い水準の尺度は自身より低い水準の尺度を兼ねている。

比例尺度 【比率尺度】 ⭐⭐

統計などで用いられる数値データの尺度のうち、数字が順序や間隔を表すともに、値の比や割合も議論することができるもの。

統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。

比例尺度は最も高い水準の尺度で、数字がそのまま何らかの量の大きさを表している。値の「0」は「存在しない」ことを表す原点であり、値の間隔や比には意味がある。加減乗除などの計算も行うことができ、すべての統計量を使うことができる。

例としては、長さや面積、体積、重さ、時間、速度、絶対温度などの物理量、金額、個数などが該当する。一段階低い水準の間隔尺度である摂氏では27℃が54℃になったからといって温度が2倍になったとは言えないが、絶対温度600K(約327℃)は300K(約27℃)の2倍の温度と言うことができる。

順序尺度 ⭐⭐⭐

統計などで用いられる数値データの尺度のうち、数字の大小が順番や順位を表すようなもの。大小や高低、前後の比較はできるが、値の差や比には意味がない。

統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。

順序尺度は名義尺度に次いで2番目に低い水準の尺度で、数字の大小で順序を表すことができる。大きさを比較したり順位を付けることができるが、値同士の差や他の値との比、割合などには意味がなく、値の計算を行うこともできない。統計量としては度数や最頻値に加え、中央値や四分位数、パーセンタイルなどが使用できる。

例としては、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級、自動車保険の等級、がんのステージ、国際原子力事象評価尺度などが該当する。「将棋8段は4段より強い」とは言えるが、「2倍強い」といった比較はできない。

間隔尺度 ⭐⭐⭐

統計などで用いられる数値データの尺度のうち、数字の大小が順序を表すと共に、2つの値の差の大きさに意味があるもの。値の比には意味がない。

統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。

間隔尺度は比例尺度についで2番目に高い水準の尺度で、数字の間隔が量の大きさを表すような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、「0」で表される点は量が0になる原点ではなく便宜上置いたものである。値自体の比には意味がないが、値の差同士の比には意味がある。統計量としては最頻値や中央値、パーセンタイルなどに加え、平均値(相加平均)や標準偏差、相関係数なども使うことができる。

例としては、温度の摂氏(℃)や華氏、西暦や元号で表した年、日付などがある。15℃が20℃になるのと20℃が30℃になるのでは2倍の温度上昇が生じたと言うことができるが、15℃が30℃になったのを温度が2倍に上昇したと言うことはできない。

名義尺度 【類別尺度】 ⭐⭐⭐

統計などで用いられる数値データの尺度のうち、対象や状態を区別するためだけに(便宜上の)数字を割り当てたもの。値は順番や順位を意味せず、値の差や比にも意味はない。

統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。

名義尺度は最も低い水準の尺度で、数字は対象や状態を識別する名前の役割しか果たさず、量的な意味合いを一切もたない。値が同じか異なるかを見分けるためだけに使用することができ、順序、間隔、大きさ、比率などを表すことはできず、値の計算にも意味がない。統計量としては各値の度数や出現頻度、最頻値などを求めることはできる。

例としては、電話番号や郵便番号、学籍番号、背番号、国際電話の国番号、総務省の都道府県コードなどがある。例えば、都道府県コードで「10」が群馬県、「20」が長野県だが、群馬県が何かで10位であるとか、長野県の何かが群馬県の2倍であるといった意味はない。

AND検索 【アンド検索】

情報を検索する際の条件の指定方法の一つで、複数の条件をいずれも満たすものを検索すること。

条件AとBがあるとき、検索条件を「A and B」と指定すると、「AとBの両方の条件を満たす」という意味になる。条件が3つ以上の場合も同様で、挙げられたすべてを満たすという意味になる。

Web検索エンジンのキーワード指定では、キーワードを半角スペースで区切るとAND検索の指定を意味することが多く、列挙したキーワードすべてを含むページを検索せよという意味になる。例えば、「スクリーンショット Android」と検索すると、「スクリーンショット」と「Android」の両方を含むページが検索される。

一方、挙げられた条件の少なくとも一つを満たすものを検索することは「OR検索」、ある条件を満たさないものを検索することは「NOT検索」という。

OR検索 【オア検索】

情報を検索する際の条件の指定方法の一つで、複数の条件のうち少なくともいずれか一つを満たすものを検索すること。

条件AとBがあるとき、検索条件を「A or B」と指定すると、「AとBのいずれかの条件を満たす」という意味になる。条件が3つ以上の場合も同様で、挙げられた条件の少なくともいずれか一つを満たすという意味になる。

Web検索エンジンのキーワード指定では、キーワードを「|」(縦棒、縦線、バーティカルバーなどと呼ばれる)で区切るとOR検索の指定を意味することが多く、列挙したキーワードのいずれかを含むページを検索せよという意味になる。例えば、「iPad|Androidタブレット」と検索すると、「iPad」と「Androidタブレット」のどちらか、あるいは両方を含むページが検索される。

一方、挙げられた条件のすべてを満たすものを検索することは「AND検索」、ある条件を満たさないものを検索することは「NOT検索」という。

NOT検索 【マイナス検索】

情報を検索する際に条件を指定する方法の一つで、ある条件を満たさないものを検索すること。

条件Aについて検索条件を「not A」と指定すると、「Aを満たさない」という意味になる。通常は他の検索条件と組み合わせ、得られた検索結果から特定の条件に一致するものだけを除外するために用いられる。

一方、複数の検索条件を列挙して「すべてを満たす」ものを検索する指定方法は「AND検索」(アンド検索)、「少なくとも一つを満たす」ものを検索する指定方法は「OR検索」(オア検索)という。

検索エンジンのマイナス検索

Web検索エンジンのキーワード指定では、キーワードの先頭に「-」(ハイフン、マイナス記号)を付けるとNOT検索の意味になる記法を採用していることが多く、「マイナス検索」とも呼ばれる。

通常は他のキーワードや検索条件と組み合わせて検索結果を絞り込むのに用いられる。例えば、「アリ -シロアリ」と検索すると、「アリ」を含むWebページから「シロアリ」を含むものを除外したページ一覧が表示される。

データサイエンス

統計解析や数理解析、コンピュータによる処理などを駆使して大量のデータを解析・分析し、有用な知見を導く手法を研究する学問領域。

現代ではコンピュータや通信技術の発達で大量のデータの記録や蓄積、伝送が可能となった。これを様々な手法を駆使して処理、解析し、学術研究やビジネスなど人間の社会的な活動にとって有用な知見を導き出す方法論を研究するのがデータサイエンスである。

人間の知的活動と機械によるデータ処理を橋渡しするという性質上、様々な既存の学問や技術を横断的に活用する学際的な側面を持っている。統計や数理解析、線形代数、機械学習、データモデリングなどの数理科学やコンピュータ科学の知見、データベース操作やデータ形式の理解、プログラミング、データ加工・変換・処理といったエンジニアリング領域の技法が総合的に求められる。

データサイエンスを修め、あるいは研究する人材を「データサイエンティスト」(data scientist)という。日本では2011年頃からビッグデータ活用の重要性が叫ばれるようになるなか、データ活用を推進する具体的な人材像として2013年頃からデータサイエンティストという職種が認識され始めた。十分な技能を持ったデータサイエンティストは常に人材不足であるとされ、今後もそのニーズは高まっていくと予想されている。

ビッグデータ ⭐⭐⭐

従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。

多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。

今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。

米大手IT調査会社ガートナー(Gartner)社では、ビッグデータを特徴づける要素として、データの大きさ(Volume)、入出力や処理の速度(Verocity)、データの種類や情報源の多様性(Variety)を挙げ、これら3つの「V」のいずれか、あるいは複数が極めて高いものがビッグデータであるとしている。これに価値(Value)や正確性(Veracity)を加える提案もある。

コンピュータやソフトウェアの技術の進歩は速く、具体的にどのような量や速度、多様さであればビッグデータと言えるかは時代により異なる。ビッグデータという用語がビジネスの文脈で広まった2010年代前半にはデータ量が数テラバイト程度のものも含まれたが、2010年代後半になるとペタバイト(1000テラバイト)級やそれ以上のものがこのように呼ばれることが多い。

近年ではスマートフォンやSNS、電子決済、オンライン通販の浸透により人間が日々の活動で生み出す情報のデータ化が進み、また、IoT(Internet of Things)やM2M、機器の制御の自動化などの進展により人工物から収集されるデータも爆発的に増大している。

また、人工知能(AI)の構築・運用手法として、膨大なデータから規則性やルールなどを見出し、予測や推論、分類、人間の作業の自動化などを行う機械学習(ML:Machine Learning)、中でも、多階層のニューラルネットワークで機械学習を行う深層学習(ディープラーニング)と呼ばれる手法が台頭している。

このような背景から、膨大なデータを的確、効率的に扱う技術上の要請はますます高まっており、統計やデータ分析、大容量データを扱う手法やアルゴリズムなどに精通した「データサイエンティスト」(data scientist)と呼ばれる専門職の育成が急務とされている。

データマイニング

蓄積された大量のデータを統計学や数理解析などの技法を用いて分析し、これまで知られていなかった規則性や傾向など、何らかの未知の有用な知見を得ること。

「マイニング」(mining)とは「採掘」の意味で、膨大なデータの集積を鉱山に、そこから有用な知見を見出すことを資源の採掘になぞらえている。適用分野や目的、対象となるデータの種類は多種多様だが、ビジネスの分野では企業が業務に関連して記録したデータ(過去の取引記録、行動履歴など)を元に、意思決定や計画立案、販売促進などに有効な知見を得るために行われることが多い。

例えば、小売店の商品の売上データの履歴は、それ自体は会計上の手続きや監査などの業務にしか使われないが、データマイニングの手法で統計的に処理することで、これまで知られていなかった「商品Aと商品Bを一緒に購入する顧客が多い」といった傾向が分かる場合がある。これにより、AとBの売り場を統合するといった販売促進施策を行うことが可能となる。

商業分野だけでなく、自然言語処理やパターン認識、人工知能などの研究などでも利用される。分析・解析の手法も様々だが、代表的な手法としては、頻度の高いパターンの抽出や、相関関係にある項目の組の発見、データの特徴や共通点に基づく分類、過去の傾向に基づく将来の予測などがある。

近年では、一般的なシステムやソフトウェアでの解析が困難な巨大なデータセットである「ビッグデータ」を対象とした解析手法や、人工知能の一分野である機械学習、特に先進的な手法である「ディープラーニング」を応用したマイニング手法などが活発に研究・開発されている。

中央値 【メジアン】 ⭐⭐

値の集団があるとき、最大値から最小値まで順に整列したとき順位がちょうど真ん中である値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。

値を大きい順あるいは小さい順に並べた時、ちょうど真ん中にある値が中央値である。値が偶数個の場合は中央の値が2つになるため、両者の平均値(算術平均)を中央値とする。例えば、「0, 5 ,1, 9, 7」という値の集合がある場合、大きい順でも小さい順でもちょうど3番目が「5」となり、これが中央値となる。

代表値としては値を均した「平均値」(算術平均/相加平均)を用いることが多いが、平均値は極端な値が含まれる場合にその影響を受けやすいという難点がある。例えば、10軒の家があって9軒は車を1台所有しており、残り1軒が11台所有している場合、1軒あたりの平均所有台数は「2台」となるが、実際に2台以上所有しているのは1軒だけである。

このような場合、中央値は5位と6位の中間、すなわち「1台」となり、大半の家が1台のみである実態をよく表している。ただし、時系列の比較などを行う場合、中央値は中央付近の値の動向しか反映しないため、全体の変化の傾向などを表すのには不向きである。

集団の代表値としては平均値、中央値の他にも、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)を用いることがある。先の車の所有台数の例では最頻値も「1台」である。

四分位数 【第1四分位数】

数値データの集合を小さい順に並べ、同じ数ずつ4等分したときに、区切りとなる3つの値。下から1/4、1/2(中央)、3/4(上から1/4)の位置にある値である。

データを小さい順(昇順)に並べ、同じ個数ずつ4等分する。最も小さい側から1/4となる位置にある数を「第1四分位数」、ちょうど半分の位置にある数を「第2四分位数」、小さい側から3/4の位置にある数を「第3四分位数」という。第2四分位数は中央値に等しくなる。

下から何パーセントの位置にある値かを表す表現である「パーセンタイル」(percentile)を用いると、第1四分位数は「25パーセンタイル」、第2四分位数は「50パーセンタイル」、第3四分位数は「75パーセンタイル」に相当する。

第3四分位数から第1四分位数を引いた値を「四分位範囲」(quartile range)という。この値が小さいほど中心付近にデータが集中し、上位側と下位側のデータが少ないことを表している。四分位範囲の値の半分を「四分位偏差」(quartile deviation)と呼び、散らばり具合の指標としてこちらを用いる場合もある。

四分位数 【第1四分位数】

数値データの集合を小さい順に並べ、同じ数ずつ4等分したときに、区切りとなる3つの値。下から1/4、1/2(中央)、3/4(上から1/4)の位置にある値である。

データを小さい順(昇順)に並べ、同じ個数ずつ4等分する。最も小さい側から1/4となる位置にある数を「第1四分位数」、ちょうど半分の位置にある数を「第2四分位数」、小さい側から3/4の位置にある数を「第3四分位数」という。第2四分位数は中央値に等しくなる。

下から何パーセントの位置にある値かを表す表現である「パーセンタイル」(percentile)を用いると、第1四分位数は「25パーセンタイル」、第2四分位数は「50パーセンタイル」、第3四分位数は「75パーセンタイル」に相当する。

第3四分位数から第1四分位数を引いた値を「四分位範囲」(quartile range)という。この値が小さいほど中心付近にデータが集中し、上位側と下位側のデータが少ないことを表している。四分位範囲の値の半分を「四分位偏差」(quartile deviation)と呼び、散らばり具合の指標としてこちらを用いる場合もある。

四分位数 【第1四分位数】

数値データの集合を小さい順に並べ、同じ数ずつ4等分したときに、区切りとなる3つの値。下から1/4、1/2(中央)、3/4(上から1/4)の位置にある値である。

データを小さい順(昇順)に並べ、同じ個数ずつ4等分する。最も小さい側から1/4となる位置にある数を「第1四分位数」、ちょうど半分の位置にある数を「第2四分位数」、小さい側から3/4の位置にある数を「第3四分位数」という。第2四分位数は中央値に等しくなる。

下から何パーセントの位置にある値かを表す表現である「パーセンタイル」(percentile)を用いると、第1四分位数は「25パーセンタイル」、第2四分位数は「50パーセンタイル」、第3四分位数は「75パーセンタイル」に相当する。

第3四分位数から第1四分位数を引いた値を「四分位範囲」(quartile range)という。この値が小さいほど中心付近にデータが集中し、上位側と下位側のデータが少ないことを表している。四分位範囲の値の半分を「四分位偏差」(quartile deviation)と呼び、散らばり具合の指標としてこちらを用いる場合もある。

四分位数 【第1四分位数】

数値データの集合を小さい順に並べ、同じ数ずつ4等分したときに、区切りとなる3つの値。下から1/4、1/2(中央)、3/4(上から1/4)の位置にある値である。

データを小さい順(昇順)に並べ、同じ個数ずつ4等分する。最も小さい側から1/4となる位置にある数を「第1四分位数」、ちょうど半分の位置にある数を「第2四分位数」、小さい側から3/4の位置にある数を「第3四分位数」という。第2四分位数は中央値に等しくなる。

下から何パーセントの位置にある値かを表す表現である「パーセンタイル」(percentile)を用いると、第1四分位数は「25パーセンタイル」、第2四分位数は「50パーセンタイル」、第3四分位数は「75パーセンタイル」に相当する。

第3四分位数から第1四分位数を引いた値を「四分位範囲」(quartile range)という。この値が小さいほど中心付近にデータが集中し、上位側と下位側のデータが少ないことを表している。四分位範囲の値の半分を「四分位偏差」(quartile deviation)と呼び、散らばり具合の指標としてこちらを用いる場合もある。

分散 ⭐⭐⭐

分かれて散らばること。確率・統計の分野では、データの散らばり具合を分散という。IT分野では処理やデータを複数の機器などで分担することを分散処理、分散システムなどという。

統計学の分散

統計学では、あるデータ群のそれぞれの値について平均値との差を取って二乗し、その合計をデータの数で割って平均した値(二乗平均)を分散(variance)という。データ群が平均に対してどのくらい散らばっているかを表す指標として用いられる。

例えば、{10,20,30} という3つの標本の分散は平均値の20を用いて {(10-20)2+(20-20)2+(30-20)2}/3 と表すことができ、約66.7となる。{0,20,40} であれば約266.7となり、すべて平均に等しい {20,20,20} ならば分散は0となる。

分散は算出過程で値を二乗しており元の値とは次元が異なるが、分散の正の二乗根を取って次元を揃えた値を散らばりの指標として用いることがある。これを「標準偏差」(SD:Standard Deviation)と呼び、元の値と同じ尺度で散らばり具合を評価することができる。

分散処理

IT分野では、一つの処理やデータ群に対して複数の機器を動員し、分担して処理する方式を「分散処理」(distributed processing)、「分散システム」(distributed system)、「分散コンピューティング」(distributed computing)などという。

このうち、処理の前後関係に従って異なる機能の機器を連結し、それぞれが特定の工程に専念する方式を「垂直分散システム」、同じ機能の機器を並べて処理を振り分け、並行に処理する方式を「水平分散システム」という。一般には後者を指して単に分散システムと呼ぶことが多い。

標準偏差 【SD】 ⭐⭐

統計における指標の一つで、データ群のばらつき具合を表す値。この値が小さいほど平均付近にデータが集まっていることを表し、大きければ平均から外れたデータがたくさんあることを表している。

標準偏差は分散の正の平方根で、データが平均値から平均でどのくらい離れているかを表している。算出方法は、各値と平均値の差を二乗した値の和を求め、これをデータの数で割った平均のルートを取る(二乗平均平方根)。

例えば、{10,20,30} という3つの標本の標準偏差は、平均値20を用いて √[{(10-20)2+(20-20)2+(30-20)2}/3] と表され、約8.16となる。{0,20,40} ならば約16.33となり、すべて平均値に等しい {20,20,20} ならば標準偏差は0となる。

分散も散らばり具合を表しているが、元の値と平均の差の二乗の平均であるため、元の値とは次元が異なる。標準偏差はその平方根を取っているため、元の値と同じ次元となり、値自体の大きさと散らばり具合の大きさを同じ尺度で比較することができる。日本では学力試験のいわゆる偏差値を算出するのに用いられている。

偏差値

データ系列の値を、特定の平均値と標準偏差になるよう変換したもの。その値が集団内でどの程度の位置に相当するかを表しており、学力試験の得点を難易度に依らず比較できるようにするために求めることが多い。

もとのデータ系列の平均値と標準偏差を求め、定数AとSを用いて A×元の値-平均値標準偏差+S という式で変換した値である。これは平均値がA、標準偏差がSの分布だったら元の値がいくつになるかを表している。

偏差値自体は様々なデータに適用することができるが、日本では高校までの学力試験の得点を偏差値に変換した「学力偏差値」が広く普及している。これは平均(A)が50、標準偏差(S)が10になるように調整した偏差値で、テストの満点の違いや難易度による影響を排して集団内での位置を知る指標として利用されている。外国ではAやSが別の値の偏差値が用いられることもある。例えば、米大学入試で用いられる「SAT」はAが100、Sが500の偏差値を算出する。

算出方法から、偏差値50はちょうど平均値であることを表す。元の値の分布が正規分布に従う場合、偏差値25が下から0.62%、偏差値40が下から15.9%、偏差値60が上から15.9%、偏差値75が上から0.62%の位置にいることを表す。試験などでは概ねこの範囲にほとんどの得点が収まるが、試験が極端に難しいあるいは易しい場合など、結果が正規分布から大きく外れた場合には偏差値も大きく外れた値を取り得る。

因果関係 【因果】

2つの事象が原因と結果の関係になっていること。一方の事象に起因して、ある特定の機序によってもう一方の事象が生起されるような関係。

「降水量が増えると川が増水する」といったように、ある事象が別の事象の原因となっているような関係である。「降水量の増大」と「川の増水」の間には「降った雨水が川に流れ込む」という機序が存在する。

一方、2つの事象の変化の間に「一方が変化するともう一方も変化する」という傾向が存在する場合、これを「相関関係」あるいは略して「相関」という。相関は因果を含む概念で、因果関係にある事象間には必ず相関もある。逆に、相関があるからと言って両者に因果があるとは限らない。

例えば、河川敷の湿度と川の水位の変化に相関が見られたとして、「湿度上昇によって水位上昇が引き起こされた」あるいは「水位上昇によって湿度上昇が引き起こされた」とは言えない。両者は共に「降水」という共通の原因の結果に過ぎないからである。このように両方に影響する外部の要因を「交絡因子」という。

無相関 【相関なし】

2つの事象の間に、片方が変化するともう片方も変化するという関係性(相関)が見られないこと。統計解析では2つのデータ系列の間に直線的な関係がないことを意味する。

2つの事象に関わりがあり、片方が変化するともう片方も変化するような関係を「相関」という。片方が増えるともう片方が増える関係を「正の相関」、片方が増えるともう片方は減る関係を「負の相関」という。

2つのデータ系列があるとき、その分布どの程度相関しているかは相関係数という値を算出することにより調べることができる。2つの系列の共分散と標準偏差から求めることができ、-1から1の間の実数で表される。

相関係数が1ならば完全な正の相関、-1ならば完全な負の相関があり、きれいな正比例の関係にある。y=ax+b という1次関数の形で関係を記述することができる。相関係数が0の場合は両者の分布に関係性が一切見られないことを示している。この状態を「無相関」あるいは「相関なし」という。

一方、確率変数についても相関の概念があり、確率変数 X,Y について E[XY]=E[X]E[Y] という関係が成り立つとき、両者は無相関であるという。これは両者の間に直線的な関係がないことを表しており、事象が独立であることとは異なる。独立であれば相関もないが、相関がないからといって独立とは限らない。

正の相関 【順相関】

相関関係の一種で、2つのデータ系列の間に、片方が増えるともう片方も増えるという関係があること。

2つの事象に関わりがあり、片方が変化するともう片方も変化する関係を「相関」という。正の相関は片方が増えるともう片方も増える、片方が減るともう片方も減るという同じ方向に変化する関係を指す。2つの系列を散布図で表すと右肩上がりの分布になる。

一方、片方が増えるともう片方は減るといったように、互いに逆方向へ変化する関係を「負の相関」という。散布図では右肩下がりの分布が現れる。正の相関も負の相関も見られず、変化の傾向になんの類似性も無い場合は「相関なし」となる。

2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば「完全な正の相関」、「0」ならば相関なし、「-1」ならば「完全な負の相関」があることを示す。相関係数が0.2~0.4程度の関係を「弱い正の相関」、0.7~0.9程度の関係を「強い正の相関」と呼ぶことがある。

負の相関 【逆相関】

相関関係の一種で、2つのデータ系列の間に、片方が増えるともう片方は減るという関係があること。

2つの事象に関わりがあり、片方が変化するともう片方も変化する関係を「相関」という。負の相関は相関のうち、片方が増えるともう片方は減るといったように、双方が互いに逆の方向に変化するような関係を指す。2つの系列を散布図で表すと右肩下がりの分布になる。

一方、片方が増えるともう片方も増えるといったように、互いに同じ方向へ変化する関係を「正の相関」という。散布図では右肩上がりの分布が現れる。負の相関も正の相関も見られず、変化の傾向になんの類似性も無い場合は「相関なし」となる。

2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば「完全な正の相関」、「0」ならば相関なし、「-1」ならば「完全な負の相関」があることを示す。相関係数が-0.2~-0.4程度の関係を「弱い負の相関」、-0.7~-0.9程度の関係を「強い負の相関」と呼ぶことがある。

無相関 【相関なし】

2つの事象の間に、片方が変化するともう片方も変化するという関係性(相関)が見られないこと。統計解析では2つのデータ系列の間に直線的な関係がないことを意味する。

2つの事象に関わりがあり、片方が変化するともう片方も変化するような関係を「相関」という。片方が増えるともう片方が増える関係を「正の相関」、片方が増えるともう片方は減る関係を「負の相関」という。

2つのデータ系列があるとき、その分布どの程度相関しているかは相関係数という値を算出することにより調べることができる。2つの系列の共分散と標準偏差から求めることができ、-1から1の間の実数で表される。

相関係数が1ならば完全な正の相関、-1ならば完全な負の相関があり、きれいな正比例の関係にある。y=ax+b という1次関数の形で関係を記述することができる。相関係数が0の場合は両者の分布に関係性が一切見られないことを示している。この状態を「相関なし」あるいは「相関なし」という。

一方、確率変数についても相関の概念があり、確率変数 X,Y について E[XY]=E[X]E[Y] という関係が成り立つとき、両者は相関なしであるという。これは両者の間に直線的な関係がないことを表しており、事象が独立であることとは異なる。独立であれば相関もないが、相関がないからといって独立とは限らない。

相関係数 ⭐⭐

2つのデータ系列どの程度強く連動しているかを表す値。-1から1の間の実数で表され、両者の値の変化が正比例の関係に近いほど絶対値が大きくなり、まったく連動していなければ0に近い値となる。

2つの事象に関わりがあり、一方が変化するともう一方も変化するような関係を「相関」という。一方が増えるともう一方が増える関係を「正の相関」、一方が増えるともう一方は減る関係を「負の相関」という。

相関係数は同じ数の2つのデータ系列から算出される統計量の一つで、-1から1の間の実数を取る。値が0ならば両者に相関はなく、1なら完全な正の相関、-1なら完全な負の相関がある。1または-1のときは両者の関係を y=ax+b という形の一次関数として記述することができる。

相関係数は、同数のデータ系列 (x1,x2,…,xn)(y1,y2,…,yn) から算出した共分散 sxy とそれぞれの標準偏差 sx および sy を用いて sxysxsy として求められる。これは平均 x-y- を用いて下記の式のように表される。

<$Fig:correlation-coefficient|center|false>

テキストマイニング ⭐⭐⭐

定型化されていない文字情報(テキストデータ)の集まりを自然言語解析などの手法を用いて解析し、何らかの未知の有用な知見を見つけ出すこと。

「データマイニング」(data mining)の手法を非定型のテキストデータに応用したもので、自然言語の文の蓄積として集められたデータを分析し、鉱山から鉱石などを掘り出す(mining)ように、業務や製品に役立つ情報を探し出す。

目的や具体的な技術は様々だが、多くの場合、文章に形態素解析を行ってテキストを単語やフレーズに分解し、特定の表現の出現頻度やその増減、複数の表現の関連性や時系列の変化などを調べる。

これにより、知られていなかった問題点を見出したり、様々な要素や要因の間の結びつきを可視化したり(共起ネットワーク分析)、顧客や消費者の評判(肯定的か否定的か)や時系列の推移を把握したりする(センチメント分析)ことができる。

対象となるデータの例として、アンケートや報告書などに含まれる自由記述の文章、電子掲示板(BBS)やSNSの書き込み、ニュース記事、OCRでスキャンしてテキストデータ化した過去の書籍、雑誌、新聞の記事などが挙げられる。

円グラフ 【パイチャート】

数値データを図示するグラフの一つで、円の中を大小の扇形に区切って各項目に対応付け、扇の面積によって各項目の大きさを表すもの。各項目の全体に占める割合を一目で比較できる。

円全体が全項目の値の和(100%)に相当し、各項目を全体に占める割合に従って扇形で示す。時計でいう0時方向から時計回りに配置するのが一般的である。あまりに構成比の小さな項目は細すぎて見にくいため、最下位の位置に「その他」としてまとめる。

各項目が独立している場合は大きい順に並べるのが原則だが、項目間にグループ関係や何らかの順序性がある場合にはそちらに従って配置することがある。例えば、アンケートの回答が「とてもそう思う」「そう思う」「どちらとも言えない」「そう思わない」「まったくそう思わない」であれば、構成比に関わらずこの順に並べる。議会の勢力図であれば、右側に与党系、左側に野党系、中央に独立系とすると分かりやすい。

英語では切り分けたパイになぞらえて “pie chart” (パイチャート)と呼ぶことが多い。バリエーションとして、中心を空けて表題などを書き入れた「ドーナツグラフ」、複数の系列や各項目の内訳などを同心円状に重ねる「二重円グラフ」などがある。ソフトウェアによっては厚みのある円盤状の「3D円グラフ」を描画する機能もあるが、3D化すると扇の面積比が歪むため好ましくないとする考え方もある。

棒グラフ 【バーチャート】

数値データを図示するグラフの一つで、各項目の大きさに対応する長さの棒を縦または横に並べたもの。片方の端の位置が揃っており、棒の長さで各項目の大きさを一目で比較できる。

同じ幅の細長い棒(長方形)を並べた図で、棒の長さが各項目の大きさを表している。垂直に伸びる棒を横に並べた「縦棒グラフ」と、水平に伸びる棒を縦に並べた「横棒グラフ」がある。縦棒の場合は下端を、横棒の場合は左端を揃えて並べる。

項目の並び順は図で示したい内容に応じて決められるが、左端や上端から値の大きい順に並べる場合や、年齢のように項目の順序や大きさに従って並べる場合がある。項目が時系列の場合は過去から順に並べることが多い。

バリエーションとして、棒を区切って内訳を示す「積み上げ棒グラフ」、棒の長さを揃えて内訳の比率の比較や変化を示す「100%積み上げ棒グラフ」、一つの項目に複数の細い棒を並べて時系列の変化などを表す「集合棒グラフ」などがある。折れ線グラフなどと組み合わせて複合グラフとする場合もある。ソフトウェアによっては棒の並びを3次元的に描画する「3D棒グラフ」の機能が利用できる場合もあるが、3D化すると棒の長さの比が歪むため好ましくないとする考え方もある。

折れ線グラフ

数値データを図示するグラフの一つで、各項目を点で表し、隣接する項目同士を線分で結んで推移を折れ線で表したもの。時系列の変化などを表すのに適している。

縦軸に量、横軸に時間を取り、各時点における量の大きさを点で示す。隣接する点同士を端から順に線分で繋いでいくことで、すべての点を一つの折れ線で結びつける。線分が右上がりの箇所は増加、右下がりの箇所は減少を表し、折れ線の上下で量の時系列の変化を視覚的に把握することができる。

同じグラフに複数の異なる系列を表す折れ線を重ねて描画したり、折れ線グラフと棒グラフを重ねて描画することもあり、複数の項目の変化を直感的に把握することができる。複数の系列を重ねる場合は実線と折れ線、破線を使い分けたり、線を色分けしたり、点を表す図形(●▲■など)を変えるなどして見分けやすいようにする。

散布図 【分布図】 ⭐⭐⭐

一つのデータが複数の量や特性の組として表される場合に、二つの値の間の関係を明らかにするために作成される図。縦軸と横軸にそれぞれ別の特性を割り当て、各データについて対応する位置に点を打って作図する。

点の分布する様子を見て、データを構成する二つの量の間に関連があるか、どのような関連があるかを知ることができる。例えば、点が右上がりの帯状に分布していれば正の相関があると分かり、(左上から)右下がりなら負の相関があると分かる。まんべんなく散らばっていれば相関が薄いか無さそうであると考えられる。

全体の傾向から大きく外れた特異点(外れ値)がどこにあるかも容易に知ることができ、これを除外して計算を行ったり、外れた理由を詳しく調べたりすることもある。また、全体に当てはまる傾向を調べるだけでなく、点の集まり具合から二つの量の関係が同じ傾向を示している項目群をグループ分け(グルーピング)するといった使い方をする場合もある。

箱ひげ図 【箱髭図】 ⭐⭐

数値データを図示するグラフの一つで、長方形の上下に線分を付け加えた図形で一つのデータ系列の分布を要約するもの。箱の上下の線分を「ひげ」になぞらえた名称である。

縦軸に量を取り、横軸方向に系列を箱ひげとして並べていく。各箱ひげは、上のひげの上端が分布の最大値、箱の上端が第3四分位数、箱の中に引かれた仕切り線が第2四分位数(中央値)、箱の下端が第1四分位数、下のひげの下端が最小値となっている。最大値や最小値は外れ値の場合もあるため、ひげの端は最大・最小から1~10%程度の値を用いる場合もある。

一つの箱ひげで一つのデータ系列の分布を直感的に把握することができる。これを系列の数だけ横に並べていくことで、系列間の分布の違いを視覚的に比較することができる。複数の異なる対象の分布を比べるために作成する場合もあれば、同じ対象の時系列の分布の変化を知るために作成することもある。

レーダーチャート 【クモの巣グラフ】

グラフの種類の一つで、複数の項目の大きさを中心点からの距離で表したもの。各項目の大きさを同じ尺度で一覧し、項目間のバランスや全体的な傾向を図形の形状や大小で把握できる。

各項目の軸を図の中心を原点として放射状に伸ばし、それぞれの軸上に各項目の値をプロットする。隣接する項目同士を線分で結んでできた多角形が、対象の各項目の傾向を表している。

突出して高い項目や低い項目があると対応する角に大きな凹凸ができ、多角形のいびつさでバランスの良し悪しを視覚的に表現できる。また、値が全体的に高ければ多角形の面積が広く、低ければ狭くなる。

各軸は隣の軸となす角度がすべて等しくなるように配置し、最大値同士を線で結ぶと正多角形になる。途中の目盛りを結んだ線はクモの巣のような形になるため、「クモの巣グラフ」(spider chart)とも呼ばれる。

表計算ソフト 【スプレッドシート】 ⭐⭐

データが並んだ表を作成・編集することができるアプリケーションソフト。表中の項目間で集計や解析を行ったり、グラフに表したりすることができる。

縦横に並んだマス目(セル)の広がる表を用い、各セルにデータや計算ルールなどを入力・設定していくと、ソフトウェアが自動的に計算や処理を実行し、所定の位置に計算結果を代入したり、グラフを描画したりしてくれる。

このマス目の並んだ表のことを「スプレッドシート」(spreadsheet)あるいは「ワークシート」(worksheet)と呼び、一つのファイルに複数のシートを収めることができる。表計算ソフト自体を指してスプレッドシートと呼ぶこともある。

計算ルールには特定範囲の合計や平均を算出するといった単純なものから、数学的な関数や統計関数、財務関数などが利用できる。数値を扱う関数以外にも、日付や時刻を扱う関数、論理式を扱う関数、文字列を操作する関数、特定の条件を満たす値を数え上げる関数など、様々な種類がある。

表に貼り付けるように矩形の領域を設けて内部にグラフを描画する機能があり、特定の範囲のデータを対象にして折れ線グラフや棒グラフ、円グラフ、散布図などを描くことができる。セルの内容を変更すると、追随してすぐにグラフに反映されるようになっている。

行や列の幅や高さを変更したり、先頭のセルに項目名を記載したり、表やセルに枠線や背景色、文字書式、表示形式などを設定して見栄えを整える機能もあり、ファイルとして配布して入力フォームに利用したり、そのまま印刷して資料や帳票などとして用いる場合もある。

製品

パソコン向けの表計算ソフトとしては、米マイクロソフト(Microsoft社)のオフィスソフト「Microsoft Office」の一部として提供される「Microsoft Excel」(マイクロソフト・エクセル)が世界的に最も有名でシェアが高く、「Excel」を表計算ソフトの代名詞のように扱うこともある。

他にも、米アップル(Apple)社の「Numbers」や、オープンソースのLibreOfficeやApache OpenOfficeに含まれる「Calc」などが知られる。米グーグル(Google)社の「Google Sheets」(日本名は「Googleスプレッドシート」)のようにWebブラウザで操作できるネットサービスもある。

絶対参照/相対参照

表などで項目の位置を指定する方式のこと。絶対参照は全体の端(原点など)を基準とする絶対位置を、相対参照は現在選択されている項目の位置を基準に相対位置を指定する。

絶対セル参照

表計算ソフトのセル指定でワークシート内の絶対位置を指定する方式を「絶対セル参照」(absolute cell reference)という。

参照先となるセルの位置は固定されており、参照元となるセルの値を他のセルにコピーしても、常に参照先となるセルの位置は一定となる。列のみ、あるいは行のみを絶対セル参照とし、もう片方を相対セル参照とすることもできる。

Microsoft Excelでは、セル内の関数や計算式などで「$A$1」のように「$」(ドル記号)に続けて列番号(アルファベット)や行番号を記述すると絶対セル参照となる。他のソフトウェアでもこれにならって同じ記法を採用しているものがある。

相対セル参照

表計算ソフトのセル指定で現在のセルからの相対位置を指定する方式を「相対セル参照」(relative cell reference)という。

参照元となるセルの値を他のセルにコピーすると、参照先となるセルの位置も、コピー元とコピー先の位置関係に応じて変化する。列のみ、あるいは行のみを相対セル参照とし、もう片方を絶対セル参照とすることもできる。

Microsoft Excelでは、セル内の関数や計算式などで「A1」のように列番号と行番号を指定すると、それを記述したセルからの相対セル参照とみなされる。これを右隣のセルに複製すると「A2」、下隣に複製すると「B1」というように、相対的に同じ位置関係にあるセルの位置に自動的に書き換えてくれる。

絶対参照/相対参照 ⭐⭐

表などで項目の位置を指定する方式のこと。絶対参照は全体の端(原点など)を基準とする絶対位置を、相対参照は現在選択されている項目の位置を基準に相対位置を指定する。

絶対セル参照

表計算ソフトのセル指定でワークシート内の絶対位置を指定する方式を「絶対セル参照」(absolute cell reference)という。

参照先となるセルの位置は固定されており、参照元となるセルの値を他のセルにコピーしても、常に参照先となるセルの位置は一定となる。列のみ、あるいは行のみを絶対セル参照とし、もう片方を相対セル参照とすることもできる。

Microsoft Excelでは、セル内の関数や計算式などで「$A$1」のように「$」(ドル記号)に続けて列番号(アルファベット)や行番号を記述すると絶対セル参照となる。他のソフトウェアでもこれにならって同じ記法を採用しているものがある。

相対セル参照

表計算ソフトのセル指定で現在のセルからの相対位置を指定する方式を「相対セル参照」(relative cell reference)という。

参照元となるセルの値を他のセルにコピーすると、参照先となるセルの位置も、コピー元とコピー先の位置関係に応じて変化する。列のみ、あるいは行のみを相対セル参照とし、もう片方を絶対セル参照とすることもできる。

Microsoft Excelでは、セル内の関数や計算式などで「A1」のように列番号と行番号を指定すると、それを記述したセルからの相対セル参照とみなされる。これを右隣のセルに複製すると「A2」、下隣に複製すると「B1」というように、相対的に同じ位置関係にあるセルの位置に自動的に書き換えてくれる。

ピボットテーブル

米マイクロソフト(Microsoft)社の表計算ソフトのMicrosoft Excel(マイクロソフト・エクセル)でクロス集計を行う機能。

複数の項目からなるデータの集合があるときに、そのうちの2つ(ないし3つ)の項目を組み合わせて2次元の表の形で集計する。項目間の関係や相関、傾向などを見やすくまとめることができる。

マウス操作などで矩形の集計範囲を指定すると、その中から項目名や値を自動的に抽出し、クロス集計表を作成してくれる。ダイアログで縦軸と横軸に設定する項目を選択したり、集計値を積算値とするかパーセンテージとするかといった設定を行なうこともできる。

クロス集計の結果をグループ化された棒グラフ群や積み上げ棒グラフなどの形で一覧表示するグラフ作成機能もあり、「ピボットグラフ」(pivot chart)と呼ばれる。

AVERAGE関数 【AVERAGE function】

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、引数に指定した値の平均値を求めるもの。引数には複数の特定のセル、セルの範囲、値、他の関数の結果などを指定できる。

書式は「=AVERAGE(値1,値2,…)」で、列挙された値をすべて加算して値の個数で割った平均値(単純平均/算術平均)を返す。「AVERAGE(B1,C2)」のように特定のセルの値の平均を求めたり、「AVERAGE(B2,10)」のように値を直に指定することもできる。

「AVERAGE(B2:B10)」のように範囲指定すると、B2からB10までのすべてのセルの値の平均を求めてくれる。一般にはこの指定方法が最もよく用いられる。「AVERAGE(B1,C2:C5,20)」のように、これらの指定方法を任意の数だけ組み合わせてすべての値の平均を求めることもできる。

AVERAGE関数の対象とすることができるのは数値のみだが、論理値(TRUEは1、FALSEは0)や数値を表す文字列を含むデータの平均を求める「AVERAGEA関数」も用意されている。また、特定の条件を満たす値のみを対象に平均を求める関数として「AVERAGEIF関数」および「AVERAGEIFS関数」も用意されている。

CORREL関数 【CORREL function】

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、引数に指定した2つのデータ系列間の相関係数を求めるもの。CORRELは “correlation” (相関)の略。

2つのデータ列について、一方が上下するともう一方も同じように上下する関係を相関という。両者の動きが一致する度合いは「相関係数」によって表すことができ、0ならば両者の動きにまったく相関が無いことを、1ならば完全な正の相関(正比例)、-1ならば完全な負の相関があることを表す。

CORREL関数はワークシート上の2系列のセルの並びについて、その相関係数を算出する。「=CORREL(B2:B9,C2:C9)」のように同じ個数のセルの系列を指定し、係数を0から1の間の実数で返す。セルに文字列や論理値など数値以外が書かれている場合は無視するが、セルの個数が異なる場合はエラーとなる。

COUNTIF関数 【COUNTIF function】

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、指定の範囲の中から条件に一致するセルの個数を返すもの。

基本的な書式は「=COUNTIF(セルの範囲,条件)」で、指定範囲のセルの中から条件に一致するものを数え上げる。条件の記法はいくつかあり、「10」「"ABC"」のように単に値を記述すると、その値に一致するセルを数える。

文字列には「?」(任意の一文字)「*」(任意長の任意の文字列)といった任意の文字を表すワイルドカード文字を含めることができる。例えば、条件が「"?et"」であれば「set」「get」「let」などに一致し、「"*県"」であれば「秋田県」「鹿児島県」などに一致する。

条件に「B5」のようにセル参照を記述すると、そのセルの値に一致するセルの数を数える。「"<20"」のように先頭に不等号を付けることにより、「未満」(>)「より多い」(<)「以下」(>=)「以上」(<=)「以外」(<>)などの比較条件を指示できる。

MAX関数 【MAX function】

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、引数に指定した値の最大値を求めるもの。引数には複数の特定のセル、セルの範囲、値、他の関数の結果などを指定できる。MAXは “maximum” の略。

書式は「=MAX(値1,値2,…)」で、列挙された値の中で最も大きい値を返す。「MAX(B1,C2)」のように特定のセルの値を列挙したり、「MAX(B2,10)」のように値を直に指定することもできる。「MAX(B2:B10)」のようにセルの範囲を指定すると、すべてのセルの値の中から最大値を求める。

選択範囲に数値が一つもなければ0を返す。MAX関数の対象とすることができるのは数値のみで、論理値や文字列、空白などは無視される。論理値をTRUEは1、FALSEは0として解釈したり、数値を表す文字列を数値として扱いたい場合は「MAXA関数」を用いる。最小値を求めるには「MIN関数」または「MINA関数」を用いる。

MEDIAN関数 【MEDIAN function】

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、引数に指定した値の中央値を求めるもの。引数には複数の特定のセル、セルの範囲、値、他の関数の結果などを指定できる。

書式は「=MEDIAN(値1,値2,…)」で、列挙された値を大きい順あるいは小さい順に並べた際に全体の半分の位置に来る値を返す。値が偶数個の場合は中央の2つの値の平均を返す。指定したセルに数値として解釈できる文字列がある場合は数値として扱われる。

「MEDIAN(B1,C2)」のように特定のセルの値の中央値を求めたり、「MEDIAN(B2,10)」のように値を直に指定することもできる。「MEDIAN(B2:B10)」のように範囲指定すると、B2からB10までのすべてのセルの値の中央値を求めてくれる。「MEDIAN(B1,C2:C5,20)」のように、これらの指定方法を任意の数だけ組み合わせてすべての値の中央値を求めることもできる。

複数のセルや値から代表値を求める関数は他にもあり、平均値(算術平均/相加平均)を求めるにはAVERAGE関数を、最頻値を求めるにはMODE関数を利用する。

MIN関数 【MIN function】

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、引数に指定した値の最小値を求めるもの。引数には複数の特定のセル、セルの範囲、値、他の関数の結果などを指定できる。MINは “minimum” の略。

書式は「=MIN(値1,値2,…)」で、列挙された値の中で最も小さい値を返す。「MIN(B1,C2)」のように特定のセルの値を列挙したり、「MIN(B2,10)」のように値を直に指定することもできる。「MIN(B2:B10)」のようにセルの範囲を指定すると、すべてのセルの値の中から最小値を求める。

選択範囲に数値が一つもなければ0を返す。MIN関数の対象とすることができるのは数値のみで、論理値や文字列、空白などは無視される。論理値をTRUEは1、FALSEは0として解釈したり、数値を表す文字列を数値として扱いたい場合は「MINA関数」を用いる。最大値を求めるには「MAX関数」または「MAXA関数」を用いる。

STDEV.P関数 【STDEV.P function】

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、指定のデータ群から標準偏差を求めるもの。

標準偏差(SD:Standard Deviation)は統計における指標の一つで、データ群のばらつき具合を表す値である。小さいほど平均付近にデータが集まっていることを表し、大きければ平均から外れたデータがたくさんあることを表す。

STDEV.P関数は与えられたデータ群から標準偏差を求める関数で、基本的な書式は「=STDEV.P(値1,値2,…)」である。個別に値を指定する場合は255個まで記述できるが、通常は「=STDEV.P(B2:B101)」のように値が並んだセルの範囲を指定することが多い。

STDEV.P関数は与えられたデータ群を母集団全体とみなして、各値と平均値の差を二乗した値の和を求め、これをデータの数で割った平均のルートを取る(二乗平均平方根)。一方、データ群が母集団から抽出した標本である場合は、母集団の標準偏差の推定値を求める「STDEV関数」または「STDEV.S関数」を用いる。こちらは誤差の二乗の和を求めた後にデータ数より1少ない値(n-1)で割る。

SUM関数 【SUM function】

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、引数に指定した値の合計を求めるもの。引数には特定のセル、セルの範囲、値、他の関数の結果などが指定できる。

書式は「=SUM(値1,値2,…)」で、列挙された値をすべて加算した値を返す。SUM(B1,C2)のように特定のセル同士の和を求めたり、SUM(B2,10)のように値を直に指定することができる。SUM(B2:B10)のように範囲指定すると、B2からB10までのすべてのセルの値を合計してくれる。SUM(B1,C2:C5,20)のようにこれらを組み合わせて三項以上を合計することもできる。

ワークシート上ではマウスなどで一行あるいは一列に並んだセルの範囲を指定し、上部のメニューの「Σ」アイコンを押すと右端あるいは下端のセルに選択範囲のセルの合計を求めるSUM関数が自動で記入される。この機能を「オートSUM」という(バージョンや表示設定によってはΣの脇に「オートSUM」と記載がある)。

VAR.P関数 【VAR.P function】

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、指定のデータ群から分散を求めるもの。

分散(variance)は統計における指標の一つで、データ群のばらつき具合を表す値である。小さいほど平均付近にデータが集まっていることを表し、大きければ平均から外れたデータがたくさんあることを表す。

VAR.P関数は与えられたデータ群から分散を求める関数で、基本的な書式は「=VAR.P(値1,値2,…)」である。個別に値を指定する場合は255個まで記述できるが、通常は「=VAR.P(B2:B101)」のように値が並んだセルの範囲を指定することが多い。

VAR.P関数は与えられたデータ群を母集団全体とみなして、各値と平均値の差を二乗した値の和を求め、これをデータの数で割った平均を求める(二乗平均)。一方、データ群が母集団から抽出した標本である場合は、母集団の分散の推定値を求める「VAR関数」または「VAR.S関数」を用いる。こちらは誤差の二乗の和を求めた後にデータ数より1少ない値(n-1)で割る。

VLOOKUP関数

米マイクロソフト(Microsoft)社の表計算ソフトMicrosoft Excelのワークシートのセルに書き込むことができる関数の一つで、指定した範囲の左端の列から指定した値に一致するものを検索し、一致するものがあれば、その行の指定した列のセルの値を返すもの。

書式は「=VLOOKUP(検索値,範囲,列番号,検索方式)」で、検索する値は参照するセルを指定しても値自体を直に記述しても良い。検索範囲は左上セルと右下セルの組み合わせで指定し、両セルを対角線とする矩形の範囲が指定できる。

VLOOKUP関数が実行されると、指定範囲のうち左端の列から検索値に一致するセルを探し出す。一致するセルが発見されると、そのセルを含む行の中から、列番号で指定した列のセルの値を返す。列番号は指定範囲の左端を「1」とする相対的な値で、検索列自体なら「1」、検索列の右隣なら「2」などとなる。

例えば、VLOOKUP(B2,C3:E10,3,FALSE) のように指定すると、C列をC3からC10まで調べ、B2の値に一致するものを探す。仮にC5が一致した場合、その行の中で指定範囲の3列目であるE5の内容を読み取って関数の実行結果として返される。

引数の4つ目の検索方式は論理値で「TRUE」または「FALSE」を指定する。TRUEの場合は近似一致で検索を行ない、検索列の中で検索値に最も近い値が一致したものとみなされる。FALSEの場合は完全一致で検索を行い、検索値と全く同一の値が存在しなければ「#N/A」エラーを返す。無指定の場合はTRUE(近似一致)となるため、完全一致検索がしたい場合は忘れずにFALSEを指定しなければならない。

ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる