高校「情報Ⅰ」単語帳 - 数研出版「高等学校 情報Ⅰ」 - データの収集・整理・分析

オープンデータ ⭐⭐⭐

誰でも自由に入手や使用、加工、再配布などができるよう広く一般に公開されているデータ。特に、ソフトウェアなどによる自動処理に適した一定のデータ形式に整理・整形された機械可読(マシンリーダブル)なもの。

データの中には著作権などによって保護されていたり、所有者によって入手や利用に制限が課せられ、手続きや対価が必要なものが多くある。オープンデータはこのような制約から解放され、営利・非営利を問わず誰でも自由に使用や再配布が可能なデータを指す。

こうしたデータ公開が期待され、また積極的に行われているのは主に学術・科学分野や公共分野である。大学や研究機関の持つ科学的な資料や、政府や自治体などの公的機関の持つ公共的な情報や、事業などで調査・収集した統計データなどの公開が進められている。

行政などのデータ公開・提供はこれまでも白書やWebサイトなどの形で行われてきたが、これはもっぱら人間が閲覧するための文書として発行されたものであり、ソフトウェアで解析・加工するには人間の手で整形しなければならなかった。オープンデータではコンピュータ上での自動処理を前提としたデータ形式が求められ、XMLやCSVファイル、Excelファイル(XLSXファイル)などの形で提供される。

ある完結したひとまとまりのデータ集合を「データセット」と呼び、これを一つのファイルなどに(複雑・大規模な場合はいくつかに分割して)記録してWebサイトなどで公開する。複数のデータセットを公開する機関やサイトでは、どこにどんなデータセットがどのような形式で公開されているかをまとめた「データカタログ」が作成されることが多い。

2000年代後半頃から、米連邦政府の「Data.gov」や日本政府の「データカタログサイト」(DATA.GO.JP)など、政府機関が提供している様々なオープンデータをまとめたデータカタログや専用のWebサイトを公開する国が増えている。

量的データ 【量的変数】 ⭐⭐⭐

調査や観測などで得られたデータのうち、物事の量的な側面を表す数値データのこと。長さ、重さ、人数、金額など大小や高低の程度を反映したデータである。

数で表され、数の大きさが量の多寡や性質の強さ、度合いを反映しているようなデータをこのように呼ぶ。物事の質的な側面を表す「質的データ」(質的変数)と対比される。

量的データを測る尺度のうち、数の間隔に意味があるものを「間隔尺度」という。数の間隔が量の大きさを反映している尺度で、温度の摂氏(℃)や年号などが当てはまる。原点が量的な「0」を表さないため値同士の比率には意味がない。

一方、間隔だけでなく値そのものの比に意味があるような尺度を「比例尺度」という。数がそのまま量の大きさを反映しているような尺度で、長さ、面積、体積、重さ、時間、速度、絶対温度、人数、金額など多くの量的データは比例尺度で表される。数で表されていても、数が順序や順位しか表さない、ランキングや段階評価、段位のような「順序尺度」のデータは含まない。

質的データ 【質的変数】 ⭐⭐⭐

調査や観測などで得られたデータのうち、物事の質的な側面を表すデータのこと。数で表されないような記録や、数値の場合は値自体や値同士の差の比率には意味がないようなデータである。

性別や血液型、「はい」「いいえ」を選択するアンケート項目、色、形状など、結果を数値で表すことができないデータや、数字で表されていても自動車ナンバーや電話番号のように大小に意味がない「名義尺度」のデータが含まれる。物事の量的な側面を表す「量的データ」(量的変数)と対比される。

また、数の大小が順位や順序を表していても、間隔や比には意味がない「順序尺度」の数値データも質的データに分類される。例えば、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級などは、上位と下位の区別はできても度合いを数量比較することはできないため質的データに分類される。

構造化データ ⭐⭐

項目の形式や順序など、明確に定義された構造に従って記述、配置されたデータ集合のこと。プログラムによって自動処理するために用いられることが多い。

リレーショナルデータベースのテーブルやCSVファイルのように、一件のレコードの構成、各項目のデータ型や形式、項目の並び順、項目やレコードの区切り文字などが事前に決まっており、同じ構成のレコードの繰り返しとしてデータを列挙したものを指すことが多い。

ソフトウェアによって容易に読み込んで内容を認識させることができ、大量のデータを集計したり分析するのに適している。人間がそのまま眺めて読みやすい形式とは限らず、ソフトウェアによって抽出や集計を行ったり、見やすいよう整形したり、レポートなど別の形式へ変換してから人間に供されることが多い。

一方、Webページや電子メール等のメッセージ、ワープロソフトやプレゼンテーションソフトなどで作成した(見栄え重視の)文書ファイル、画像や音声、動画などのメディアデータといった、決まった形式や配置に従ってデータが並んでいるわけではない不定形なデータ群のことを「非構造化データ」(unstructured data)という。

Webページの構造化データ

WebページのHTMLコードは、Webブラウザにその文書の構造やレイアウトを伝達するという意味では構造化されているが、書かれている情報をサイト横断的に同じ形式に従って自動収集・処理できるような構造にはなっていない。

そこで、ソフトウェアが自動処理しやすいようページ内に書かれている内容を特定の規約に則って構造化データとして記述する手法が提唱されている。同じ情報を人間向けと機械向けに同じページに埋め込んでおき、ブラウザは人間向けのデータを表示し、Webロボットなどの自動処理プログラムは機械向けのデータを収集する。

様々な手法が提唱されているが、現在有力な方式はHTMLのヘッダ領域などにJSON-LD形式でスクリプトの形で情報を埋め込む手法で、Schema.orgという業界団体が情報の種類ごとにデータの記述形式(スキーマ)の標準を提案している。

例えば、ある行事の開催案内のWebページに、Schema.orgの定義する「Event」(行事)のスキーマで構造化データを埋め込むことで、巡回してきたロボットに行事名や主催、出演者、開催日時などを伝達することができる。

異常値

調査や測定、観測などで同種のデータをいくつも取得したとき、ミスなどで混入した誤った値のこと。また、単に傾向から大きく外れた値(外れ値)や、何らかの基準を超えて異状を示す値を指すこともある。

収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを「外れ値」という。このうち、測定機器の不具合や故障、測定ミス、記入ミスなど、何らかの明確な原因によっておかしな値になってしまったものを異常値という。

ミスなどの不手際に限らず、人間の身長を示す値が「10m」になるなど、理論的に絶対に起こり得ない値を含むこともある。データを取る対象や方法によって、外れ値から異常値と他の外れ値を区別できる場合と、区別がつかない場合がある。文脈によっては外れ値のことを異常値と呼ぶ(両者を特に区別しない)場合もある。

また、医療における検査や、システムや機械の監視など、正常な状態と異常な状態を区別するために測定などを行う場合には、異常な状態を示す値のことを異常値と呼ぶことがある。この場合には値そのものは正しく得ることができており、「正しく捉えられなかった値」という意味合いはない。

外れ値 ⭐⭐⭐

調査や測定、観測などで同種のデータをいくつも取得したとき、全体のデータの傾向から大きく外れた値のこと。統計処理などの際に一定の基準を設けて除外することがある。

収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを外れ値という。このうち、測定機器の不具合や記入ミスなど、何らかの誤りによっておかしな値になってしまったものは「異常値」という。対象や方法によって、異常値と異常値以外の外れ値を区別できる場合とできない場合がある。

外れ値を含んだデータをそのまま分析すると、平均値や相関係数などの統計量に大きな影響を与え、歪んだ結果が導き出されることがある。このため、一定の基準を設けて外れ値を取り除く操作を行うことがある。

よく用いられる手法として、箱ひげ図を描いて「第1四分位数-箱の幅×1.5以下」「第3四分位数+箱の幅×1.5以上」のデータを外れ値と判定する方法がある。また、平均値や標準偏差などから特定の統計量を算出し、基準値を設けて判定する方法もある。こうした検定にはスミルノフ・グラブス検定やトンプソン検定などが知られている。

なお、用意した結論に都合のよいデータのみを残してそれ以外を外れ値として排除することはデータの改竄とみなされる可能性があるため値の削除は慎重に行う必要がある。どんな調査や観測でも、現実の対象を調べれば全体の傾向から外れたサンプルが存在するのは普通のことであるため、異常値として理由が説明できる値以外は恣意的に取り除くべきではないとする考え方もある。

欠損値 【欠測値】 ⭐⭐⭐

調査や測定、観測などでデータを収集した際、あるデータの記録場所を参照してもデータが記録されておらずに欠けていること。一定周期で観測値を記録するシステムでデータが欠けた時刻がある場合などが該当する。

観測において、装置の不具合や操作ミスなどで測定値が得られなかった状態や、調査において特定の記入項目が空欄で記載されていない状態などを指す。値は存在するが傾向から大きく外れている「外れ値」や、装置故障やミスなどでおかしな値になってしまった「異常値」とは異なる。

観測における欠測などは機械的に取り除いて分析することが多いが、調査では記入が任意の項目が複数ある場合などに完全にデータが揃っているサンプルが十分な数揃わないこともある。そのような場合には欠損の多い項目を解析から外したり、平均値などの代表値で穴埋めしたり、他の項目の値が似ているサンプルのデータで補完するといった操作を行うことがある。

尺度 ⭐⭐

対象の測定や計量、評価などを行うときの基準。特に、結果を数字に対応付けるための規則を指すことが多い。定規やメジャーなど長さを測る道具を尺度水準と呼ぶこともある。

尺度水準 (level of measurement)

統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。

「名義尺度」(類別尺度)は対象や状態を区別するためだけに(便宜上の)数字を割り当てたもので、値が同じか異なるかしか評価することができない。順序や大きさ、比率などに意味はなく、計算を行うこともできない。例えば、電話番号の国番号は米国が1、日本が81だが、日本が何かの大きさで81位であるとか、何かが米国の81倍であるというわけではない。

「順序尺度」は数字の大小が順序を表すような尺度である。大きさを比較したり順位を付けることができるが、他の値との差や比率には意味がなく、計算を行うことはできない。競技の順位、成績やアンケートなどの5段階評価、検定制度の段位や級などが該当する。「将棋8段は4段より強い」とは言えるが、「2倍強い」といった比較はできない。

「間隔尺度」は数字が順序を表すとともに間隔に意味があるような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、「0」で表される点は便宜上置いたもので、値の比には意味がない。例えば、摂氏5度が15度になるのと15度が25度になるのは同じ幅だけ温度が上昇したと言えるが、摂氏15度は5度の3倍の温度やエネルギーであるとは言えない。

「比例尺度」(比率尺度)は数字が順序や間隔を表すともに、「0」に原点としての意味があり、値の比や割合も議論することができる尺度である。長さ、重さ、時間、速度、絶対温度などの物理量、金額などが該当する。これらの尺度水準には上下関係があり、名義、順序、間隔、比例の順に水準が高くなる。高い水準の尺度は自身より低い水準の尺度を兼ねている。

テキスト形式 【テキストデータ】

コンピュータ向けのコードなどを含まず、人間が読むことのできる文字のみで構成されたデータのこと。ある文字コードで文字として規定される範囲のデータのみを含む。

コンピュータでは内部的にすべてのデータを2進数の数値の並び(ビット列)として表現しているが、人間の使っている文字を扱えるようにするため、特定の番号と文字を対応付ける「文字コード」(character code)が規定されている。例えば、最もよく使われているASCII文字コードでは、「65」という数値(2進数では「1000001」)が「A」というアルファベットに対応付けられている。

テキスト形式は、この文字コードで規定された自然言語の文字と、表示制御のための少数の制御コード(空白や改行など)のみを含み、人間が容易に読み書きできる形式のデータを指す。これに対し、コンピュータプログラムによって読み書きや処理を行うことを前提に、文字コードの規約を用いずに任意のビット列によって構成されるデータのことをバイナリ(binary)形式、バイナリデータなどという。

広義のテキスト形式は文字のみで構成されたデータ全般を意味するが、これには文字によってコンピュータへの指示などを記述したHTML形式やコンピュータプログラムのソースコードなどが含まれる。狭義のテキスト形式はこのようなコンピュータ向けの記述を含まず、純粋に人間が読み書きするための文字情報だけで構成されたものを指し、そのことを明示するため「プレーンテキスト」(plain text)と呼んで区別される場合がある。

バイナリ 【バイナリデータ】

2値(の)、2進数(の)、2元(の)、などの意味を持つ英単語。IT関連ではテキスト(文字)以外のデータ形式全般を総称してバイナリ形式と呼ぶことが多い。

コンピュータはすべての情報を2進数の「0」と「1」が並んだビット列として表現する。このうち、何らかの文字コード規格に基づいて文字を表すデータを「テキストデータ」(テキスト形式)、そうでないものを「バイナリデータ」(バイナリ形式)と分類する。

バイナリ形式のデータの例としては画像や音声、動画などを記録したメディアデータ、実行可能形式のコンピュータプログラム(オブジェクトコード/バイナリコード)、圧縮データ、暗号データなどがある。

バイナリ形式におけるビット列のパターンと意味の対応関係はデータ形式やソフトウェアの種類ごとに規定されている。その形式に対応したソフトウェア以外では何が記録されているのか分からず、内容を表示したり編集することはできない。

バイナリエディタのように形式を限定せずにバイナリファイルの表示や編集を行うソフトウェアもあり、形式不明のファイルの解析など特殊な用途に用いられる。その場合、データの先頭から順に2進数の4桁を一つのまとまりとして1桁の16進数(0~F)に置き換えて表示することが多い

テキストデータは人間が文字として取り扱うことができるというだけでコンピュータにとってはパターンが限定されたビット列の一種であるため、伝送や圧縮、暗号化などを行う際は文字としての側面はひとまず捨象して、他のバイナリデータと同じように単なるビット列として扱うことが多い。

IT分野以外でバイナリ形式という語が用いられることは稀だが、金融や商取引などの分野で、2つの系列からの選択や、二者択一の予測などの状況を指してバイナリ形式と表現することがある。

CSV 【Comma-Separated Values】

テキスト(文字)データの形式の一つで、項目をカンマ「,」で区切って列挙したもの。複数の項目をレコードとしてまとめる場合は、改行でレコードの区切りを表す。表形式で項目が並んだデータの保存に用いられる。

表のように項目が縦横に並んだデータを記述することができる形式の一つで、標準のファイル拡張子は「.csv」。表計算ソフトやデータベースソフトなど多くのソフトウェアが標準で対応している。異種システム間のデータ交換などで古くから広く用いられている。

実体は単純な記法のテキストデータであるため、対応プログラムの開発もしやすく、人間がテキストエディタなどで開いて直接読み書きすることも容易である。反面、アプリケーション固有の複雑なデータや動的なデータ(他のセルの参照や関数など)や、画像などのバイナリデータ、データ全体についての情報(メタデータ)などを記録するのには向いていない。

仕様のばらつき

システムによって「項目をカンマで区切る」以外の仕様には細かな差異がある。例えば、改行文字として「CR+LF」(16進数で0D+0A)を用いるシステムが多いが、システム標準のテキストデータの扱いの違いにより、「CR」(0D)のみの場合や「LF」(0A)のみの場合もある。

また、項目を二重引用符「"」や一重引用符「'」で囲むのを原則とする場合と、文字列型のデータのみを引用符で括る場合、項目内にカンマや引用符、改行など区切り文字が出現する場合に引用符で括る場合などがある。項目内に引用符が現れる場合は「,"私は""神""だ",」のように二文字連続とする。

慣例として先頭行を「氏名,住所,電話番号」のように項目名の列挙とすることが多く、アプリケーションで開いたときに最上段に項目名を表示させることができる。各列が何を表しているのか容易に把握することができるが、そのまま表示・編集することを意図しない自動処理用のファイルなどでは省略してデータ本体のみとすることも多い。

同じ用途の他形式

<$Img:CSV-File.png|right|mcmurryjulie|https://pixabay.com/vectors/spreadsheet-icon-spreadsheet-excel-1898557/>

CSVと同じように、項目を記号文字や制御文字で分離して改行でレコードを区切る形式は他にもあり、タブ文字(16進数で09)で区切る「TSV」(Tab-Separated Values)形式や、スペース文字(16進数で20)で区切る「SSV」(Space-Separated Values)などがよく知られる。西欧の一部のように数値の桁区切りにカンマを用いる国では、CSVの区切り文字にカンマでなくセミコロン「;」を用いる場合もある。

Microsoft Excelなどの表計算ソフトでは表形式に項目を並べたワークシートを扱うが、標準では各アプリケーション固有のファイル形式(Excelの場合はXLSXファイルなど)でこれを保存する。ほとんどのソフトにはCSVファイルの取り込み(インポート)や書き出し(エクスポート)機能があるため、標準ファイル形式では対応できない他のアプリケーションとのデータ交換などの際にはCSVを利用することがある。

TSV 【Tab-Separated Values】

複数の項目で構成されるデータを複数件列挙して表現することができる汎用的なデータ形式の一つで、項目間の区切り文字にタブ文字を用いるもの。標準のファイル拡張子は「.tsv」。

データを文字の連なりとして表現するテキスト(文字)データおよびテキストファイルの形式の一つで、複数の項目をタブ文字(ASCIIコード9番の制御文字)で区切って一件のレコードを構成し、複数件のレコードを改行文字で区切ってデータ全体を構成する。

縦横に規則正しく項目が並んだ表形式のデータを保存するのによく用いられる形式の一つで、表計算ソフトやデータベースソフト、データ解析ソフトなどの多くが標準でインポート(取り込み)、エクスポート(書き出し)に対応している。

よく似たデータ形式に、項目間の区切りにカンマ(,)を用いた「CSV」(Comma-Separated Values)がある。CSVはデータそのものにカンマや他の記号文字が含まれる場合の取り扱いに注意を要するが、TSVの場合は区切りに用いるタブ文字が制御文字であり、データの表現自体には通常は登場しないため、より簡易な方法で取り扱うことができる利点がある。

また、テキストエディタなどで開いて人間が直に閲覧・編集する場合、タブ文字は数文字分の空白として表示され、項目の先頭が指定の文字数(タブ幅)の整数倍の位置に来るよう揃えて表示される。タブ幅はエディタの設定次第だが、項目の長さよりも長く設定すれば表として表示・編集することができる。

データサイエンティスト

統計解析や数理解析、機械学習、プログラミングなどを駆使して大量のデータを解析し、有用な知見を得る職業あるいは職種。

企業の事業活動の電子化、コンピュータ化が進み、取得可能なデータや実際に蓄積されるデータの種類や量は飛躍的に増大したが、IT部門はデータの記録や管理のみ、ビジネス部門は表計算ソフトでの集計など定型的な利用のみの場合が多く、十分な利活用がされないまま死蔵される例が多かった。

データサイエンティストは様々な意思決定上の局面やビジネス上の課題を認識し、データによって立証可能な仮説やモデルを組み立て、蓄積された実際のデータ群に対して様々な処理手法や解析手法を適用することで、現実の課題解決に資する有用な知見を提供する。

具体的なスキルとして、対象領域への基本的な理解やビジネス部門との折衝、解析結果のドキュメンテーションやプレゼンテーションといったビジネス領域のスキル、統計や数理解析、線形代数、機械学習、データモデリングなどの数理科学やコンピュータ科学の知識、データベース操作やデータ形式の理解、プログラミング、データ加工・変換・処理の技法といったエンジニアリング領域の技能が総合的に求められる。

日本では2011年頃からビッグデータ活用の重要性が叫ばれるようになるなか、データ活用を推進する具体的な人材像として2013年頃から「データサイエンティスト」という職種が認識され始めた。十分な技能を持ったデータサイエンティストは常に人材不足であるとされ、今後もそのニーズは高まっていくと予想されている。

大学などが専門のコースやカリキュラムを編成する事例が見られるほか、日本数学検定協会の「データサイエンス数学ストラテジスト」やデータサイエンティスト協会の「データサイエンティスト検定」、統計質保証推進協会の「統計検定 データサイエンス基礎」など民間資格の認定制度も相次いで開始されている。

ビッグデータ ⭐⭐⭐

従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。

多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。

今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。

米大手IT調査会社ガートナー(Gartner)社では、ビッグデータを特徴づける要素として、データの大きさ(Volume)、入出力や処理の速度(Verocity)、データの種類や情報源の多様性(Variety)を挙げ、これら3つの「V」のいずれか、あるいは複数が極めて高いものがビッグデータであるとしている。これに価値(Value)や正確性(Veracity)を加える提案もある。

コンピュータやソフトウェアの技術の進歩は速く、具体的にどのような量や速度、多様さであればビッグデータと言えるかは時代により異なる。ビッグデータという用語がビジネスの文脈で広まった2010年代前半にはデータ量が数テラバイト程度のものも含まれたが、2010年代後半になるとペタバイト(1000テラバイト)級やそれ以上のものがこのように呼ばれることが多い。

近年ではスマートフォンやSNS、電子決済、オンライン通販の浸透により人間が日々の活動で生み出す情報のデータ化が進み、また、IoT(Internet of Things)やM2M、機器の制御の自動化などの進展により人工物から収集されるデータも爆発的に増大している。

また、人工知能(AI)の構築・運用手法として、膨大なデータから規則性やルールなどを見出し、予測や推論、分類、人間の作業の自動化などを行う機械学習(ML:Machine Learning)、中でも、多階層のニューラルネットワークで機械学習を行う深層学習(ディープラーニング)と呼ばれる手法が台頭している。

このような背景から、膨大なデータを的確、効率的に扱う技術上の要請はますます高まっており、統計やデータ分析、大容量データを扱う手法やアルゴリズムなどに精通した「データサイエンティスト」(data scientist)と呼ばれる専門職の育成が急務とされている。

代表値

値の集団があるとき、全体の特徴を一つの値で表したもの。平均値や中央値、最頻値などいくつかの種類があり、特性や向き不向きが異なる。

統計調査などで様々な対象から値を取得すると、様々な大きさの値が集まるが、値全体を要約し、その中心的な傾向を把握することができる一つの値を代表値という。

最もよく用いられるのは「平均値」(average)で、全体の総量が変わらず、すべて同じ値だったらいくつになるかを求めたものである。総量の表し方によりいくつかの種類があるが、最も一般的な「算術平均」(単純平均/相加平均)では、全体の和を値の数で割って求める。

他に、大きい順あるいは小さい順に並べ替えたときに順位がちょうど真ん中の値で代表する「中央値」(median:メジアン/メディアン)や、各値の出現回数(頻度/度数)を数えて最も多く出現する値で代表する「最頻値」(mode:モード)などが用いられる。

平均はすべての値を評価に含めることができるが、少数の極端な値(外れ値)に影響されやすい。中央値は外れ値の影響を受けないが、中央付近の値の変動しか評価しないため時系列の変化を表すのは苦手である。最頻値は値の分布の偏りが小さい(一様に近い)集団が苦手だが、数値で表されないデータ(名義尺度)の集計にも適用できる。

平均値 【平均】 ⭐⭐

値の集団があるとき、全体の量は変えずにすべての値が同じだったらいくつになるかを求めたもの。集団全体の性質を表す代表値として最もよく用いられる。

単に平均値という場合はすべての値を足して個数で割った「算術平均」(相加平均、単純平均)を指す。全体の総和は変わらずすべての値が同じだったらいくつになるかを求めたもので、全体の値の水準を表している。

平均値の算出法として、すべての値(n個)を掛け合わせてn乗根を求めることもある。全体の積が同じですべての値が同じだったらいくつになるかを求めたもので、「幾何平均」(相乗平均)と呼ばれる。他にも調和平均、対数平均、加重平均など様々な算出法がある。

平均値は代表値として最もよく用いられるが、値の分布によっては必ずしも全体の性質を表すのに適さない場合がある。例えば、少数の値が極端に大きい(あるいは小さい)と、その値に引きずられてほとんどの値よりずっと大きい(あるいは小さい)値が平均値となることがある。

他によく用いられる代表値として、大きい順に並べ替えたときに順位がちょうど真ん中の値を求める「中央値」(median:メディアン/メジアン)、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)がある。

最頻値 【モード】

値の集団があるとき、各値が出現する回数を数え、最も多く現れる値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。

集団の中で同じ値が何回出現するかを調べ、最も多く出現する値が最頻値である。例えば、{ 0, 1, 1, 1, 2 } という値の集合があるとき、この中には「0」が1回、「1」が3回、「2」が1回出現しており、最頻値は3回の「1」となる。

連続値の場合は全く同じ値が繰り返し現れることは稀であるため、度数分布表やヒストグラムを用いて「0以上10未満」「10以上20未満」のように区間を区切って頻度を数え、最も多い区間の中心の値(10~20が最多なら15)を最頻値とする。

最頻値は一つに定まるとは限らない。「0, 1, 1, 2, 3, 3, 4」の場合、最多頻度2回の値が「1」と「3」2つとなり、両者ともに最頻値となる。このように最頻値が複数の場合を「多峰性」(multimodal)の分布、中でも2つの場合を「二峰性」(bimodal)の分布という。最も極端な場合、すべての値が同じ頻度で出現するとすべての値が最頻値となる(最頻値を考える意味がなくなる)。

代表値としては他にも、全体を同じ値に均した「平均値」(average)、順位がちょうど真ん中の値を取る「中央値」(median:メジアン、メディアン)などがある。統計値などがきれいな山型の分布にならない場合には、これらより最頻値で代表させるのが適していることがある。また、平均値や中央値と異なり、「○○という回答が最も多かった」というように数値で表されないデータ(名義尺度)の集計にも適用できるという重要な性質がある。

中央値 【メジアン】 ⭐⭐

値の集団があるとき、最大値から最小値まで順に整列したとき順位がちょうど真ん中である値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。

値を大きい順あるいは小さい順に並べた時、ちょうど真ん中にある値が中央値である。値が偶数個の場合は中央の値が2つになるため、両者の平均値(算術平均)を中央値とする。例えば、「0, 5 ,1, 9, 7」という値の集合がある場合、大きい順でも小さい順でもちょうど3番目が「5」となり、これが中央値となる。

代表値としては値を均した「平均値」(算術平均/相加平均)を用いることが多いが、平均値は極端な値が含まれる場合にその影響を受けやすいという難点がある。例えば、10軒の家があって9軒は車を1台所有しており、残り1軒が11台所有している場合、1軒あたりの平均所有台数は「2台」となるが、実際に2台以上所有しているのは1軒だけである。

このような場合、中央値は5位と6位の中間、すなわち「1台」となり、大半の家が1台のみである実態をよく表している。ただし、時系列の比較などを行う場合、中央値は中央付近の値の動向しか反映しないため、全体の変化の傾向などを表すのには不向きである。

集団の代表値としては平均値、中央値の他にも、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)を用いることがある。先の車の所有台数の例では最頻値も「1台」である。

分散 ⭐⭐⭐

分かれて散らばること。確率・統計の分野では、データの散らばり具合を分散という。IT分野では処理やデータを複数の機器などで分担することを分散処理、分散システムなどという。

統計学の分散

統計学では、あるデータ群のそれぞれの値について平均値との差を取って二乗し、その合計をデータの数で割って平均した値(二乗平均)を分散(variance)という。データ群が平均に対してどのくらい散らばっているかを表す指標として用いられる。

例えば、{10,20,30} という3つの標本の分散は平均値の20を用いて {(10-20)2+(20-20)2+(30-20)2}/3 と表すことができ、約66.7となる。{0,20,40} であれば約266.7となり、すべて平均に等しい {20,20,20} ならば分散は0となる。

分散は算出過程で値を二乗しており元の値とは次元が異なるが、分散の正の二乗根を取って次元を揃えた値を散らばりの指標として用いることがある。これを「標準偏差」(SD:Standard Deviation)と呼び、元の値と同じ尺度で散らばり具合を評価することができる。

分散処理

IT分野では、一つの処理やデータ群に対して複数の機器を動員し、分担して処理する方式を「分散処理」(distributed processing)、「分散システム」(distributed system)、「分散コンピューティング」(distributed computing)などという。

このうち、処理の前後関係に従って異なる機能の機器を連結し、それぞれが特定の工程に専念する方式を「垂直分散システム」、同じ機能の機器を並べて処理を振り分け、並行に処理する方式を「水平分散システム」という。一般には後者を指して単に分散システムと呼ぶことが多い。

標準偏差 【SD】 ⭐⭐

統計における指標の一つで、データ群のばらつき具合を表す値。この値が小さいほど平均付近にデータが集まっていることを表し、大きければ平均から外れたデータがたくさんあることを表している。

標準偏差は分散の正の平方根で、データが平均値から平均でどのくらい離れているかを表している。算出方法は、各値と平均値の差を二乗した値の和を求め、これをデータの数で割った平均のルートを取る(二乗平均平方根)。

例えば、{10,20,30} という3つの標本の標準偏差は、平均値20を用いて √[{(10-20)2+(20-20)2+(30-20)2}/3] と表され、約8.16となる。{0,20,40} ならば約16.33となり、すべて平均値に等しい {20,20,20} ならば標準偏差は0となる。

分散も散らばり具合を表しているが、元の値と平均の差の二乗の平均であるため、元の値とは次元が異なる。標準偏差はその平方根を取っているため、元の値と同じ次元となり、値自体の大きさと散らばり具合の大きさを同じ尺度で比較することができる。日本では学力試験のいわゆる偏差値を算出するのに用いられている。

偏差値

データ系列の値を、特定の平均値と標準偏差になるよう変換したもの。その値が集団内でどの程度の位置に相当するかを表しており、学力試験の得点を難易度に依らず比較できるようにするために求めることが多い。

もとのデータ系列の平均値と標準偏差を求め、定数AとSを用いて A×元の値-平均値標準偏差+S という式で変換した値である。これは平均値がA、標準偏差がSの分布だったら元の値がいくつになるかを表している。

偏差値自体は様々なデータに適用することができるが、日本では高校までの学力試験の得点を偏差値に変換した「学力偏差値」が広く普及している。これは平均(A)が50、標準偏差(S)が10になるように調整した偏差値で、テストの満点の違いや難易度による影響を排して集団内での位置を知る指標として利用されている。外国ではAやSが別の値の偏差値が用いられることもある。例えば、米大学入試で用いられる「SAT」はAが100、Sが500の偏差値を算出する。

算出方法から、偏差値50はちょうど平均値であることを表す。元の値の分布が正規分布に従う場合、偏差値25が下から0.62%、偏差値40が下から15.9%、偏差値60が上から15.9%、偏差値75が上から0.62%の位置にいることを表す。試験などでは概ねこの範囲にほとんどの得点が収まるが、試験が極端に難しいあるいは易しい場合など、結果が正規分布から大きく外れた場合には偏差値も大きく外れた値を取り得る。

相関関係 【相関】 ⭐⭐⭐

2つの事象に関わりがあり、一方が変化するともう一方も変化するような関係のこと。特に、何らかの規則性に基づいて双方の変化が連動しているような関係を指す。

「冬の気温と桜の開花日」や「親の身長と子の身長」のように、傾向として片方が増えるともう片方も増える、あるいは逆に片方が増えるともう片方は減るといった関係性が見られるとき、両者の間に「相関がある」あるいは、両者は「相関関係にある」という。

一方、片方が原因となってもう一方の変化が引き起こされる関係性を「因果関係」という。相関関係は因果関係を含む概念で、因果があれば必ず相関もあるが、相関があるからといって必ずしも因果もあるとは限らない。

統計学では2つのデータ系列の分布について、一方の値が高ければ高いほどもう一方の値も高くなる(同じ方向に連動する)関係を「正の相関」、一方の値が高ければ高いほどもう一方の値は低くなる(逆方向に連動する)という関係を「負の相関」という。

2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば完全な正の相関、「0」ならば相関なし、「-1」ならば完全な負の相関があることを表す。

相関係数 ⭐⭐

2つのデータ系列どの程度強く連動しているかを表す値。-1から1の間の実数で表され、両者の値の変化が正比例の関係に近いほど絶対値が大きくなり、まったく連動していなければ0に近い値となる。

2つの事象に関わりがあり、一方が変化するともう一方も変化するような関係を「相関」という。一方が増えるともう一方が増える関係を「正の相関」、一方が増えるともう一方は減る関係を「負の相関」という。

相関係数は同じ数の2つのデータ系列から算出される統計量の一つで、-1から1の間の実数を取る。値が0ならば両者に相関はなく、1なら完全な正の相関、-1なら完全な負の相関がある。1または-1のときは両者の関係を y=ax+b という形の一次関数として記述することができる。

相関係数は、同数のデータ系列 (x1,x2,…,xn)(y1,y2,…,yn) から算出した共分散 sxy とそれぞれの標準偏差 sx および sy を用いて sxysxsy として求められる。これは平均 x-y- を用いて下記の式のように表される。

<$Fig:correlation-coefficient|center|false>

テキストマイニング ⭐⭐⭐

定型化されていない文字情報(テキストデータ)の集まりを自然言語解析などの手法を用いて解析し、何らかの未知の有用な知見を見つけ出すこと。

「データマイニング」(data mining)の手法を非定型のテキストデータに応用したもので、自然言語の文の蓄積として集められたデータを分析し、鉱山から鉱石などを掘り出す(mining)ように、業務や製品に役立つ情報を探し出す。

目的や具体的な技術は様々だが、多くの場合、文章に形態素解析を行ってテキストを単語やフレーズに分解し、特定の表現の出現頻度やその増減、複数の表現の関連性や時系列の変化などを調べる。

これにより、知られていなかった問題点を見出したり、様々な要素や要因の間の結びつきを可視化したり(共起ネットワーク分析)、顧客や消費者の評判(肯定的か否定的か)や時系列の推移を把握したりする(センチメント分析)ことができる。

対象となるデータの例として、アンケートや報告書などに含まれる自由記述の文章、電子掲示板(BBS)やSNSの書き込み、ニュース記事、OCRでスキャンしてテキストデータ化した過去の書籍、雑誌、新聞の記事などが挙げられる。

自然言語

日本語や英語のように、人間が日常的な意思疎通や情報の伝達、記録、思考などのために用いる言語のこと。IT分野ではコンピュータ言語と対比する文脈でこのように呼ぶことが多い。

人間が他の人間との間で会話などを通じて情報のやり取りをしたり、記録物の読み書きを行ったり、頭の中で思考や記憶を行なう際に用いる言語のことである。日常的に単に「言語」と言えば通常は自然言語のことを指すことが多い。

一方、ITの分野では、人間がデータやコンピュータへの命令などをコンピュータプログラムが自動処理可能な形で記述するために、語彙や文法が人工的に規定された言語を用いる。これを総称して「コンピュータ言語」(computer language)という。

用途や対象分野によってプログラミング言語、ハードウェア記述言語、マークアップ言語、スタイルシート言語、問い合わせ言語(クエリ言語)、モデリング言語など様々な種類に分かれる。これらの一部は人間同士の意思疎通や情報交換のために用いられることもあり、語彙や構文などを自然言語から拝借することも多い。

対義語として「人工言語」(artificial language)という用語が用いられることもあるが、これは自然言語と同じ人間同士の意思疎通のために人工的に作り出された言語(エスペラント語など)を指す場合と、コンピュータ言語のように自然言語とは異なる用途のために作られた言語を指す場合がある。情報理論などでは文法が形式的に定義された言語のことを「形式言語」(formal language)と呼び、これを自然言語と対置することもある。

なお、自然言語による情報を対象として、コンピュータによる自動処理により解析や生成、変換などを行う技術のことを「自然言語処理」(NLP:Natural Language Processing)という。人間がコンピュータで情報処理を行うための有力な支援機能であり、Web検索エンジンや音声アシスタント、かな漢字変換システム、光学文字認識(OCR)、文書編集ソフトのスペルチェッカーや校正ツール、音声認識(音声入力)や音声合成、機械翻訳、自動要約、テキストマイニングなどの形で実用化されている。

形態素解析

自然言語で書かれた文を言語上の最小単位である形態素に分割し、それぞれの品詞や変化などを割り出すこと。ITの分野ではコンピュータによる自然言語処理の一つとして、かな漢字変換や全文検索、機械翻訳などで用いられる。

日本語や英語など人間が普段使っている自然言語において、文中で意味をなす最小の構成要素を形態素(morpheme)という。文がどのような要素によって構成されているかを調べるために、形態素の列に分解してそれぞれの文法上の属性(品詞の種類や活用形など)を明らかにしていく処理を形態素解析という。

例えば、“This is a pen.” という英文は “this”(代名詞)、“is”(be動詞)、“a”(不定冠詞) “pen”(一般名詞)のように分解できる。“apples”を“apple”(名詞)と“-s”(接尾辞/複数形)の組み合わせであるというように、一つの単語を接尾時・接頭辞や語幹などに分解する場合もある。

日本語では「これはペンです」を「これ」(代名詞)「は」(係助詞)「ペン」(一般名詞)「です」(助動詞)のように分解できる。文法上の要素に分解していくため、「食べた」は一語ではなく「食べ」(動詞/連用形)「た」(助動詞)に分かれる。

コンピュータによる形態素解析処理は、当該言語の文法規則や、単語や接辞などの要素を列挙した辞書データを用いて行う。英語などアルファベット圏の言語は単語ごとに短い空白をあける「分かち書き」をするため、基本的に単語の接辞や変化を調べるだけでよいが、日本語や韓国語などでは単語に分けず一文を続けて記すため、単語分割の段階で複雑な処理や大量の辞書データが必要となる。

また、自然言語では複数の異なる解釈が可能で、辞書や規則の機械的な適用だけでは一意に定まらない表現なども存在するため、慣用句や自然な表現を集めた文例データや、要素間の連結についての統計的なデータを用いて精度を向上させる場合もある。

散布図 【分布図】 ⭐⭐⭐

一つのデータが複数の量や特性の組として表される場合に、二つの値の間の関係を明らかにするために作成される図。縦軸と横軸にそれぞれ別の特性を割り当て、各データについて対応する位置に点を打って作図する。

点の分布する様子を見て、データを構成する二つの量の間に関連があるか、どのような関連があるかを知ることができる。例えば、点が右上がりの帯状に分布していれば正の相関があると分かり、(左上から)右下がりなら負の相関があると分かる。まんべんなく散らばっていれば相関が薄いか無さそうであると考えられる。

全体の傾向から大きく外れた特異点(外れ値)がどこにあるかも容易に知ることができ、これを除外して計算を行ったり、外れた理由を詳しく調べたりすることもある。また、全体に当てはまる傾向を調べるだけでなく、点の集まり具合から二つの量の関係が同じ傾向を示している項目群をグループ分け(グルーピング)するといった使い方をする場合もある。

ヒストグラム 【度数分布図】 ⭐⭐⭐

データの分布を表す統計図の一つで、縦軸に値の数(度数)、横軸に値の範囲(階級)を取り、各階級に含まれる度数を棒グラフにして並べたもの。どの範囲の値が多く、どの範囲が少ないかを視覚的に表現できる。

値の出現頻度の高い階級は高い棒で、低い階級は低い棒で図示されるため、出現頻度の高低やバラつき具合を視覚的に容易に把握できる。各階級の度数を示す棒のことを「ビン」(bin)と呼ぶことがある。

すべてのビンの面積の総和が全体の度数を表しており、各ビンの面積は全体に占めるその階級の度数の割合を視覚的に表現したものとなっている。同じデータ群でも階級の幅の取り方次第でビンの形状や分布は異なるが、どのような基準で区分すべきかについて様々な方法論が提唱されている。

また、手前のすべての区間の度数を足し合わせた累計値をその区間の度数とし、これを右肩上がりの棒グラフの列で示したものを「累積ヒストグラム」(cumulative histogram/累積度数図)という。端からどの区間までが重要かを見極める場合などに利用される。

度数分布表 ⭐⭐

多数のデータを整理する手法の一つで、値を一定の幅ごとに区切った範囲に属するデータの数を数え、表の形にまとめたもの。どの範囲の値が多く、どの範囲が少ないかを一目で確認できる。

数値データの分布を調べるのに用いられるシンプルな表で、データが取りうる値を均等な幅の区間(これを階級という)に分割し、各階級に属するデータを数える。階級と属するデータの数(これを度数という)を2列の表の形でまとめる。

例えば、テストの点数を表にまとめる場合、「0~19点」「20~39点」「40~59点」「60~79点」「80~100点」といった階級に区切り、それぞれに属する人数を数えて「3人」「5人」「7人」「13人」「5人」などのように書き入れていく。

各階級の中央の値「10点」「30点」「50点」「70点」「90点」を、その階級を代表する「階級値」という。階級の幅は任意に決めてよいが、小さすぎると度数の差がつきにくく、大きすぎると度数の変化が大きすぎて分布の様子が分かりにくくなる。

度数分布表をグラフ化したものを「ヒストグラム」(histogram)という。横軸に階級、縦軸に度数を取り、各階級に度数の長さの棒(長方形)を並べて分布の様子を視覚的に表現する。複数の系列を同じグラフに描画して比較したい場合は棒の代わりに折れ線グラフで度数を表現した「度数分布多角形」(frequency polygon)が用いられる。

ホーム画面への追加方法
1.ブラウザの 共有ボタンのアイコン 共有ボタンをタップ
2.メニューの「ホーム画面に追加」をタップ
閉じる