高校「情報Ⅰ」単語帳 - 日本文教「情報Ⅰ 図説と実習」 - データの収集・整理・分析
オープンデータ ⭐⭐⭐
誰でも自由に入手や使用、加工、再配布などができるよう広く一般に公開されているデータ。特に、ソフトウェアなどによる自動処理に適した一定のデータ形式に整理・整形された機械可読(マシンリーダブル)なもの。
データの中には著作権などによって保護されていたり、所有者によって入手や利用に制限が課せられ、手続きや対価が必要なものが多くある。オープンデータはこのような制約から解放され、営利・非営利を問わず誰でも自由に使用や再配布が可能なデータを指す。
こうしたデータ公開が期待され、また積極的に行われているのは主に学術・科学分野や公共分野である。大学や研究機関の持つ科学的な資料や、政府や自治体などの公的機関の持つ公共的な情報や、事業などで調査・収集した統計データなどの公開が進められている。
行政などのデータ公開・提供はこれまでも白書やWebサイトなどの形で行われてきたが、これはもっぱら人間が閲覧するための文書として発行されたものであり、ソフトウェアで解析・加工するには人間の手で整形しなければならなかった。オープンデータではコンピュータ上での自動処理を前提としたデータ形式が求められ、XMLやCSVファイル、Excelファイル(XLSXファイル)などの形で提供される。
ある完結したひとまとまりのデータ集合を「データセット」と呼び、これを一つのファイルなどに(複雑・大規模な場合はいくつかに分割して)記録してWebサイトなどで公開する。複数のデータセットを公開する機関やサイトでは、どこにどんなデータセットがどのような形式で公開されているかをまとめた「データカタログ」が作成されることが多い。
2000年代後半頃から、米連邦政府の「Data.gov」や日本政府の「データカタログサイト」(DATA.GO.JP)など、政府機関が提供している様々なオープンデータをまとめたデータカタログや専用のWebサイトを公開する国が増えている。
量的データ 【量的変数】 ⭐⭐⭐
調査や観測などで得られたデータのうち、物事の量的な側面を表す数値データのこと。長さ、重さ、人数、金額など大小や高低の程度を反映したデータである。
数で表され、数の大きさが量の多寡や性質の強さ、度合いを反映しているようなデータをこのように呼ぶ。物事の質的な側面を表す「質的データ」(質的変数)と対比される。
量的データを測る尺度のうち、数の間隔に意味があるものを「間隔尺度」という。数の間隔が量の大きさを反映している尺度で、温度の摂氏(℃)や年号などが当てはまる。原点が量的な「0」を表さないため値同士の比率には意味がない。
一方、間隔だけでなく値そのものの比に意味があるような尺度を「比例尺度」という。数がそのまま量の大きさを反映しているような尺度で、長さ、面積、体積、重さ、時間、速度、絶対温度、人数、金額など多くの量的データは比例尺度で表される。数で表されていても、数が順序や順位しか表さない、ランキングや段階評価、段位のような「順序尺度」のデータは含まない。
質的データ 【質的変数】 ⭐⭐⭐
調査や観測などで得られたデータのうち、物事の質的な側面を表すデータのこと。数で表されないような記録や、数値の場合は値自体や値同士の差の比率には意味がないようなデータである。
性別や血液型、「はい」「いいえ」を選択するアンケート項目、色、形状など、結果を数値で表すことができないデータや、数字で表されていても自動車ナンバーや電話番号のように大小に意味がない「名義尺度」のデータが含まれる。物事の量的な側面を表す「量的データ」(量的変数)と対比される。
また、数の大小が順位や順序を表していても、間隔や比には意味がない「順序尺度」の数値データも質的データに分類される。例えば、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級などは、上位と下位の区別はできても度合いを数量比較することはできないため質的データに分類される。
構造化データ ⭐⭐
項目の形式や順序など、明確に定義された構造に従って記述、配置されたデータ集合のこと。プログラムによって自動処理するために用いられることが多い。
リレーショナルデータベースのテーブルやCSVファイルのように、一件のレコードの構成、各項目のデータ型や形式、項目の並び順、項目やレコードの区切り文字などが事前に決まっており、同じ構成のレコードの繰り返しとしてデータを列挙したものを指すことが多い。
ソフトウェアによって容易に読み込んで内容を認識させることができ、大量のデータを集計したり分析するのに適している。人間がそのまま眺めて読みやすい形式とは限らず、ソフトウェアによって抽出や集計を行ったり、見やすいよう整形したり、レポートなど別の形式へ変換してから人間に供されることが多い。
一方、Webページや電子メール等のメッセージ、ワープロソフトやプレゼンテーションソフトなどで作成した(見栄え重視の)文書ファイル、画像や音声、動画などのメディアデータといった、決まった形式や配置に従ってデータが並んでいるわけではない不定形なデータ群のことを「非構造化データ」(unstructured data)という。
Webページの構造化データ
WebページのHTMLコードは、Webブラウザにその文書の構造やレイアウトを伝達するという意味では構造化されているが、書かれている情報をサイト横断的に同じ形式に従って自動収集・処理できるような構造にはなっていない。
そこで、ソフトウェアが自動処理しやすいようページ内に書かれている内容を特定の規約に則って構造化データとして記述する手法が提唱されている。同じ情報を人間向けと機械向けに同じページに埋め込んでおき、ブラウザは人間向けのデータを表示し、Webロボットなどの自動処理プログラムは機械向けのデータを収集する。
様々な手法が提唱されているが、現在有力な方式はHTMLのヘッダ領域などにJSON-LD形式でスクリプトの形で情報を埋め込む手法で、Schema.orgという業界団体が情報の種類ごとにデータの記述形式(スキーマ)の標準を提案している。
例えば、ある行事の開催案内のWebページに、Schema.orgの定義する「Event」(行事)のスキーマで構造化データを埋め込むことで、巡回してきたロボットに行事名や主催、出演者、開催日時などを伝達することができる。
非構造化データ ⭐
項目の形式や順序などについて明確に定義された構造を持たない不定形なデータ集合のこと。主に人間が情報を把握するために作成されるデータ群で、コンピュータによる内容の自動処理には適さない。
コンピュータが扱うデータの多くは何らかの形式や構造に従って記録されているものが大半だが、非構造化データといった場合はリレーショナルデータベース(RDB)の表(テーブル)のように構成要素を分割、配列した構造を持たず、コンピュータプログラムによって要素を個別に把握して処理するような利用方法が難しいようなものを指す。
よく挙げられる例として、(人間が閲覧するための)Webページ、電子メールやメッセンジャーなどのメッセージ、ワープロソフトやプレゼンテーションソフトなどで作成した(見栄え重視の)文書ファイル、画像や音声、動画などのメディアデータなどがある。
これらのデータはそれぞれ特定のデータ形式で記録されてはいるものの、主に人間が見聞きするために視聴覚的な構成を整えることを主眼に作成・編集されており、内部の構成要素をプログラムが自動認識できるような形になっていない。データベースのような検索性や再利用性は乏しく、情報として後から活用することが難しい。
一方、データベースのテーブルやCSVファイルのように、一件のレコードの構成、各項目のデータ型や形式、項目の並び順、項目やレコードの区切り文字などが事前に決まっており、同じ構成のレコードの繰り返しとしてデータを列挙したものを「構造化データ」(structured data)という。
尺度 ⭐⭐
対象の測定や計量、評価などを行うときの基準。特に、結果を数字に対応付けるための規則を指すことが多い。定規やメジャーなど長さを測る道具を尺度と呼ぶこともある。
尺度水準 (level of measurement)
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
「名義尺度」(類別尺度)は対象や状態を区別するためだけに(便宜上の)数字を割り当てたもので、値が同じか異なるかしか評価することができない。順序や大きさ、比率などに意味はなく、計算を行うこともできない。例えば、電話番号の国番号は米国が1、日本が81だが、日本が何かの大きさで81位であるとか、何かが米国の81倍であるというわけではない。
「順序尺度」は数字の大小が順序を表すような尺度である。大きさを比較したり順位を付けることができるが、他の値との差や比率には意味がなく、計算を行うことはできない。競技の順位、成績やアンケートなどの5段階評価、検定制度の段位や級などが該当する。「将棋8段は4段より強い」とは言えるが、「2倍強い」といった比較はできない。
「間隔尺度」は数字が順序を表すとともに間隔に意味があるような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、「0」で表される点は便宜上置いたもので、値の比には意味がない。例えば、摂氏5度が15度になるのと15度が25度になるのは同じ幅だけ温度が上昇したと言えるが、摂氏15度は5度の3倍の温度やエネルギーであるとは言えない。
「比例尺度」(比率尺度)は数字が順序や間隔を表すともに、「0」に原点としての意味があり、値の比や割合も議論することができる尺度である。長さ、重さ、時間、速度、絶対温度などの物理量、金額などが該当する。これらの尺度水準には上下関係があり、名義、順序、間隔、比例の順に水準が高くなる。高い水準の尺度は自身より低い水準の尺度を兼ねている。
KVS 【Key-Value Store】
データ管理システムの種類の一つで、保存したいデータに対し、対応する一意の標識を設定し、これらをペアで格納する方式。標識を指定すると、対応するデータを取り出すことができる。
保存したい値(value)に対して標識となるキー(key)を設定し、両者をセットでストレージなどに書き込む。読み出し時にはキーを指定すると対応する値を取り出すことができる。既存のキーを指定して書き込むと新たな値で上書きされる。
値やキーに指定できるデータの種類は処理系によって異なり、キーは参照や識別がしやすいよう数値や文字列などが用いられることが多い。値には単純なデータ型やバイト列を指定できることが多いが、複雑なデータ構造やオブジェクトなどを格納できるものもある。構造的なデータを一定の決まった手順で文字列やバイト列に変換(シリアライズ)して保存する処理系もある。
一意のキーに値を対応付けて保存するデータ構造は多くプログラミング言語で連想配列、辞書(ディクショナリ)、ハッシュ、マップなどの名称で提供されてきており、キー・バリュー形式はこの仕組みを永続的なデータ管理システムに応用したものと考えることもできる。
伝統的なリレーショナルデータベース(RDB)に代わるデータ管理システムは「NoSQL」(RDBの操作を行うSQL言語を用いないという意味)と総称され、キー・バリュー形式はそのなかでも最も手軽で汎用的な方式として広く浸透している。複数のサーバや記憶装置などに分散してデータを保存できる機能を持ったものもあり、「分散KVS」(distributed KVS)と呼ばれる。
データサイエンティスト ⭐
統計解析や数理解析、機械学習、プログラミングなどを駆使して大量のデータを解析し、有用な知見を得る職業あるいは職種。
企業の事業活動の電子化、コンピュータ化が進み、取得可能なデータや実際に蓄積されるデータの種類や量は飛躍的に増大したが、IT部門はデータの記録や管理のみ、ビジネス部門は表計算ソフトでの集計など定型的な利用のみの場合が多く、十分な利活用がされないまま死蔵される例が多かった。
データサイエンティストは様々な意思決定上の局面やビジネス上の課題を認識し、データによって立証可能な仮説やモデルを組み立て、蓄積された実際のデータ群に対して様々な処理手法や解析手法を適用することで、現実の課題解決に資する有用な知見を提供する。
具体的なスキルとして、対象領域への基本的な理解やビジネス部門との折衝、解析結果のドキュメンテーションやプレゼンテーションといったビジネス領域のスキル、統計や数理解析、線形代数、機械学習、データモデリングなどの数理科学やコンピュータ科学の知識、データベース操作やデータ形式の理解、プログラミング、データ加工・変換・処理の技法といったエンジニアリング領域の技能が総合的に求められる。
日本では2011年頃からビッグデータ活用の重要性が叫ばれるようになるなか、データ活用を推進する具体的な人材像として2013年頃から「データサイエンティスト」という職種が認識され始めた。十分な技能を持ったデータサイエンティストは常に人材不足であるとされ、今後もそのニーズは高まっていくと予想されている。
大学などが専門のコースやカリキュラムを編成する事例が見られるほか、日本数学検定協会の「データサイエンス数学ストラテジスト」やデータサイエンティスト協会の「データサイエンティスト検定」、統計質保証推進協会の「統計検定 データサイエンス基礎」など民間資格の認定制度も相次いで開始されている。
ビッグデータ ⭐⭐⭐
従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。
多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。
今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。
米大手IT調査会社ガートナー(Gartner)社では、ビッグデータを特徴づける要素として、データの大きさ(Volume)、入出力や処理の速度(Verocity)、データの種類や情報源の多様性(Variety)を挙げ、これら3つの「V」のいずれか、あるいは複数が極めて高いものがビッグデータであるとしている。これに価値(Value)や正確性(Veracity)を加える提案もある。
コンピュータやソフトウェアの技術の進歩は速く、具体的にどのような量や速度、多様さであればビッグデータと言えるかは時代により異なる。ビッグデータという用語がビジネスの文脈で広まった2010年代前半にはデータ量が数テラバイト程度のものも含まれたが、2010年代後半になるとペタバイト(1000テラバイト)級やそれ以上のものがこのように呼ばれることが多い。
近年ではスマートフォンやSNS、電子決済、オンライン通販の浸透により人間が日々の活動で生み出す情報のデータ化が進み、また、IoT(Internet of Things)やM2M、機器の制御の自動化などの進展により人工物から収集されるデータも爆発的に増大している。
また、人工知能(AI)の構築・運用手法として、膨大なデータから規則性やルールなどを見出し、予測や推論、分類、人間の作業の自動化などを行う機械学習(ML:Machine Learning)、中でも、多階層のニューラルネットワークで機械学習を行う深層学習(ディープラーニング)と呼ばれる手法が台頭している。
このような背景から、膨大なデータを的確、効率的に扱う技術上の要請はますます高まっており、統計やデータ分析、大容量データを扱う手法やアルゴリズムなどに精通した「データサイエンティスト」(data scientist)と呼ばれる専門職の育成が急務とされている。
データクレンジング 【データクリーニング】
データベースなどに保存されているデータの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行ってデータの品質を高めること。
蓄積されたデータを分析したり活用したりする際に、同じ意味を表しているのに表記が微妙に異なっていて同一とみなされない例など、そのままでは自動処理に適さない状態になっていることがある。特に、複数の情報源からデータを集めた場合や、一件ごとに入力者が異なる場合などにこの点が問題となることが多い。
そのような場合に、一定の基準やルールなどを定め、一項目ずつデータを調べて適切な状態に編集、統合、補正などしていく処理や作業をデータクレンジングという。具体的な手法はデータの種類や形式、利用目的などにより様々である。
一般的な例としては、全角文字と半角文字の違いや、空白文字や区切り記号の有無、人名の異体字の誤りや姓名の分割・併合、法人名の表記(株式会社と(株)の違いなど)、住所や電話番号の表記法などが対象となり、それぞれについて表記ルールを決めて修正や削除などを行なっていく。
平均値 【平均】 ⭐⭐
値の集団があるとき、全体の量は変えずにすべての値が同じだったらいくつになるかを求めたもの。集団全体の性質を表す代表値として最もよく用いられる。
単に平均値という場合はすべての値を足して個数で割った「算術平均」(相加平均、単純平均)を指す。全体の総和は変わらずすべての値が同じだったらいくつになるかを求めたもので、全体の値の水準を表している。
平均値の算出法として、すべての値(n個)を掛け合わせてn乗根を求めることもある。全体の積が同じですべての値が同じだったらいくつになるかを求めたもので、「幾何平均」(相乗平均)と呼ばれる。他にも調和平均、対数平均、加重平均など様々な算出法がある。
平均値は代表値として最もよく用いられるが、値の分布によっては必ずしも全体の性質を表すのに適さない場合がある。例えば、少数の値が極端に大きい(あるいは小さい)と、その値に引きずられてほとんどの値よりずっと大きい(あるいは小さい)値が平均値となることがある。
他によく用いられる代表値として、大きい順に並べ替えたときに順位がちょうど真ん中の値を求める「中央値」(median:メディアン/メジアン)、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)がある。
最頻値 【モード】 ⭐
値の集団があるとき、各値が出現する回数を数え、最も多く現れる値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。
集団の中で同じ値が何回出現するかを調べ、最も多く出現する値が最頻値である。例えば、{ 0, 1, 1, 1, 2 } という値の集合があるとき、この中には「0」が1回、「1」が3回、「2」が1回出現しており、最頻値は3回の「1」となる。
連続値の場合は全く同じ値が繰り返し現れることは稀であるため、度数分布表やヒストグラムを用いて「0以上10未満」「10以上20未満」のように区間を区切って頻度を数え、最も多い区間の中心の値(10~20が最多なら15)を最頻値とする。
最頻値は一つに定まるとは限らない。「0, 1, 1, 2, 3, 3, 4」の場合、最多頻度2回の値が「1」と「3」2つとなり、両者ともに最頻値となる。このように最頻値が複数の場合を「多峰性」(multimodal)の分布、中でも2つの場合を「二峰性」(bimodal)の分布という。最も極端な場合、すべての値が同じ頻度で出現するとすべての値が最頻値となる(最頻値を考える意味がなくなる)。
代表値としては他にも、全体を同じ値に均した「平均値」(average)、順位がちょうど真ん中の値を取る「中央値」(median:メジアン、メディアン)などがある。統計値などがきれいな山型の分布にならない場合には、これらより最頻値で代表させるのが適していることがある。また、平均値や中央値と異なり、「○○という回答が最も多かった」というように数値で表されないデータ(名義尺度)の集計にも適用できるという重要な性質がある。
中央値 【メジアン】 ⭐⭐
値の集団があるとき、最大値から最小値まで順に整列したとき順位がちょうど真ん中である値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。
値を大きい順あるいは小さい順に並べた時、ちょうど真ん中にある値が中央値である。値が偶数個の場合は中央の値が2つになるため、両者の平均値(算術平均)を中央値とする。例えば、「0, 5 ,1, 9, 7」という値の集合がある場合、大きい順でも小さい順でもちょうど3番目が「5」となり、これが中央値となる。
代表値としては値を均した「平均値」(算術平均/相加平均)を用いることが多いが、平均値は極端な値が含まれる場合にその影響を受けやすいという難点がある。例えば、10軒の家があって9軒は車を1台所有しており、残り1軒が11台所有している場合、1軒あたりの平均所有台数は「2台」となるが、実際に2台以上所有しているのは1軒だけである。
このような場合、中央値は5位と6位の中間、すなわち「1台」となり、大半の家が1台のみである実態をよく表している。ただし、時系列の比較などを行う場合、中央値は中央付近の値の動向しか反映しないため、全体の変化の傾向などを表すのには不向きである。
集団の代表値としては平均値、中央値の他にも、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)を用いることがある。先の車の所有台数の例では最頻値も「1台」である。
分散 ⭐⭐⭐
分かれて散らばること。確率・統計の分野では、データの散らばり具合を分散という。IT分野では処理やデータを複数の機器などで分担することを分散処理、分散システムなどという。
統計学の分散
統計学では、あるデータ群のそれぞれの値について平均値との差を取って二乗し、その合計をデータの数で割って平均した値(二乗平均)を分散(variance)という。データ群が平均に対してどのくらい散らばっているかを表す指標として用いられる。
例えば、{10,20,30} という3つの標本の分散は平均値の20を用いて {(10-20)2+(20-20)2+(30-20)2}/3 と表すことができ、約66.7となる。{0,20,40} であれば約266.7となり、すべて平均に等しい {20,20,20} ならば分散は0となる。
分散は算出過程で値を二乗しており元の値とは次元が異なるが、分散の正の二乗根を取って次元を揃えた値を散らばりの指標として用いることがある。これを「標準偏差」(SD:Standard Deviation)と呼び、元の値と同じ尺度で散らばり具合を評価することができる。
分散処理
IT分野では、一つの処理やデータ群に対して複数の機器を動員し、分担して処理する方式を「分散処理」(distributed processing)、「分散システム」(distributed system)、「分散コンピューティング」(distributed computing)などという。
このうち、処理の前後関係に従って異なる機能の機器を連結し、それぞれが特定の工程に専念する方式を「垂直分散システム」、同じ機能の機器を並べて処理を振り分け、並行に処理する方式を「水平分散システム」という。一般には後者を指して単に分散システムと呼ぶことが多い。
クロス集計 ⭐⭐
複数の項目からなるデータの集合があるときに、そのうちの2つ(ないし3つ)の項目を組み合わせて2次元の表の形で集計すること。項目間の関係や相関、傾向などを見やすくまとめることができる。
2つの項目でクロス集計する場合、一方の項目を縦軸、もう一方を横軸として、それぞれについて選択肢を並べる。各マス目には、縦軸と横軸の選択肢を同時に満たすデータを数えて集計値として書き入れていく。
例えば、「性別」「喫煙」の2項目のアンケートがあるとき、単純集計では「喫煙○」と「喫煙×」の数を集計するが、クロス集計表では縦軸を「男性」「女性」、横軸を「喫煙○」「喫煙×」として4つの値を集計する。
さらに、飲酒についても同時に尋ね、縦軸を「男性・飲酒○」「男性・飲酒×」「女性・飲酒○」「女性・飲酒×」の4つに分解し、3項目について同時に集計することを「多重クロス集計」という。
代表的な表計算ソフトのMicrosoft Excel(マイクロソフト・エクセル)では、ロス集計機能のことを「ピボットテーブル」(pivot table)、これをグラフ化する機能を「ピボットグラフ」(pivot chart)という。
相関関係 【相関】 ⭐⭐⭐
2つの事象に関わりがあり、一方が変化するともう一方も変化するような関係のこと。特に、何らかの規則性に基づいて双方の変化が連動しているような関係を指す。
「冬の気温と桜の開花日」や「親の身長と子の身長」のように、傾向として片方が増えるともう片方も増える、あるいは逆に片方が増えるともう片方は減るといった関係性が見られるとき、両者の間に「相関がある」あるいは、両者は「相関関係にある」という。
一方、片方が原因となってもう一方の変化が引き起こされる関係性を「因果関係」という。相関関係は因果関係を含む概念で、因果があれば必ず相関もあるが、相関があるからといって必ずしも因果もあるとは限らない。
統計学では2つのデータ系列の分布について、一方の値が高ければ高いほどもう一方の値も高くなる(同じ方向に連動する)関係を「正の相関」、一方の値が高ければ高いほどもう一方の値は低くなる(逆方向に連動する)という関係を「負の相関」という。
2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば完全な正の相関、「0」ならば相関なし、「-1」ならば完全な負の相関があることを表す。
テキストマイニング ⭐⭐⭐
定型化されていない文字情報(テキストデータ)の集まりを自然言語解析などの手法を用いて解析し、何らかの未知の有用な知見を見つけ出すこと。
「データマイニング」(data mining)の手法を非定型のテキストデータに応用したもので、自然言語の文の蓄積として集められたデータを分析し、鉱山から鉱石などを掘り出す(mining)ように、業務や製品に役立つ情報を探し出す。
目的や具体的な技術は様々だが、多くの場合、文章に形態素解析を行ってテキストを単語やフレーズに分解し、特定の表現の出現頻度やその増減、複数の表現の関連性や時系列の変化などを調べる。
これにより、知られていなかった問題点を見出したり、様々な要素や要因の間の結びつきを可視化したり(共起ネットワーク分析)、顧客や消費者の評判(肯定的か否定的か)や時系列の推移を把握したりする(センチメント分析)ことができる。
対象となるデータの例として、アンケートや報告書などに含まれる自由記述の文章、電子掲示板(BBS)やSNSの書き込み、ニュース記事、OCRでスキャンしてテキストデータ化した過去の書籍、雑誌、新聞の記事などが挙げられる。
散布図 【分布図】 ⭐⭐⭐
一つのデータが複数の量や特性の組として表される場合に、二つの値の間の関係を明らかにするために作成される図。縦軸と横軸にそれぞれ別の特性を割り当て、各データについて対応する位置に点を打って作図する。
点の分布する様子を見て、データを構成する二つの量の間に関連があるか、どのような関連があるかを知ることができる。例えば、点が右上がりの帯状に分布していれば正の相関があると分かり、(左上から)右下がりなら負の相関があると分かる。まんべんなく散らばっていれば相関が薄いか無さそうであると考えられる。
全体の傾向から大きく外れた特異点(外れ値)がどこにあるかも容易に知ることができ、これを除外して計算を行ったり、外れた理由を詳しく調べたりすることもある。また、全体に当てはまる傾向を調べるだけでなく、点の集まり具合から二つの量の関係が同じ傾向を示している項目群をグループ分け(グルーピング)するといった使い方をする場合もある。
ヒストグラム 【度数分布図】 ⭐⭐⭐
データの分布を表す統計図の一つで、縦軸に値の数(度数)、横軸に値の範囲(階級)を取り、各階級に含まれる度数を棒グラフにして並べたもの。どの範囲の値が多く、どの範囲が少ないかを視覚的に表現できる。
値の出現頻度の高い階級は高い棒で、低い階級は低い棒で図示されるため、出現頻度の高低やバラつき具合を視覚的に容易に把握できる。各階級の度数を示す棒のことを「ビン」(bin)と呼ぶことがある。
すべてのビンの面積の総和が全体の度数を表しており、各ビンの面積は全体に占めるその階級の度数の割合を視覚的に表現したものとなっている。同じデータ群でも階級の幅の取り方次第でビンの形状や分布は異なるが、どのような基準で区分すべきかについて様々な方法論が提唱されている。
また、手前のすべての区間の度数を足し合わせた累計値をその区間の度数とし、これを右肩上がりの棒グラフの列で示したものを「累積ヒストグラム」(cumulative histogram/累積度数図)という。端からどの区間までが重要かを見極める場合などに利用される。
度数分布表 ⭐⭐
多数のデータを整理する手法の一つで、値を一定の幅ごとに区切った範囲に属するデータの数を数え、表の形にまとめたもの。どの範囲の値が多く、どの範囲が少ないかを一目で確認できる。
数値データの分布を調べるのに用いられるシンプルな表で、データが取りうる値を均等な幅の区間(これを階級という)に分割し、各階級に属するデータを数える。階級と属するデータの数(これを度数という)を2列の表の形でまとめる。
例えば、テストの点数を表にまとめる場合、「0~19点」「20~39点」「40~59点」「60~79点」「80~100点」といった階級に区切り、それぞれに属する人数を数えて「3人」「5人」「7人」「13人」「5人」などのように書き入れていく。
各階級の中央の値「10点」「30点」「50点」「70点」「90点」を、その階級を代表する「階級値」という。階級の幅は任意に決めてよいが、小さすぎると度数の差がつきにくく、大きすぎると度数の変化が大きすぎて分布の様子が分かりにくくなる。
度数分布表をグラフ化したものを「ヒストグラム」(histogram)という。横軸に階級、縦軸に度数を取り、各階級に度数の長さの棒(長方形)を並べて分布の様子を視覚的に表現する。複数の系列を同じグラフに描画して比較したい場合は棒の代わりに折れ線グラフで度数を表現した「度数分布多角形」(frequency polygon)が用いられる。
降順 【大きい順】 ⭐
数字やアルファベット、ひらがな・カタカナ、日付、時刻、曜日など順序や方向が決まっている要素の列について、本来とは逆の順序のこと。英語の “descending order” を略した “DESC” “desc” などの略号で示されることもある。
データの並べ替え(ソート)における順序の指定などに用いられる概念で、大きい方から小さい方へ、あるいは本来の並び順における末尾側から先頭側へ「降(お)りていく」順序のことを意味する。
数字であれば9、8、7…と大きい値から小さい値へ、アルファベットであれば「Z」から「A」に向けて、カナであれば「ン」から「ア」に向けて、日付や時刻であれば未来側・新しい側から過去側・古い側に向けて並べる順序である。
一方、小さい方から大きい方へ、あるいは本来の並び順の通りに並べる順序は「昇順」(ascending order)という。「1、2、3」「A、B、C」「あ、い、う」といった本来定められた並び順のことである。
昇順 【小さい順】 ⭐
数字やアルファベット、ひらがな・カタカナ、日付、時刻、曜日など順序や方向が決まっている要素の列について、本来定められた順序のこと。英語の “ascending order” を略した “ASC” “asc” などの略号で示されることもある。
データの並べ替え(ソート)における順序の指定などに用いられる概念で、小さい方から大きい方へ、あるいは本来の並び順における先頭側から末尾側へ「昇(のぼ)っていく」順序のことを意味する。
数字であれば1、2、3…と小さい値から大きい値へ、アルファベットであれば「A」から「Z」に向けて、カナであれば「ア」から「ン」に向けて、日付や時刻であれば過去側・古い側から未来側・新しい側に向けて並べる順序である。
一方、大きい方から小さい方へ、あるいは本来の並び順とは逆に並べる順序は「降順」(descending order)という。「9、8、7」「Z、Y、X」「ん、を、わ」といった本来とは逆の並び順のことである。