高校「情報Ⅰ」単語帳 - 東京書籍「情報Ⅰ Step Forward!」 - データの収集・整理・分析
オープンデータ ⭐⭐⭐
誰でも自由に入手や使用、加工、再配布などができるよう広く一般に公開されているデータ。特に、ソフトウェアなどによる自動処理に適した一定のデータ形式に整理・整形された機械可読(マシンリーダブル)なもの。
データの中には著作権などによって保護されていたり、所有者によって入手や利用に制限が課せられ、手続きや対価が必要なものが多くある。オープンデータはこのような制約から解放され、営利・非営利を問わず誰でも自由に使用や再配布が可能なデータを指す。
こうしたデータ公開が期待され、また積極的に行われているのは主に学術・科学分野や公共分野である。大学や研究機関の持つ科学的な資料や、政府や自治体などの公的機関の持つ公共的な情報や、事業などで調査・収集した統計データなどの公開が進められている。
行政などのデータ公開・提供はこれまでも白書やWebサイトなどの形で行われてきたが、これはもっぱら人間が閲覧するための文書として発行されたものであり、ソフトウェアで解析・加工するには人間の手で整形しなければならなかった。オープンデータではコンピュータ上での自動処理を前提としたデータ形式が求められ、XMLやCSVファイル、Excelファイル(XLSXファイル)などの形で提供される。
ある完結したひとまとまりのデータ集合を「データセット」と呼び、これを一つのファイルなどに(複雑・大規模な場合はいくつかに分割して)記録してWebサイトなどで公開する。複数のデータセットを公開する機関やサイトでは、どこにどんなデータセットがどのような形式で公開されているかをまとめた「データカタログ」が作成されることが多い。
2000年代後半頃から、米連邦政府の「Data.gov」や日本政府の「データカタログサイト」(DATA.GO.JP)など、政府機関が提供している様々なオープンデータをまとめたデータカタログや専用のWebサイトを公開する国が増えている。
全数調査 【悉皆調査】 ⭐
統計的な調査を行う際に、対象となる母集団全体を調査対象とする方式。国勢調査のように、標本の抽出などを行わずに対象すべてを虱潰しに調べる調査。
調査の対象となる母集団に含まれるすべての要素を一つ一つ調べる調査方式をこのように呼ぶ。一方、母集団の中から一定の基準や方法で少数の標本(サンプル)を抽出して調査する方式を「標本調査」という。
全数調査はすべての対象についてのデータを揃えることができるため、抽出調査で生じる標準誤差などの不確かさに影響されない。対象の総数が少ない場合は容易に実施できるが、日本人全体など母集団が巨大な場合には大きなコストや長い期間を要したり、そもそも不可能なこともある。
社会調査の多くは標本調査だが、国が5年ごとに実施する、国内の全居住者を対象とした「国勢調査」や、国内の全法人を対象に行われ企業の国勢調査とも言われる「経済センサス」は全数調査として行われている。これらは統計としての意義と共に他の標本調査の基礎となるデータを提供する意義がある。
標本調査 ⭐
統計的な調査を行う際に、対象となる母集団から一定の基準や方法で少数の標本(サンプル)を抽出し、これを対象に調査を実施する方式。社会調査や品質検査などで広く用いられる。
ある母集団に含まれるすべての要素を調査することを「全数調査」(悉皆調査)というが、社会調査の場合は膨大なコストや時間が必要になったり、母集団全体にアクセスすることがそもそも不可能であったりする。商品の品質検査などでは破壊的な検査を全数に行うことはできないという問題もある。
そこで、母集団から一定の方法で要素を抽出して調査を行う標本調査が広く行われている。抽出した要素を「標本」(sample)という。標本に対する調査結果から統計的な推計を行い、母集団全体の状態を推定する。標本による推計値と母集団の本当の値(真の値)とのズレ(乖離)を「標本誤差」という。標本数などから精度の予測は可能だが誤差をゼロにすることはできない。
標本の抽出法
抽出した標本の属性に偏りがあると母集団の状態を正しく推定できないため、なるべく母集団全体を代表する標本の組み合わせを選択する必要がある。適切な抽出方法は母集団の特性により様々で、抽出の枠組みと要素の選出方法を組み合わせて抽出方法を決定する。
抽出の枠組みは母集団を複数の枠に分割してそれぞれの枠から抽出することを指す。特に枠を設けず全体を対象とする「単純抽出」、重なりのない複数のカテゴリーに分けてそれぞれから選出する「層化抽出」(層別抽出)、ある属性が共通している(クラスターを形成している)がそれ以外の属性がバラけている集団から抽出する「集落抽出」(クラスターサンプリング)などがある。
枠(あるいは全体)からの要素の選出方法としては、くじ引きのようにランダムに選ぶ「無作為抽出」、「登録番号の末尾が00で終わる」といったようにある属性の値を規則的に選んでいく「系統抽出」などがある。大規模な調査では、抽出した要素の集合から再び抽出を行う「多段階抽出」(多くの場合は2段階抽出)が行われることもある。
正規化 【ノーマライズ】
データなどをある基準や形式に適合するように、一定の手順や規則に従って変形・変換すること。様々な分野で用いられる概念であり、それぞれ目的や方法などが大きく異なる。
リレーショナルデータベースの正規化
リレーショナルデータベース(RDBMS)では、データの保守性向上や処理の高速化を図るため、データベース内で同じ情報が複数の箇所に重複して記録されず、個々のテーブルは主キーから直接連想されるデータのみで構成されるよう設計するのが理想とされている。
この基準に基づいてデータ構造を再編する作業や操作のことをデータベースの正規化と呼び、正規化の度合いによって第1正規化から第5正規化、およびボイスコッド正規化などの種類に分類されている。
浮動小数点数の正規化
浮動小数点数を符号部、仮数部、指数部に分けてビット列で表す場合、同じ数を同じ符号化方式で表す場合でも仮数と指数の取り方によって複数の表現が可能となるが、標準となる形式を定めてこれに合わせて表現することを正規化という。
IEEE 754などの標準規格では有効数字の桁数が最大限に確保される表現に正規化するよう定められている。具体的には仮数部のビット列の左端の値が0以外になるように仮数を決め、それに合わせて指数が算出される。
XML文書の正規化
XML文書はテキスト形式を採用しているため、ホワイトスペースの扱いや要素の出現順序などに非常に寛容である。しかし、ソフトウェアにXML文書のデータを渡す場合や、データが改竄されていないことを証明するための署名などを行う場合には、XML文書を一定のルールに従って整形しなおす必要がある。
XMLの正規化は「Canonicalized XML」規格に定められたカノニカライズ(canonicalize)と、「XML Normalization」規格に定められたXML文書のノーマライズ(normalize)、XML規格本体に定められた属性値のノーマライズ(Attribute-Value Normalization)の3種類がある。
カノニカライズは論理的に同等の文書がバイナリデータのレベルで完全に一致するように整形する手順を定めており、XML文書が改竄されていないことを証明するための電子署名を有効に機能させるために必要となる。
XML文書のノーマライズは、ソフトウェアが文書の解釈や変換などを行いやすいように表記法を統一する処理を指す。XMLは名前空間を使用する場合などに意味的に同じ内容を複数の表記で書くことができるが、XML Normalization規格ではこれを一定の基準に基づいて統一された表記にすることを求めている。
属性値のノーマライズは、人間の入力の都合や見やすさなどのために様々な表記が混在する属性値を一定の基準で変換し、ソフトウェアが表記の揺れに影響されないようにする処理である。文字参照表現を参照先の文字自体で置き換えたり、改行文字やタブ文字を空白文字(16進数で20)に置き換えたり、連続する複数の空白を一文字に短縮するといった変換が行われる。
OCR 【Optical Character Reader】
紙面を写した画像などを解析して、その中に含まれる文字に相当するパターンを検出し、書かれている内容を文字データとして取り出す装置やソフトウェアのこと。また、そのような方式による自動文字認識。
文字が印刷された紙などをイメージスキャナやカメラなどで撮影し、その中に含まれる線の形状などのパターンを解析して、人間の使う文字や数字、記号に相当するものを発見して文字データの並びとして出力する。
古くから郵便番号の読み取り装置などとして利用されてきたが、近年ではパソコンやスマートフォンなどでも利用できる精度の良い安価なソフトウェアも増え、書類や書籍の電子化、帳簿や伝票などの読み取りシステムなどに応用されている。
書籍のように印刷された紙面の文字は字形が美しく規則正しく並んでいるため認識しやすいが、かすれや汚れで不鮮明な箇所や、人間が手書きした文字などでは認識精度が下がる。また、漢字文化圏では文字の種類の多さや互いにそっくりな形の異なる文字の識別という独特の困難さがあり、アルファベット文化圏では筆記体の読み取りという困難さがある。
これに対し、択一式試験のマークシート式答案用紙の読み取りなどに用いられる、紙面の所定の位置が黒くマークされているか否かを光学的に読み取る装置やシステムのことを「OMR」(Optical Mark Reader:光学式マーク読取装置)という。
量的データ 【量的変数】 ⭐⭐⭐
調査や観測などで得られたデータのうち、物事の量的な側面を表す数値データのこと。長さ、重さ、人数、金額など大小や高低の程度を反映したデータである。
数で表され、数の大きさが量の多寡や性質の強さ、度合いを反映しているようなデータをこのように呼ぶ。物事の質的な側面を表す「質的データ」(質的変数)と対比される。
量的データを測る尺度のうち、数の間隔に意味があるものを「間隔尺度」という。数の間隔が量の大きさを反映している尺度で、温度の摂氏(℃)や年号などが当てはまる。原点が量的な「0」を表さないため値同士の比率には意味がない。
一方、間隔だけでなく値そのものの比に意味があるような尺度を「比例尺度」という。数がそのまま量の大きさを反映しているような尺度で、長さ、面積、体積、重さ、時間、速度、絶対温度、人数、金額など多くの量的データは比例尺度で表される。数で表されていても、数が順序や順位しか表さない、ランキングや段階評価、段位のような「順序尺度」のデータは含まない。
質的データ 【質的変数】 ⭐⭐⭐
調査や観測などで得られたデータのうち、物事の質的な側面を表すデータのこと。数で表されないような記録や、数値の場合は値自体や値同士の差の比率には意味がないようなデータである。
性別や血液型、「はい」「いいえ」を選択するアンケート項目、色、形状など、結果を数値で表すことができないデータや、数字で表されていても自動車ナンバーや電話番号のように大小に意味がない「名義尺度」のデータが含まれる。物事の量的な側面を表す「量的データ」(量的変数)と対比される。
また、数の大小が順位や順序を表していても、間隔や比には意味がない「順序尺度」の数値データも質的データに分類される。例えば、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級などは、上位と下位の区別はできても度合いを数量比較することはできないため質的データに分類される。
構造化データ ⭐⭐
項目の形式や順序など、明確に定義された構造に従って記述、配置されたデータ集合のこと。プログラムによって自動処理するために用いられることが多い。
リレーショナルデータベースのテーブルやCSVファイルのように、一件のレコードの構成、各項目のデータ型や形式、項目の並び順、項目やレコードの区切り文字などが事前に決まっており、同じ構成のレコードの繰り返しとしてデータを列挙したものを指すことが多い。
ソフトウェアによって容易に読み込んで内容を認識させることができ、大量のデータを集計したり分析するのに適している。人間がそのまま眺めて読みやすい形式とは限らず、ソフトウェアによって抽出や集計を行ったり、見やすいよう整形したり、レポートなど別の形式へ変換してから人間に供されることが多い。
一方、Webページや電子メール等のメッセージ、ワープロソフトやプレゼンテーションソフトなどで作成した(見栄え重視の)文書ファイル、画像や音声、動画などのメディアデータといった、決まった形式や配置に従ってデータが並んでいるわけではない不定形なデータ群のことを「非構造化データ」(unstructured data)という。
Webページの構造化データ
WebページのHTMLコードは、Webブラウザにその文書の構造やレイアウトを伝達するという意味では構造化されているが、書かれている情報をサイト横断的に同じ形式に従って自動収集・処理できるような構造にはなっていない。
そこで、ソフトウェアが自動処理しやすいようページ内に書かれている内容を特定の規約に則って構造化データとして記述する手法が提唱されている。同じ情報を人間向けと機械向けに同じページに埋め込んでおき、ブラウザは人間向けのデータを表示し、Webロボットなどの自動処理プログラムは機械向けのデータを収集する。
様々な手法が提唱されているが、現在有力な方式はHTMLのヘッダ領域などにJSON-LD形式でスクリプトの形で情報を埋め込む手法で、Schema.orgという業界団体が情報の種類ごとにデータの記述形式(スキーマ)の標準を提案している。
例えば、ある行事の開催案内のWebページに、Schema.orgの定義する「Event」(行事)のスキーマで構造化データを埋め込むことで、巡回してきたロボットに行事名や主催、出演者、開催日時などを伝達することができる。
外れ値 ⭐⭐⭐
調査や測定、観測などで同種のデータをいくつも取得したとき、全体のデータの傾向から大きく外れた値のこと。統計処理などの際に一定の基準を設けて除外することがある。
収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを外れ値という。このうち、測定機器の不具合や記入ミスなど、何らかの誤りによっておかしな値になってしまったものは「異常値」という。対象や方法によって、異常値と異常値以外の外れ値を区別できる場合とできない場合がある。
外れ値を含んだデータをそのまま分析すると、平均値や相関係数などの統計量に大きな影響を与え、歪んだ結果が導き出されることがある。このため、一定の基準を設けて外れ値を取り除く操作を行うことがある。
よく用いられる手法として、箱ひげ図を描いて「第1四分位数-箱の幅×1.5以下」「第3四分位数+箱の幅×1.5以上」のデータを外れ値と判定する方法がある。また、平均値や標準偏差などから特定の統計量を算出し、基準値を設けて判定する方法もある。こうした検定にはスミルノフ・グラブス検定やトンプソン検定などが知られている。
なお、用意した結論に都合のよいデータのみを残してそれ以外を外れ値として排除することはデータの改竄とみなされる可能性があるため値の削除は慎重に行う必要がある。どんな調査や観測でも、現実の対象を調べれば全体の傾向から外れたサンプルが存在するのは普通のことであるため、異常値として理由が説明できる値以外は恣意的に取り除くべきではないとする考え方もある。
欠損値 【欠測値】 ⭐⭐⭐
調査や測定、観測などでデータを収集した際、あるデータの記録場所を参照してもデータが記録されておらずに欠けていること。一定周期で観測値を記録するシステムでデータが欠けた時刻がある場合などが該当する。
観測において、装置の不具合や操作ミスなどで測定値が得られなかった状態や、調査において特定の記入項目が空欄で記載されていない状態などを指す。値は存在するが傾向から大きく外れている「外れ値」や、装置故障やミスなどでおかしな値になってしまった「異常値」とは異なる。
観測における欠測などは機械的に取り除いて分析することが多いが、調査では記入が任意の項目が複数ある場合などに完全にデータが揃っているサンプルが十分な数揃わないこともある。そのような場合には欠損の多い項目を解析から外したり、平均値などの代表値で穴埋めしたり、他の項目の値が似ているサンプルのデータで補完するといった操作を行うことがある。
比例尺度 【比率尺度】 ⭐⭐
統計などで用いられる数値データの尺度のうち、数字が順序や間隔を表すともに、値の比や割合も議論することができるもの。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
比例尺度は最も高い水準の尺度で、数字がそのまま何らかの量の大きさを表している。値の「0」は「存在しない」ことを表す原点であり、値の間隔や比には意味がある。加減乗除などの計算も行うことができ、すべての統計量を使うことができる。
例としては、長さや面積、体積、重さ、時間、速度、絶対温度などの物理量、金額、個数などが該当する。一段階低い水準の間隔尺度である摂氏では27℃が54℃になったからといって温度が2倍になったとは言えないが、絶対温度600K(約327℃)は300K(約27℃)の2倍の温度と言うことができる。
順序尺度 ⭐⭐⭐
統計などで用いられる数値データの尺度のうち、数字の大小が順番や順位を表すようなもの。大小や高低、前後の比較はできるが、値の差や比には意味がない。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
順序尺度は名義尺度に次いで2番目に低い水準の尺度で、数字の大小で順序を表すことができる。大きさを比較したり順位を付けることができるが、値同士の差や他の値との比、割合などには意味がなく、値の計算を行うこともできない。統計量としては度数や最頻値に加え、中央値や四分位数、パーセンタイルなどが使用できる。
例としては、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級、自動車保険の等級、がんのステージ、国際原子力事象評価尺度などが該当する。「将棋8段は4段より強い」とは言えるが、「2倍強い」といった比較はできない。
間隔尺度 ⭐⭐⭐
統計などで用いられる数値データの尺度のうち、数字の大小が順序を表すと共に、2つの値の差の大きさに意味があるもの。値の比には意味がない。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
間隔尺度は比例尺度についで2番目に高い水準の尺度で、数字の間隔が量の大きさを表すような尺度である。値の差が等しければ同じ間隔が空いていることを意味するが、「0」で表される点は量が0になる原点ではなく便宜上置いたものである。値自体の比には意味がないが、値の差同士の比には意味がある。統計量としては最頻値や中央値、パーセンタイルなどに加え、平均値(相加平均)や標準偏差、相関係数なども使うことができる。
例としては、温度の摂氏(℃)や華氏、西暦や元号で表した年、日付などがある。15℃が20℃になるのと20℃が30℃になるのでは2倍の温度上昇が生じたと言うことができるが、15℃が30℃になったのを温度が2倍に上昇したと言うことはできない。
名義尺度 【類別尺度】 ⭐⭐⭐
統計などで用いられる数値データの尺度のうち、対象や状態を区別するためだけに(便宜上の)数字を割り当てたもの。値は順番や順位を意味せず、値の差や比にも意味はない。
統計的な変数やその値を、情報の性質に基づいて分類したものを「尺度水準」という。1946年に米心理学者スタンレー・スティーブンズ(Stanley S. Stevens)が提唱した、「名義尺度」「順序尺度」「間隔尺度」「比例尺度」の4段階に分類する考え方が広く普及している。
名義尺度は最も低い水準の尺度で、数字は対象や状態を識別する名前の役割しか果たさず、量的な意味合いを一切もたない。値が同じか異なるかを見分けるためだけに使用することができ、順序、間隔、大きさ、比率などを表すことはできず、値の計算にも意味がない。統計量としては各値の度数や出現頻度、最頻値などを求めることはできる。
例としては、電話番号や郵便番号、学籍番号、背番号、国際電話の国番号、総務省の都道府県コードなどがある。例えば、都道府県コードで「10」が群馬県、「20」が長野県だが、群馬県が何かで10位であるとか、長野県の何かが群馬県の2倍であるといった意味はない。
テキスト形式 【テキストデータ】 ⭐
コンピュータ向けのコードなどを含まず、人間が読むことのできる文字のみで構成されたデータのこと。ある文字コードで文字として規定される範囲のデータのみを含む。
コンピュータでは内部的にすべてのデータを2進数の数値の並び(ビット列)として表現しているが、人間の使っている文字を扱えるようにするため、特定の番号と文字を対応付ける「文字コード」(character code)が規定されている。例えば、最もよく使われているASCII文字コードでは、「65」という数値(2進数では「1000001」)が「A」というアルファベットに対応付けられている。
テキスト形式は、この文字コードで規定された自然言語の文字と、表示制御のための少数の制御コード(空白や改行など)のみを含み、人間が容易に読み書きできる形式のデータを指す。これに対し、コンピュータプログラムによって読み書きや処理を行うことを前提に、文字コードの規約を用いずに任意のビット列によって構成されるデータのことをバイナリ(binary)形式、バイナリデータなどという。
広義のテキスト形式は文字のみで構成されたデータ全般を意味するが、これには文字によってコンピュータへの指示などを記述したHTML形式やコンピュータプログラムのソースコードなどが含まれる。狭義のテキスト形式はこのようなコンピュータ向けの記述を含まず、純粋に人間が読み書きするための文字情報だけで構成されたものを指し、そのことを明示するため「プレーンテキスト」(plain text)と呼んで区別される場合がある。
バイナリ 【バイナリデータ】
2値(の)、2進数(の)、2元(の)、などの意味を持つ英単語。IT関連ではテキスト(文字)以外のデータ形式全般を総称してバイナリ形式と呼ぶことが多い。
コンピュータはすべての情報を2進数の「0」と「1」が並んだビット列として表現する。このうち、何らかの文字コード規格に基づいて文字を表すデータを「テキストデータ」(テキスト形式)、そうでないものを「バイナリデータ」(バイナリ形式)と分類する。
バイナリ形式のデータの例としては画像や音声、動画などを記録したメディアデータ、実行可能形式のコンピュータプログラム(オブジェクトコード/バイナリコード)、圧縮データ、暗号データなどがある。
バイナリ形式におけるビット列のパターンと意味の対応関係はデータ形式やソフトウェアの種類ごとに規定されている。その形式に対応したソフトウェア以外では何が記録されているのか分からず、内容を表示したり編集することはできない。
バイナリエディタのように形式を限定せずにバイナリファイルの表示や編集を行うソフトウェアもあり、形式不明のファイルの解析など特殊な用途に用いられる。その場合、データの先頭から順に2進数の4桁を一つのまとまりとして1桁の16進数(0~F)に置き換えて表示することが多い
テキストデータは人間が文字として取り扱うことができるというだけでコンピュータにとってはパターンが限定されたビット列の一種であるため、伝送や圧縮、暗号化などを行う際は文字としての側面はひとまず捨象して、他のバイナリデータと同じように単なるビット列として扱うことが多い。
IT分野以外でバイナリ形式という語が用いられることは稀だが、金融や商取引などの分野で、2つの系列からの選択や、二者択一の予測などの状況を指してバイナリ形式と表現することがある。
インデックス ⭐
索引、見出し、添字、指数などの意味を持つ英単語。ITの分野では、書籍の巻末の索引のように、多数のものの中から特定の対象をすばやく見つけ出すため識別情報や、整列された所在情報の一覧などを指すことが多い。
プログラミングなどの分野では、同種の複数のものが並んでいるときに、個々の要素を区別するために付けられた通し番号などの識別情報をインデックスという。配列の要素を指し示す添字などが該当する。
データベースやファイルシステム、検索エンジンなどでは、収集・格納された大量のデータをすばやく検索・抽出するために作成された索引データをインデックスという。データ本体を端から順に探すよりも圧倒的に短い手順で目的のデータを探し出せる。
具体的には、見出しとなる識別符号と、データ本体のある所在情報などを対応付け、整列・分類などを行ったあと木構造やハッシュテーブルなど検索に適したデータ構造に格納したものを指すことが多い。
AND検索 【アンド検索】 ⭐
情報を検索する際の条件の指定方法の一つで、複数の条件をいずれも満たすものを検索すること。
条件AとBがあるとき、検索条件を「A and B」と指定すると、「AとBの両方の条件を満たす」という意味になる。条件が3つ以上の場合も同様で、挙げられたすべてを満たすという意味になる。
Web検索エンジンのキーワード指定では、キーワードを半角スペースで区切るとAND検索の指定を意味することが多く、列挙したキーワードすべてを含むページを検索せよという意味になる。例えば、「スクリーンショット Android」と検索すると、「スクリーンショット」と「Android」の両方を含むページが検索される。
一方、挙げられた条件の少なくとも一つを満たすものを検索することは「OR検索」、ある条件を満たさないものを検索することは「NOT検索」という。
OR検索 【オア検索】 ⭐
情報を検索する際の条件の指定方法の一つで、複数の条件のうち少なくともいずれか一つを満たすものを検索すること。
条件AとBがあるとき、検索条件を「A or B」と指定すると、「AとBのいずれかの条件を満たす」という意味になる。条件が3つ以上の場合も同様で、挙げられた条件の少なくともいずれか一つを満たすという意味になる。
Web検索エンジンのキーワード指定では、キーワードを「|」(縦棒、縦線、バーティカルバーなどと呼ばれる)で区切るとOR検索の指定を意味することが多く、列挙したキーワードのいずれかを含むページを検索せよという意味になる。例えば、「iPad|Androidタブレット」と検索すると、「iPad」と「Androidタブレット」のどちらか、あるいは両方を含むページが検索される。
一方、挙げられた条件のすべてを満たすものを検索することは「AND検索」、ある条件を満たさないものを検索することは「NOT検索」という。
NOT検索 【マイナス検索】 ⭐
情報を検索する際に条件を指定する方法の一つで、ある条件を満たさないものを検索すること。
条件Aについて検索条件を「not A」と指定すると、「Aを満たさない」という意味になる。通常は他の検索条件と組み合わせ、得られた検索結果から特定の条件に一致するものだけを除外するために用いられる。
一方、複数の検索条件を列挙して「すべてを満たす」ものを検索する指定方法は「AND検索」(アンド検索)、「少なくとも一つを満たす」ものを検索する指定方法は「OR検索」(オア検索)という。
検索エンジンのマイナス検索
Web検索エンジンのキーワード指定では、キーワードの先頭に「-」(ハイフン、マイナス記号)を付けるとNOT検索の意味になる記法を採用していることが多く、「マイナス検索」とも呼ばれる。
通常は他のキーワードや検索条件と組み合わせて検索結果を絞り込むのに用いられる。例えば、「アリ -シロアリ」と検索すると、「アリ」を含むWebページから「シロアリ」を含むものを除外したページ一覧が表示される。
データサイエンティスト ⭐
統計解析や数理解析、機械学習、プログラミングなどを駆使して大量のデータを解析し、有用な知見を得る職業あるいは職種。
企業の事業活動の電子化、コンピュータ化が進み、取得可能なデータや実際に蓄積されるデータの種類や量は飛躍的に増大したが、IT部門はデータの記録や管理のみ、ビジネス部門は表計算ソフトでの集計など定型的な利用のみの場合が多く、十分な利活用がされないまま死蔵される例が多かった。
データサイエンティストは様々な意思決定上の局面やビジネス上の課題を認識し、データによって立証可能な仮説やモデルを組み立て、蓄積された実際のデータ群に対して様々な処理手法や解析手法を適用することで、現実の課題解決に資する有用な知見を提供する。
具体的なスキルとして、対象領域への基本的な理解やビジネス部門との折衝、解析結果のドキュメンテーションやプレゼンテーションといったビジネス領域のスキル、統計や数理解析、線形代数、機械学習、データモデリングなどの数理科学やコンピュータ科学の知識、データベース操作やデータ形式の理解、プログラミング、データ加工・変換・処理の技法といったエンジニアリング領域の技能が総合的に求められる。
日本では2011年頃からビッグデータ活用の重要性が叫ばれるようになるなか、データ活用を推進する具体的な人材像として2013年頃から「データサイエンティスト」という職種が認識され始めた。十分な技能を持ったデータサイエンティストは常に人材不足であるとされ、今後もそのニーズは高まっていくと予想されている。
大学などが専門のコースやカリキュラムを編成する事例が見られるほか、日本数学検定協会の「データサイエンス数学ストラテジスト」やデータサイエンティスト協会の「データサイエンティスト検定」、統計質保証推進協会の「統計検定 データサイエンス基礎」など民間資格の認定制度も相次いで開始されている。
ビッグデータ ⭐⭐⭐
従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。
多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。
今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。
米大手IT調査会社ガートナー(Gartner)社では、ビッグデータを特徴づける要素として、データの大きさ(Volume)、入出力や処理の速度(Verocity)、データの種類や情報源の多様性(Variety)を挙げ、これら3つの「V」のいずれか、あるいは複数が極めて高いものがビッグデータであるとしている。これに価値(Value)や正確性(Veracity)を加える提案もある。
コンピュータやソフトウェアの技術の進歩は速く、具体的にどのような量や速度、多様さであればビッグデータと言えるかは時代により異なる。ビッグデータという用語がビジネスの文脈で広まった2010年代前半にはデータ量が数テラバイト程度のものも含まれたが、2010年代後半になるとペタバイト(1000テラバイト)級やそれ以上のものがこのように呼ばれることが多い。
近年ではスマートフォンやSNS、電子決済、オンライン通販の浸透により人間が日々の活動で生み出す情報のデータ化が進み、また、IoT(Internet of Things)やM2M、機器の制御の自動化などの進展により人工物から収集されるデータも爆発的に増大している。
また、人工知能(AI)の構築・運用手法として、膨大なデータから規則性やルールなどを見出し、予測や推論、分類、人間の作業の自動化などを行う機械学習(ML:Machine Learning)、中でも、多階層のニューラルネットワークで機械学習を行う深層学習(ディープラーニング)と呼ばれる手法が台頭している。
このような背景から、膨大なデータを的確、効率的に扱う技術上の要請はますます高まっており、統計やデータ分析、大容量データを扱う手法やアルゴリズムなどに精通した「データサイエンティスト」(data scientist)と呼ばれる専門職の育成が急務とされている。
データマイニング ⭐
蓄積された大量のデータを統計学や数理解析などの技法を用いて分析し、これまで知られていなかった規則性や傾向など、何らかの未知の有用な知見を得ること。
「マイニング」(mining)とは「採掘」の意味で、膨大なデータの集積を鉱山に、そこから有用な知見を見出すことを資源の採掘になぞらえている。適用分野や目的、対象となるデータの種類は多種多様だが、ビジネスの分野では企業が業務に関連して記録したデータ(過去の取引記録、行動履歴など)を元に、意思決定や計画立案、販売促進などに有効な知見を得るために行われることが多い。
例えば、小売店の商品の売上データの履歴は、それ自体は会計上の手続きや監査などの業務にしか使われないが、データマイニングの手法で統計的に処理することで、これまで知られていなかった「商品Aと商品Bを一緒に購入する顧客が多い」といった傾向が分かる場合がある。これにより、AとBの売り場を統合するといった販売促進施策を行うことが可能となる。
商業分野だけでなく、自然言語処理やパターン認識、人工知能などの研究などでも利用される。分析・解析の手法も様々だが、代表的な手法としては、頻度の高いパターンの抽出や、相関関係にある項目の組の発見、データの特徴や共通点に基づく分類、過去の傾向に基づく将来の予測などがある。
近年では、一般的なシステムやソフトウェアでの解析が困難な巨大なデータセットである「ビッグデータ」を対象とした解析手法や、人工知能の一分野である機械学習、特に先進的な手法である「ディープラーニング」を応用したマイニング手法などが活発に研究・開発されている。
代表値 ⭐
値の集団があるとき、全体の特徴を一つの値で表したもの。平均値や中央値、最頻値などいくつかの種類があり、特性や向き不向きが異なる。
統計調査などで様々な対象から値を取得すると、様々な大きさの値が集まるが、値全体を要約し、その中心的な傾向を把握することができる一つの値を代表値という。
最もよく用いられるのは「平均値」(average)で、全体の総量が変わらず、すべて同じ値だったらいくつになるかを求めたものである。総量の表し方によりいくつかの種類があるが、最も一般的な「算術平均」(単純平均/相加平均)では、全体の和を値の数で割って求める。
他に、大きい順あるいは小さい順に並べ替えたときに順位がちょうど真ん中の値で代表する「中央値」(median:メジアン/メディアン)や、各値の出現回数(頻度/度数)を数えて最も多く出現する値で代表する「最頻値」(mode:モード)などが用いられる。
平均はすべての値を評価に含めることができるが、少数の極端な値(外れ値)に影響されやすい。中央値は外れ値の影響を受けないが、中央付近の値の変動しか評価しないため時系列の変化を表すのは苦手である。最頻値は値の分布の偏りが小さい(一様に近い)集団が苦手だが、数値で表されないデータ(名義尺度)の集計にも適用できる。
クロス集計 ⭐⭐
複数の項目からなるデータの集合があるときに、そのうちの2つ(ないし3つ)の項目を組み合わせて2次元の表の形で集計すること。項目間の関係や相関、傾向などを見やすくまとめることができる。
2つの項目でクロス集計する場合、一方の項目を縦軸、もう一方を横軸として、それぞれについて選択肢を並べる。各マス目には、縦軸と横軸の選択肢を同時に満たすデータを数えて集計値として書き入れていく。
例えば、「性別」「喫煙」の2項目のアンケートがあるとき、単純集計では「喫煙○」と「喫煙×」の数を集計するが、クロス集計表では縦軸を「男性」「女性」、横軸を「喫煙○」「喫煙×」として4つの値を集計する。
さらに、飲酒についても同時に尋ね、縦軸を「男性・飲酒○」「男性・飲酒×」「女性・飲酒○」「女性・飲酒×」の4つに分解し、3項目について同時に集計することを「多重クロス集計」という。
代表的な表計算ソフトのMicrosoft Excel(マイクロソフト・エクセル)では、ロス集計機能のことを「ピボットテーブル」(pivot table)、これをグラフ化する機能を「ピボットグラフ」(pivot chart)という。
相関関係 【相関】 ⭐⭐⭐
2つの事象に関わりがあり、一方が変化するともう一方も変化するような関係のこと。特に、何らかの規則性に基づいて双方の変化が連動しているような関係を指す。
「冬の気温と桜の開花日」や「親の身長と子の身長」のように、傾向として片方が増えるともう片方も増える、あるいは逆に片方が増えるともう片方は減るといった関係性が見られるとき、両者の間に「相関がある」あるいは、両者は「相関関係にある」という。
一方、片方が原因となってもう一方の変化が引き起こされる関係性を「因果関係」という。相関関係は因果関係を含む概念で、因果があれば必ず相関もあるが、相関があるからといって必ずしも因果もあるとは限らない。
統計学では2つのデータ系列の分布について、一方の値が高ければ高いほどもう一方の値も高くなる(同じ方向に連動する)関係を「正の相関」、一方の値が高ければ高いほどもう一方の値は低くなる(逆方向に連動する)という関係を「負の相関」という。
2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば完全な正の相関、「0」ならば相関なし、「-1」ならば完全な負の相関があることを表す。
因果関係 【因果】 ⭐
2つの事象が原因と結果の関係になっていること。一方の事象に起因して、ある特定の機序によってもう一方の事象が生起されるような関係。
「降水量が増えると川が増水する」といったように、ある事象が別の事象の原因となっているような関係である。「降水量の増大」と「川の増水」の間には「降った雨水が川に流れ込む」という機序が存在する。
一方、2つの事象の変化の間に「一方が変化するともう一方も変化する」という傾向が存在する場合、これを「相関関係」あるいは略して「相関」という。相関は因果を含む概念で、因果関係にある事象間には必ず相関もある。逆に、相関があるからと言って両者に因果があるとは限らない。
例えば、河川敷の湿度と川の水位の変化に相関が見られたとして、「湿度上昇によって水位上昇が引き起こされた」あるいは「水位上昇によって湿度上昇が引き起こされた」とは言えない。両者は共に「降水」という共通の原因の結果に過ぎないからである。このように両方に影響する外部の要因を「交絡因子」という。
疑似相関 【見せかけの相関】
二つの事象の間に相関が見られるが、因果関係は存在しない状態のこと。両者とも共通の原因の結果である場合などに生じる。
二つの事象AとBの傾向に相関が認められる場合、両者に因果関係があり、原因Aによって結果Bが生じている、あるいはその逆であることが疑われる。しかし、AもBの共通する原因X(潜伏変数あるいは交絡因子という)の結果である場合、AとBの間に因果は無い。このような関係を疑似相関という。
例えば、月ごとのリップクリームの売上と火災の発生件数に強い相関が認められたとして、リップクリームが火災の原因になったり、火災がリップクリーム購入の動機になっているのかというと、そうではなく、「季節による湿度の変動」という共通の原因によって両者に同じ傾向の変動が起こっているだけである。
交絡因子 【交絡変数】
2つの事象の間に相関関係が見られるとき、その両方に相関する外部の別の因子のこと。そのような因子が存在する状況を「交絡」という。
2つの事象AとBの傾向に相関が認められる場合、両者に因果関係があり、原因Aによって結果Bが生じている、あるいはその逆であることが疑われる。しかし、AにもBにも影響する共通の別の要因Xが存在する場合がある。このXを交絡因子という。統計モデルにおける変数としては「交絡変数」あるいは「潜伏変数」と呼ぶ。Xを介してAとBが相関している状態を「擬似相関」という。
例えば、月ごとのリップクリームの売上と火災の発生件数に強い相関が認められたとして、リップクリームが火災の原因になったり、火災がリップクリーム購入の動機になっているのかというと、そうではなく、「季節による湿度の変動」という共通の原因によって両者に同じ傾向の変動が起こっている。このとき「湿度の変動」が交絡因子であり、リップクリームと火災は互いに因果関係にない擬似相関となっている。
テキストマイニング ⭐⭐⭐
定型化されていない文字情報(テキストデータ)の集まりを自然言語解析などの手法を用いて解析し、何らかの未知の有用な知見を見つけ出すこと。
「データマイニング」(data mining)の手法を非定型のテキストデータに応用したもので、自然言語の文の蓄積として集められたデータを分析し、鉱山から鉱石などを掘り出す(mining)ように、業務や製品に役立つ情報を探し出す。
目的や具体的な技術は様々だが、多くの場合、文章に形態素解析を行ってテキストを単語やフレーズに分解し、特定の表現の出現頻度やその増減、複数の表現の関連性や時系列の変化などを調べる。
これにより、知られていなかった問題点を見出したり、様々な要素や要因の間の結びつきを可視化したり(共起ネットワーク分析)、顧客や消費者の評判(肯定的か否定的か)や時系列の推移を把握したりする(センチメント分析)ことができる。
対象となるデータの例として、アンケートや報告書などに含まれる自由記述の文章、電子掲示板(BBS)やSNSの書き込み、ニュース記事、OCRでスキャンしてテキストデータ化した過去の書籍、雑誌、新聞の記事などが挙げられる。
表計算ソフト 【スプレッドシート】 ⭐⭐
データが並んだ表を作成・編集することができるアプリケーションソフト。表中の項目間で集計や解析を行ったり、グラフに表したりすることができる。
縦横に並んだマス目(セル)の広がる表を用い、各セルにデータや計算ルールなどを入力・設定していくと、ソフトウェアが自動的に計算や処理を実行し、所定の位置に計算結果を代入したり、グラフを描画したりしてくれる。
このマス目の並んだ表のことを「スプレッドシート」(spreadsheet)あるいは「ワークシート」(worksheet)と呼び、一つのファイルに複数のシートを収めることができる。表計算ソフト自体を指してスプレッドシートと呼ぶこともある。
計算ルールには特定範囲の合計や平均を算出するといった単純なものから、数学的な関数や統計関数、財務関数などが利用できる。数値を扱う関数以外にも、日付や時刻を扱う関数、論理式を扱う関数、文字列を操作する関数、特定の条件を満たす値を数え上げる関数など、様々な種類がある。
表に貼り付けるように矩形の領域を設けて内部にグラフを描画する機能があり、特定の範囲のデータを対象にして折れ線グラフや棒グラフ、円グラフ、散布図などを描くことができる。セルの内容を変更すると、追随してすぐにグラフに反映されるようになっている。
行や列の幅や高さを変更したり、先頭のセルに項目名を記載したり、表やセルに枠線や背景色、文字書式、表示形式などを設定して見栄えを整える機能もあり、ファイルとして配布して入力フォームに利用したり、そのまま印刷して資料や帳票などとして用いる場合もある。
製品
パソコン向けの表計算ソフトとしては、米マイクロソフト(Microsoft社)のオフィスソフト「Microsoft Office」の一部として提供される「Microsoft Excel」(マイクロソフト・エクセル)が世界的に最も有名でシェアが高く、「Excel」を表計算ソフトの代名詞のように扱うこともある。
他にも、米アップル(Apple)社の「Numbers」や、オープンソースのLibreOfficeやApache OpenOfficeに含まれる「Calc」などが知られる。米グーグル(Google)社の「Google Sheets」(日本名は「Googleスプレッドシート」)のようにWebブラウザで操作できるネットサービスもある。
セル
細胞、気泡、マス目、小区画、個室、小部屋、独房、小集団、班などの意味を持つ英単語。何らかの大きな構造が均質の小さな単位の組み合わせでできているときに、その単位を生物の細胞になぞらえてこのように呼ぶ。
表計算ソフトのセル
表計算ソフトや文書作成ソフト、Webページなどで、表(テーブル)を構成する一つ一つのマス目のことをセルという。通常は表計算ソフトのマス目をセルと呼ぶ。
表計算ソフトは碁盤の目のように内部が分割されたスプレッドシート(spread sheet)と呼ばれる表を用いてデータの整理や計算を行うが、表の内部のひとつひとつの小さな区画のことをセルという。セルには数値や文字列、日付、計算式、関数などを記述でき、演算を行う場合は他のセルの内容を呼び出して用いることができる。
セルの位置は行番号と列番号の組み合わせで識別される。Microsoft Excelなど多くのソフトでは列番号にアルファベット(A,B,C,…)、行番号に自然数(1,2,3,…)が割り当てられ、これらを組み合わせて「A1」「C10」のように位置を指定する。列数が26行を超える場合は「Z,AA,AB,…,AZ,BA,…,ZZ,AAA,…」のように桁数が増えていく。
相対参照と絶対参照
<$Img:Cell-2.jpg|right|[PD]|https://commons.wikimedia.org/wiki/File:X-office-spreadsheet.svg>あるセルから別のセルを参照する際、セル間の相対的な位置関係を指定することを「相対参照」、特定のセルの絶対的な位置を指定することを「絶対参照」という。多くのソフトでは「A1」のような記法は相対参照とみなされ、「$A$1」のような記法が絶対参照を表す。
例えば、B1セルに「=A1*2」という式を書くと内部的には「左隣のセルの2倍」という意味になり、これを一段下のセルにコピーすると自動的に「=A2*2」に書き換わる。一方、「=$A$1*2」と記述すると常にA1セルを指し示す絶対参照となり、「A1セルの2倍」という意味になる。一段下にコピーしても「=$A$1*2」のままである。
移動体通信のセル
<$Img:Cell-3.png|right|[PD]|https://freesvg.org/vector-clip-art-of-honey-icon>携帯電話・移動体データ通信で、一つの無線基地局がカバーする通信可能な範囲をセルという。数百mから数km程度のセルを隙間なく配置して通話エリアを形成したものを「セルラーネットワーク」(cellular network)と呼び、そのような無線通信方式をセルラー方式という。
地上に基地局を配置する現代の移動体通信網のほとんどがこの方式を用いており、英語で携帯電話のことを “mobile phone” 以外に “cellular phone” あるいは略して “cell phone” と呼ぶほど定着している。
範囲による分類
一つのセルの範囲は通信規格などによって異なり、一般的な携帯電話基地局では最大数キロメートルの「マクロセル」(macrocell)を用いるが、PHSのように数百メートル程度の「マイクロセル」(microcell)を多数設置する方式もある。
また、近年では電波の届きにくい場所や建物内に数メートルから数十メートルをカバーする「ナノセル」(nanocell)あるいは「ピコセル」(picocell)を補完的に設置したり、家庭などで光ファイバーなどの固定回線に接続して使う「フェムトセル」(femtocell)が使われることもある。