ITパスポート単語帳 - 企業活動
経営理念 ⭐⭐⭐
企業が活動する際の最も基本的な方針を明文化したもの。創業者や経営者が策定し、全社に周知したり、外部に公表する。
企業の存在意義や使命、創業者や経営者の持つ理想や信念、社員が共有すべき規範や価値観、基本姿勢などを文章や箇条書きなどの形で示したものを指す。何をどのように記述するかについて決まり事があるわけではないが、通常は時代や世代を超えて共有できる抽象的な表現とする。
経営理念に基づいて、企業の目指す理想像や将来像を定めたものを「経営ビジョン」、現在の状態や置かれた状況に基づいて定めた当面の活動方針を「経営戦略」という。経営理念を日々の業務で実践するために社員の行動規範などを別に定める場合もある。小規模な企業などでは明文化された経営理念を持たないことも多い。
株主総会 ⭐⭐
株式会社の株を所有する者が一堂に会して、取締役の選任など重要事項の議決などを行う会合。株式会社の最高議決機関。
株式会社は株を発行し出資金を得る。出資者は金額に応じた数の株を得て、会社の共同所有者となる。経営上の意思決定や業務の執行は取締役や執行役などの役員を中心に行われるが、役員の指名や会社の合併や分割、事業部門や子会社の売買、定款の変更など重要事項は株主総会が決議する。
年に一度、事業年度の終了後に開催されるものを「定時株主総会」、経営上の重大な事案があり定時総会を待たずに緊急に開催されるものを「臨時株主総会」という。上場企業では多数の個人株主も参加するため、広い会場を借り切って開催し、経営陣への質疑応答などにも応じる。
CSR 【Corporate Social Responsibility】 ⭐⭐⭐
企業が社会に与える影響について責任を持ち、社会の持続的発展のために貢献すべきとする考え方。また、そのような考え方に基づいて実践される諸活動。
企業が株主に対する責任を果たして利潤を追求するだけでなく、社会の一員として従業員や取引先、消費者、地域住民、行政、社会全体といった様々な利害関係者(ステークホルダー)を尊重し、自らの影響に対する責任を果たすための自発的な取り組みを指す。
具体的には、環境保護、人権尊重(途上国の委託工場の労働環境の監督など)、顧客や消費者への積極的な情報開示(原材量の調達元の公表など)、公正な取引(下請け企業との取引条件の開示・改善や、いわゆるフェアトレードなど)などの活動を行う企業が多い。
ヨーロッパでは業務や事業のあり方を規定する指針の一つとして企業の社会的責任に取り組む企業が多いのに対し、アメリカでは寄付や慈善事業、ボランティア活動、地域貢献など、利潤を社会に還元したり地域の一員として貢献するのが企業の社会的責任であるといった考え方の企業が多い。
日本もアメリカ型に近く、エネルギー企業が植林を行なったり、金融機関が学校に投資家教育を提供したりと、事業分野と関連はあるが本業とは別に社会貢献活動を行うのが企業の社会的責任活動であると考える企業が多い。日本独特の考え方として法令遵守(コンプライアンス)を企業の社会的責任に含めることがある。
ISO(国際標準化機構)では企業の社会的責任(正確には企業に限らない様々な主体の社会的責任)のガイドラインとして2010年にISO 26000を策定した。この中では7つの原則として
- 説明責任 (Accountability)
- 透明性 (Transparency)
- 倫理的な行動 (Ethical behavior)
- ステークホルダーの利害の尊重 (Respect for stakeholder interests)
- 法の支配の尊重 (Respect for the rule of law)
- 国際行動規範の尊重 (Respect for international norms of behavior)
- 人権の尊重 (Respect for human rights)
を挙げている。
社会的責任投資 【SRI】
企業への投資を検討する際、経済的な側面だけでなく企業の社会的責任(CSR:Corporate Social Resposibility)を勘案すること。
従来の投資判断は企業が生み出す利益に着目し、売上高や経常利益、利益率、キャッシュフローといった金銭的な指標(財務指標)によって企業価値や投資可否を検討するのが一般的だった。
社会的責任投資ではこれらの指標に加えて、環境保護や省資源、公正な雇用・取引慣行、地域社会への貢献といったCSRへの取組状況を考慮して投資先の選定を行う。広義には、CSRに限らず何らかの社会的な価値観に基いて銘柄選択を行う投資手法全般を指すこともある。
CSRや社会的・倫理的な側面は財務指標のように定量化して評価することが難しい。「兵器、アルコール、タバコ、ギャンブル、アダルト関連はNG」等といった特定の基準を設けて業種や銘柄を排除する「ネガティブスクリーニング」、再生可能エネルギーなど社会の持続性に貢献する事業やCSRへの取り組みが秀でている企業を選定して積極的に投資先に加える「ポジティブスクリーニング」などの評価手法が用いられることが多い。
社会的責任投資は20世紀初頭にキリスト教会が資産運用する際に教義にそぐわない業種を排除したのが始まりとされ、宗教的価値観に限らず何らかの社会的価値観を投資に持ち込むことを広く指すようになった。近年では、環境(Environment)、社会(Social)、企業統治(Governance)の3つの要素を判断材料として用いる「ESG投資」という概念も現れ、社会的責任投資とほぼ同義として用いられる。
ディスクロージャ ⭐
情報公開、開示、公表、暴露、露見、発覚などの意味を持つ英単語。
脆弱性情報の開示
情報セキュリティの分野で、ソフトウェアやシステムに発見された特定の保安上の弱点(脆弱性)についての情報を開示することをディスクロージャーということがある。
特に、製品の開発元の都合や意向、回避・対策方法の有無などに関わらず、その脆弱性に関する詳細な情報を、発見後速やかに一般に公表すべきとする考え方を「フルディスクロージャ」(full disclosure)という。
企業の情報開示
一般の外来語としては、企業などが事業や経営、財務などに関連する内部情報などを一定の原則に基づいて開示することをディスクロージャーという。特に、上場企業が決められたタイミングで行なう、制度上義務付けられた特定の資料や書類の発表のことを意味することが多い。
グリーンIT 【green IT】 ⭐⭐
省電力化など、地球環境への負荷を低減できるIT関連機器やITシステムなどの総称。また、ITを活用することで地球環境への負荷を低減する取り組み(および両者の総称)を指す場合もある。
ITのグリーン化
半導体技術の高度化や社会のコンピュータ利用の広まりと共に、コンピュータシステムの電力消費や発熱の増大が問題視されるようになり、これらを低減することでコスト削減と環境対策の両立を目指す取り組みとして、グリーンITという用語が使われるようになった。
具体的には、消費電力を抑えた半導体製品の活用や、サーバ統合や仮想化、クラウド化などを活用した機器の台数削減や利用効率の向上などが含まれる。
ITによるグリーン化
また、業務のIT化による効率向上やITシステムによる機器や設備の高度な電力制御などにより、従前よりも環境への負荷を低減する取り組みのことをグリーンITと呼ぶ場合もある。
これには、文書の作成・管理にIT機器を導入して紙の使用量を減らすペーパーレス化や、テレビ会議などの活用による出張の削減やテレワーク化、通信ネットワークで遠隔地を結んで行う遠隔授業や遠隔医療、住宅やオフィスのエネルギー利用の最適化(HEMS/BEMS等)などの取り組みが含まれる。
SDGs 【Sustainable Development Goals】 ⭐⭐
国際連合で2015年に採択された国際的な開発目標。人類社会の持続可能性と開発の両立を目指すための17の目標から成る。
2000年に採択された前身のMDGs(ミレニアム開発目標)が2015年に期限を迎えたため、これに代わる開発目標として2015年に採択された。2030年までに達成すべき17の目標を示し、169の達成基準、232の指標が定められている。
17の目標は「貧困をなくそう」「飢餓をゼロに」「すべての人に健康と福祉を」「質の高い教育をみんなに」「ジェンダー平等を実現しよう」「安全な水とトイレを世界中に」「エネルギーをみんなに。そしてクリーンに」「働きがいも経済成長も」「産業と技術革新の基盤を作ろう」「人や国の不平等をなくそう」「住み続けられるまちづくりを」「つくる責任、つかう責任」「気候変動に具体的な対策を」「海の豊かさを守ろう」「陸の豊かさも守ろう」「平和と公正をすべての人に」「パートナーシップで目標を達成しよう」で、優先順位などは特に設定されていない。
ステークホルダー 【利害関係者】 ⭐⭐
企業などの組織やその活動について何らかの関わりや影響があり、利益を得たり損害を被る人や組織などの総称。
企業の場合、直接的なステークホルダとしては金銭の授受や損益が生じる株主や経営者、従業員、労働組合、債権者、発注先、提携先、貸主や地主、顧客、取引金融機関、税務当局などが含まれる。
間接的には、事業の監督官庁や所管官庁、事業所所在地の周辺住民や自治体などが含まれることもある。企業とステークホルダを対置する文脈では、経営者や株主については企業自身と一体の存在である(企業を「取り巻く」存在ではない)としてステークホルダから外す考え方もある。
また、規模や事業内容、文脈によっては、同業企業(競合企業)や業界団体、政治家、従業員の家族、(顧客以外の)消費者、求職者、証券会社や株式市場、投資家、報道機関、研究機関、事業分野に企業活動に関連するNPOやNGO(環境団体や人権団体など)などがステークホルダに含まれることもある。
企業に限らず、官公庁や非営利団体など様々な種類の組織や集団、人物、事件、製品、案件などについて、利害関係のある人や組織を総称してステークホルダという。
なお、個別のある利害関係者について、株主を指すなら株主、従業員を指すなら従業員と言えば良いため、あえて「ステークホルダ」という言い回しをするのは、複数の異なる種類の利害関係者をまとめて総称する必要がある場面に限られる。
コーポレートブランド ⭐
企業そのものを表すブランド。個別の製品やサービス、事業などではなく、企業やその事業全体を表すブランドで、企業のイメージや信用を象徴する。
企業は個別の製品や製品系列、事業部門などに対して名称やシンボルマークなどを与え、顧客や消費者に一定のイメージを訴求することがある。これをブランドというが、コーポレートブランドはその企業の製品全体に展開されるブランドを指す。
コーポレートブランドを定めることで製品やサービスに共通のイメージを想起させることができ、その認知度や信頼度を高めることで競合優位を築くのに役立つ。新規事業や新製品を展開する際にも、それまでのブランド訴求の蓄積により速やかに市場に浸透を図ることができるようになる。
典型的な例は企業名をコーポレートブランドとする場合で、自動車メーカーなどの中には製品のモデル名を社名から始める事例がよくみられる。旧松下電器産業の「ナショナル」のように企業名とは別にコーポレートブランドを展開する例や、松下が海外向けに展開していた「Panasonic」のように国によって異なるコーポレートブランドを展開する例(いずれも現在は社名に統一)などもある。
取締役 ⭐⭐
会社法に定められた企業の役職の一つ。会社の役員として登記され、経営上の意思決定や執行、組織の監督などを行う。株主が任命あるいは解任する。
日本の会社法では株式会社の役員として取締役、監査役、会計参与の3つを定義している。一般的な企業では取締役は最上位の役職として意思決定を行い、また組織を統括して業務を遂行する。
取締役は複数任命することができ、合議で重要な意思決定を行う「取締役会」を設置することができる(公開企業などでは必須)。会社を代表する権限(代表権)を持つ「代表取締役」を一人以上置くことができ、多くの会社では取締役会長または社長が兼務する。会社に所属する(社内)取締役の他に、外部の人物から選任する非常勤の「社外取締役」を置くことができる。
近年の制度改正で「委員会設置会社」という類型が設けられ、経営の監督と業務の執行が分離されている。取締役は監督に専念し、執行を統括するのは「執行役」が務める。執行役は会社法上の役員ではないが、一般的には役員の一種とみなされ、取締役と兼任することもできる。社長を取締役を兼務しない代表執行役とする会社もある。
監査役 ⭐⭐
会社法に定められた企業の役職の一つで、取締役などの業務を監査する役員。会社の役員として登記され、株主が任命あるいは解任する。
日本の会社法では株式会社の役員として取締役、監査役、会計参与の3つを定義している。監査役は取締役や会計参与の業務が適正に行われているかをチェックし、違法あるいは不適切な行為があれば指摘して是正する。監査業務には業務を対象とする業務監査と、会計を対象とする会計監査がある。
監査役は設置しなくてもよいため、小さな企業などでは置かないことも多い。取締役設置会社(公開企業などが含まれる)など、一部の類型では設置が義務付けられている。1人でも複数でもよく、社内出身者でも外部の人物(社外監査役)でもよいが、監査役会設置会社では3人以上、過半数を社外とすることが義務付けられている。
PDCAサイクル 【Plan-Do-Check-Act cycle】 ⭐⭐⭐
業務プロセスなどを管理・改善する手法の一つで、計画→実行→評価→改善という4段階の活動を繰り返し行なうことで、継続的にプロセスを改善・最適化していく手法。
PDCAは4つのステップから成る。“Plan” (計画)では、目標を設定してそれを達成するための行動計画を作成する。“Do” (実行)では、策定した計画に沿って実際に業務を遂行する。“Check” (評価)では、実施した結果についての情報を集めて整理し、当初の目標や以前のサイクルの結果などと比較するなどして評価を行う。
“Act” (「行動」「処置」の意だが改善と訳されることが多い)は “Adjust” (調整)とも呼ばれ、評価を受けて問題点の洗い出しや成功・失敗の要因を分析し、プロセスや計画の調整、実施体制の見直しなどの処置を行なう。
“Act” まで一通りの活動が終わると、その結果を反映して再び “Plan” から一連の活動を行う。このP→D→C→Aの流れを継続的に繰り返すことを「PDCAを回す」などと言い、螺旋を描くようにプロセスの改善が行われることが期待される。
PDSサイクル (Plan-Do-See cycle)
循環的なプロセスの改善手法として、“Plan” (計画)→ “Do” (実行)→ “See” (評価)の3段階とする場合もあり、PDSサイクルという。
OODAループ 【Observe Orient Decide Act loop】
適切な意思決定を下すための方法論の一つで、観察(Observe)、状況判断(Orient)、意思決定(Decide)、行動(Act)の4つの過程を循環的に繰り返す手法。
最初の段階は「観察」(Observe)で、自身について、および自身を取り巻く外部環境(敵対者など)の現在の状況について評価や判断を下す前の生のデータを集める。次の段階は「状況判断」(Orient)で、観察で得られたデータを分析・統合し、現在の情勢を判断する。無意識に生じる認知の偏り(バイアス)を排除することが重視される。
次の「意思決定」(Decide)の段階では、現在の状況判断をもとに、目指す状態に近づくために最適な行動の選択肢を考え、最も適していると判断したものを選択する。この選択は最終的な結論というよりは一つの「仮説」であると理解される。最後の「実行」(Act)は意思決定で選択した仮説の検証・テストであると考えられ、そのもたらす結果を「観察」することから次のループが開始される。
OODAループは米空軍のジョン・ボイド(John Boyd)大佐が自身の空戦の経験をもとに考案した理論で、敵に対峙する戦闘機パイロットの意思決定手法として編み出された。ボイドは刻々と変化する戦場で戦いを有利に進めるため、観察に基づく仮説構築と検証のサイクルと高速で回すことにより相手方の意思決定を撹乱し、主導権を握ることを重視した。
BCP 【Business Continuity Plan】 ⭐⭐⭐
企業や官公庁などで、通常業務の遂行が困難になる事態が発生した際に事業の継続や復旧を速やかに遂行するために策定される計画。
BCPを策定するにはまず、大災害や大事故、疫病、テロ、犯罪被害、社会的混乱など、自社の業務継続に致命的な影響を及ぼす緊急事態を洗い出し、それぞれについて具体的な影響を分析する。
そして、中核事業や中枢的な業務を継続あるいは早期に復旧するために優先的に維持・復旧すべき拠点や機能を定め、目標復旧時間(RTO:)や最低限のサービスレベルを定める。これに基づき各人員や部署が取るべき行動をマニュアル化したり、代替設備などを用意する。
作成されたBCPは危機管理部門だけでなく全社的に周知・共有し、定期的にテストや訓練を行ない、いざという時に滞りなく実践できるようにしておくことが必要となる。このようなBCP策定や改訂、日常からの備えなどを含む活動全体を「BCM」(Business Continuity Management:事業継続マネジメント)と呼ぶこともある。
BCM 【Business Continuity Management】 ⭐
企業などの経営管理の一分野で、企業や事業の存続を脅かす事態の発生に備え、事業の継続計画を策定したり、計画を的確に実施できるよう定期的な計画の改定や教育・訓練などを行うこと。
大規模な災害の発生など、通常の事業の継続が困難になる事態へ備えるための業務や活動の総体であり、重要な業務の継続や代替手段への切り替え、業務の停止・中断期間の最小化などを目的とする。
BCMの中心となるのは有事に備えて策定された計画である「BCP」(Business Continuity Plan:事業継続計画)である。BCPに沿って必要な資金や資機材の手当て、業務マニュアルなどへの反映、従業員への教育・訓練などが実施される。BCPは業務実態や時代状況の変化などに合わせて定期的に見直し、改訂が行われる。
BCMのガイドラインを定めた標準規格として、英国規格協会(BSI)が2006年に定めた「BS25999」がよく知られる。これを元に、2012年にISO(国際標準化機構)が事業継続マネジメントシステム(BCMS)の国際規格「ISO 22301」を策定した。
リスクアセスメント 【RA】 ⭐⭐⭐
企業などで組織的に取り組む、将来のリスクに備えるための準備活動。一般的にはリスク特定、リスク分析、リスク評価の各工程からなる一連のプロセスとされる。
事業の遂行などに伴って将来起こりうる悪い出来事やその確率、損害の程度を「リスク」(risk)という。企業などの組織体、あるいはプロジェクトチームなどの集団が、将来のリスクを予見して備えるために行う活動がリスクアセスメントである。
リスクアセスメントでは、まずどのようなリスクが想定されるか洗い出し(リスク特定)、それぞれについてその性質や発生確率、損害の大きさなどを特定・推定し(リスク分析)、一定の基準に基いて各リスクへの対応・行動の必要性の有無や優先順位を判断・決定する(リスク評価)。
リスクアセスメントはリスクが顕在化する前にこれに備えるために行われる行動・活動の総体であり、事業やプロジェクトなどの実施前、計画段階で実施される。企業の通常業務など定常的な活動についてのリスクアセスメントは一定期間ごとに実施されることが多い。
リスクアセスメントを含む、リスクに対する組織的な取り組みの総体を「リスクマネジメント」(risk management)という。最初にリスクアセスメントを行い、事業を遂行する中で実際に遭遇した事象に対してリスク対応を行う。年度末など一定期間ごとに振り返り(レビュー)を行い、対処方針の改善などを行う。これを一つのサイクルとして、事業年度ごとなどの単位で繰り返し実施する。
HRM 【Human Resource Management】 ⭐
企業などの組織における従業員を経営上の戦略的資源の一つと捉え、人に関連する情報や活動などを統合的に管理する経営手法。そのための業務や組織、情報システムなどを指すこともある。
主に人事・労務部門が担う、従業員の募集・採用や教育・研修、選抜・配属、評価、勤怠管理、給与、社会保険、福利厚生などに関する業務や制度、プログラムやプロジェクト、関連するデータや情報システムなどの総体を表している。
単に従来の人事・労務管理と同じ概念を表す場合もあるが、殊更にHRMという用語を用いる場合には、組織体を構成する人材を、施設や設備(モノ)、資金(カネ)と同じく、経営資源、利益を生み出す財産とみなし、人材に関わる業務や情報、仕組みを統一的に管理・運用することで、より高い意欲や能力を引き出して最大限活用するという意味合いが込められていることが多い。
人事管理や給与計算は扱うデータが多いことから古くからシステム化の対象となっており、現代でもある程度以上の規模の企業では専用の情報システム(HRMシステム)を導入して情報の管理や操作を行うことが多い。大企業では統合型の経営情報システム(ERPパッケージ)の機能の一つとして提供されるHRMシステムを利用することも多い。
OJT 【On-the-Job Training】 ⭐⭐⭐
企業などでの社員の教育・訓練法の一つで、現場で上司や先輩が指導役となり、実際の業務を行なう中で必要な知識や技能を身につけさせていく方式。新人教育の最終段階などで行われることが多い。
企業などの初任者研修などでよく用いられる方式で、実際の現場、実際の業務において、実際の業務遂行者が指導を行う。単に新人に業務を手伝わせる、やらせてみるといった曖昧なものではなく、研修プログラムの一環として意図的・計画的・継続的に行われるものを指す。
マニュアル化や集合研修での教育が難しいが実務上必要となる、職場や業務に固有の知識やノウハウ、慣習、実践的な業務の進め方などの習得が期待できるが、体系的な知識やスキルの習得には向かない。指導役の従業員は教育・研修を専門の職務としているわけではないため、指導者としての意識や力量にはバラつきがあり、十分に指導的な役割を果たせない場合もある。
組織側にとっては新人にも早い段階で業務の一端を担わせることにより教育コストを削減する効果も期待できるが、現場任せにして十分な体制作りやサポート、評価などを怠れば現場の疲弊、士気の低下を招き、業績も教育効果も上がらないという結果に繋がる。
OffJT 【Off the Job Training】 ⭐
企業などでの社員の教育・訓練法の一つで、現場を離れて座学や実習を行なう方式。専門家を招いて講義を受けたり、通常の業務とは異なる内容の実習や職場経験をしたり、研修サービスや大学院など外部の機関の教育プログラムへの参加などが含まれる。
外部研修や講演会、セミナー、eラーニングなどが該当する。初任者以外の従業員の知識のアップデート、スキルアップなどに活用されることが多い。集合研修や講義は大人数を効率的に教育することができ、業務中に伝えるのが難しい基礎的な知識や理論を体系的に伝達するのに適している。
特定の分野の専門家や専門機関など、日常業務で接することのない人たちから専門性の高い教育を受けることができる場合もある。eラーニングなどオンラインでの受講形式は個人ごとに受講場所や時間を柔軟に選択できるメリットもある。ただし、職場や業務に固有の知識やノウハウ、慣習などの習得などには向かない。
これに対し、現場で上司や先輩が指導役となり、実際の業務を行なう中で必要な知識や技能を身につけさせていく方式を「OJT」(On-the-Job Training)という。OJTとOffJTにはそれぞれ特性や長所、短所に違いがあり、どちらか一方のみとすることは少なく、両者をバランスよく組み合わせて研修プログラムを構成することが多い。
eラーニング 【CBT】 ⭐
コンピュータなどのデジタル機器、通信ネットワークを利用して教育、学習、研修などの活動を行うこと。遠隔地にも教育を提供でき、コンピュータならではの教材が利用できる。
コンピュータ上で閲覧、操作できる学習教材と、カリキュラムや成績、到達度などを把握、管理するシステムを組み合わせたものが一般的で、学習者が自習する形式のものと、教師が講座を運営する前提のものがある。
紙の教科書やプリントなどを中心とする従来の教材に比べ、音声や映像を組み合わせたり、利用者の操作に応じて展開や選択ができる双方向性を活用したり、関連する項目をすぐに参照できるハイパーリンクの仕組みなど、コンピュータならではの機能を利用することができる。
また、自習形式のシステムの場合、学習者が決まった場所や時間に集まって受講する必要がなく、インターネットなどを通じていつでもどこからでも教材にアクセスし、習熟度に応じて自分のペースで学習を進めることができる。
一方、様々な情報や仕組みを組み合わせた教材の開発は難しくコストがかかり、特定のシステムやサービスでしか利用できない問題がある。また、一斉講義ではない方式だと教師と学習者の接触機会が限られ、その場で質問して疑問を解消するといった活動が難しいほか、実技や実習が中心の内容は扱いづらい。学校のような長期的な学習活動の場合は学習者の意欲や自己管理の維持が課題となることもある。
企業研修や資格試験の講座などで広く活用されているほか、通信教育過程を中心に教育機関での利用も広がっている。大学などの高等教育機関では「OCW」(オープンコースウェア)あるいは「MOOC」(Massive Open Online Course)と総称される公開講座形式のオンライン教材の無償公開が活発になっており、世界のトップクラスの大学の講座を誰でも聴講することができるようになりつつある。
アダプティブラーニング ⭐
コンピュータシステムを応用した学習方法の一つで、一人ひとりの学習者の能力や特性に合わせて進捗や教材を調整する手法。
個々人の学習の進捗状況や理解度、過去のテストの結果などを専用の学習管理システムに蓄積する。記録を解析して能力や特性、得手不得手などを分析し、個人ごとに適した学習プランを策定したり、教材やテスト、課題を選択する。
同じ教材を用いて同じ進度で一斉に学習を進める従来の学習方法に比べ、個々の学習者に合わせたオーダーメイドの学習プロセスを構築することができ、効率的に学習を進めることができる。苦手な課題を繰り返し復習するなど、きめ細やかで取りこぼしの少ない学習が可能となり、指導者の質や癖、学習者との相性などにも左右されにくい。
アダプティブラーニングを実施するには、専用の学習管理システムに教材やカリキュラムを組み込み、学習者が常に利用できる環境を整備する必要がある。これには大きなコストと長い準備期間が必要となるため、企業の研修プログラムなどでは採用が進みつつあるものの、学校教育、とりわけ公教育への導入は将来的な課題となっている。
CDP 【Cisco Discovery Protocol】
米シスコシステムズ(Cisco Systems)社の通信機器が利用する通信プロトコルの一つで、同じネットワークに接続された別の機器を検知し、固有情報や設定情報などを交換するのに使われる。機器やネットワークの管理や問題解決のために用いられる。
同じ物理ネットワークに存在する同社製の機器同士で通信することができ、ホスト名やIPアドレス、ポートID、機器の種類や型番、OSのバージョン、VLAN設定などの情報を通知しあう。既定では60秒ごとにこうした情報を送受信し、最後の更新から180秒を過ぎた情報は破棄される。
CDPはデータリンク層(リンク層)のプロトコルで、イーサネット(Ethernet)などのフレームが交換できれば動作するため、ネットワーク層のIP(Internet Protocol)の設定が誤っているなどして正常に通信できなくても利用することができる。
HRテック 【HR Tech】 ⭐
企業などの人事・人材関連の業務を効率化したり革新をもたらしたりする新しい技術やサービス。従来システムを超える効率化や省力化を実現したり、従来にない人材戦略を打ち出すことを可能にする。
人事を意味する「HR」(Human Resources)と、技術を意味する「Technology」を組み合わせた造語である。AI、ビッグデータ、クラウド、IoT、ソーシャルメディアなど、最先端あるいは流行の情報技術やその応用製品・サービスを組織の人材管理に取り込むことを指す。
対象となる領域は従来の人事管理システムでも扱われる勤怠管理や給与計算、経費精算などに加え、人材の採用、研修や育成、職能管理や配置(タレントマネジメント)、評価、従業員満足(ES)、定着率向上(エンゲージメント)などが含まれる。
HRテックを謳う製品には様々なものがあり、従来の人事管理システムのような人材業務全体を対象とした総合的の製品よりも、特定の業務に変革をもたらす特化型の製品が多い。新興企業の製品を中心に、SaaSやクラウドの形でサービス化された製品が多い。
企業活動や社会的な活動へのITの導入・普及は従来から見られたが、2010年代以降、先進的なITシステムやネットサービスを取り込んで非IT分野を変革する動きが活発になり、分野名を冠して「◯◯テック」と呼ぶようになった。金融分野の「フィンテック」(FinTech)、農業分野の「アグリテック」(AgriTech)、教育分野の「エドテック」(EdTech)といった具合で、これを人事・人材分野に適用した用語が「HRテック」である。
目標による管理 【MBO】
組織や人員の管理手法の一つで、上司と部下(個人あるいはグループ)が相談して業務上達成すべき目標を設定し、方法や進捗の管理などは本人(たち)の自主的な取り組みに任せる方式。
目標の設定に本人が関与する点や、仕事の進め方などを本人が自主的に考えて行動する点など、適切に運用されれば責任感やモチベーションを高めやすい手法であるとされる。反面、全社的な方針や目標を反映させにくく、達成しやすい目標ばかり選好するなどの形骸化が起きやすい点が問題とされる。
リテンション
保持、保有、記憶、維持、滞留などの意味を持つ英単語。何かを繋ぎ止めたり保持し続けることを指し、日本語の外来語としては主に人事分野やマーケティング分野でそれぞれ異なる意味で用いられる。
人事分野のリテンション
人事や人材活用などの文脈でリテンションという場合は、従業員の離職、流出を防ぎ定着を図るための施策を指す。新卒社員や他社からの転職者などが早期離職するのを防ぎ、採用や教育にかかるコストを削減したり、優秀な人材が転職しないよう社内に繋ぎ止める。
働きやすい環境を整えて従業員満足度を高め、長期的な見通しを立てやすくすることが重要で、給与体系や福利厚生などの充実、新人が速やかに業務や組織に馴染めるようにするためのオンボーディング、多様な生き方やライフステージに合わせた就業時間や休暇制度、志願制を取り入れた異動・配属制度などが該当する。
マーケティング分野のリテンション
マーケティングの文脈でリテンションという場合は、既存顧客と良好な関係を築いてこれを維持し、低コストで収益の向上を図る施策を指す。
一般に、新規顧客の獲得よりも既存顧客に取引を促す方がコストが低いことが多く、既存顧客の満足度や印象を良好に保ち、関連製品の購入(クロスセル)、新製品や上位モデルへの買い替え(アップセル)といった新たな取引機会を創出する活動をリテンション(・マーケティング)という。
CRM(Customer Relationship Management)システムなどで各顧客の情報や購買履歴、接触履歴などを統合的に管理し、満足度を向上させることが重要とされる。具体的な施策としては、丁寧で充実したカスタマーサポート、優待プログラムやポイント制度などのロイヤルティプログラム、関心を持続するための定期的な案内やメールマガジンの配信などが挙げられる。
ダイバーシティマネジメント ⭐
企業などの組織が多様な人材を取り込むことで競争力の向上を図ること。様々な背景や属性、価値観を持つ人材を採用し、それぞれが活躍できる環境を整える。
「ダイバーシティ」(diversity)は「多様性」と訳され、人間集団について言う場合は、性別や年齢、国籍、民族、宗教、性自認や性指向、障害の有無や程度などが異なる様々な人が同じ集団に属し、それぞれが尊重される状態を指す。
企業におけるダイバーシティマネジメントでは、人員が特定の決まった属性の者に偏るのを避け、意識的に様々な背景を持つ人を採用する。そして、それぞれの事情に合わせて多様な働き方を用意し、組織としての一体感を保ちつつ誰もが活躍できる環境を整える。
多様な人材を受け入れることで、様々な背景を持つ優秀な人材を獲得したり、画一的な組織からは生まれない発想を事業に取り入れたり、社員の様々な立場や価値観を顧客対応やリスク管理に反映させるなど、企業としての競争力の強化に繋げる。結果的に企業イメージ向上などに繋がる場合もあるが、社会貢献や慈善を目的とした取り組みではない。
テレワーク 【リモートワーク】 ⭐⭐
コンピュータや通信回線などを利用して、勤務先のオフィス以外の場所で仕事をすること。広義には、出勤すべき決まった事業所がなく常に自宅や外出先で仕事をすることを含む。
企業などの従業員についてテレワークという場合は、出勤すべき事務所などの施設とは異なる場所で働くことを指す。自宅で働く「在宅勤務」、外出先や移動中に働く「モバイルワーク」、小規模な出先施設(サテライトオフィス)に出勤する「サテライト勤務」などの類型がある。自営業者(個人事業主)などについては、決まったオフィスなどを持たずに自宅や外出先などで働くことをテレワークということが多い。英語では “telecommuting” (テレコミューティング)と呼ぶのが一般的。
場所に縛られず働けるようにすることで、育児や介護など様々な事情を抱える従業員が自分に合った柔軟な働き方を選択できる。企業側でもオフィスの規模を縮小したり統廃合するなどしてコストを節減することができる。遠隔でも業務が可能な環境を整えることで出張や転勤を減らす効果が見込める場合もある。
社会的にも、大都市都心部の人口過密や交通混雑の緩和、働き方の多様化による多様な人の社会参加、労働力化の促進などが期待される。パソコンやスマートフォンなどの高性能化、インターネットや高速な通信回線の普及により、技術的には以前よりもテレワークを実現しやすい環境が整っている。
一方、管理職による仕事の割り振りや進捗管理、適正な人事評価が対面の場合より難しい点や、技術が進んだとはいえ同じ空間にいるのと同じ密度で連携やコミュニケーションを取ることは困難なことなどが長年に渡って未解決の課題となっており、全面的にテレワークに切り替える事例は少数に留まる。
在宅勤務 【WFH】
テレワークの形態の一つで、企業などの組織に雇用されながら事業所に出勤せず自宅でコンピュータや通信回線を通して業務を行うこと。
会社員などがオフィス以外の場所から遠隔で働くことを「テレワーク」(telecommuting)あるいは「リモートワーク」(remote work)という。在宅勤務はこのうち、従業員が自宅で働くことを指す。フリーランスや自営業者、小規模事業者などが自宅を拠点に事業を行っている場合(work at home)や、住み込み従業員のように事業所の一部に居住している場合は含まない。
育児や介護などで自宅を離れることに困難を伴う状況にある従業員も在宅のまま就業を継続でき、柔軟な働き方を選択できる。雇用先にとっても離職率の低下が期待でき、一定の人数を常に在宅とすることでオフィスの規模を縮小してコストを削減することができる。
一方、他のテレワーク形態と同様、遠隔でのコミュニケーションやチーム内の連携、勤怠の管理などに困難や課題がある。常に自宅に居続けながら私生活と仕事を行き来する生活になるため、気持ちの切り替えや時間の管理、同居家族との軋轢など独特の難しさもある。
コロナ禍による急激な普及
2020年からの新型コロナウイルス禍で出勤が物理的に困難になったため、全世界的に在宅勤務が急速に普及した。「Zoom」「Microsoft Teams」に代表されるインターネット上のテレビ会議サービスやコラボレーションツールを導入し、在勤・在宅を問わずミーティングや業務が行える環境を整える職場が急増した。
2023年頃になると外出制限なども行われなくなったため、多くの企業は出勤を基本とする勤務体制に戻し、在宅勤務は育児中の従業員などに特例的に認める制度となった。一方で、IT系業種やベンチャーなどを中心に、全員在宅を基本とする企業や、恒久的に一定の割合を在宅勤務とすることに定めてオフィス規模を縮減し、全員が同時に出勤することはできない体制に移行する企業も現れている。
モバイルワーク
テレワークの形態の一つで、決められた事業所(オフィス)で勤務する従業員が外出先や移動中に働くこと。
会社員などがオフィス以外の場所から遠隔で働くことを「テレワーク」(telecommuting)あるいは「リモートワーク」(remote work)という。モバイルワークはこのうち、外出先の施設や取引先、交通機関など一時的に訪れた場所や移動中に働くことを指す。
オフィス以外で働く場合であっても、従業員の自宅で働く場合は「在宅勤務」、会社の用意した固定的な小規模拠点(サテライトオフィス)で働く場合は「サテライト勤務」などと呼び、モバイルワークとは区別される。
モバイルワークは自社施設外で業務を行うため、ノートパソコンなど業務に必要な機材、スマートフォンやモバイルルータなどの通信環境は自前で用意する必要がある。店舗や宿泊施設、交通機関などの場合には施設側が提供するWi-Fiスポットサービスなどを用いて通信することはある。
近年ではモバイルワークの普及に伴い、短時間だけ滞在できるシェアオフィスやコワーキングスペースなどの施設、あるいは駅や商業施設などでデスクや椅子、電源などを備え周囲から仕切られたワークスペースを貸し出すサービスなども広まっている。
階層型組織 【ピラミッド型組織】
企業などの組織形態の一つで、トップを頂点にピラミッド型に管理者と組織を編成したもの。部長、課長、係長といったように各階層の責任者が自部門の責任と権限を持つ。
従来からよく見られる典型的な組織形態で、経営者をトップにピラミッド型に組織を編成し、大きな組織単位を率いる上級管理者から小さな組織単位を率いる下級管理者、末端の職員まで序列に基づいて管理と指揮命令が行われる。
指揮系統が明快で、経営者が安定的に組織全体を統治できる。組織の規模が大きくなると経営と現場の距離が遠くなり、意思決定や指示の伝達に時間がかかったり、経営層が現実を把握できずに見当違いな指示を出したり、現場が指示待ちとなり主体性を失うといった弊害も生じる。
現代でも企業や官公庁、軍など多くの組織がこの統治形態で運用されている。企業では組織単位として事業部、部、課、係などを置くことが多く、官庁では局、課、係などが置かれることが多い。企業の場合、どのような基準や機能に基づいて部門を編成するかによって、職能別組織、事業部制組織、カンパニー制組織などのバリエーションが見られる。
事業部制組織 ⭐⭐
企業などの組織形態の一つで、事業や製品分野ごとに組織を編成したもの。独立性の高い事業ごとの組織のそれぞれに、職能・機能別の組織(営業、生産、購買など)が設けられる。事業や組織の規模が大きい大企業に多い。
一つの事業に必要な機能を一つの組織にまとめた形態で、一つの事業部がさらに複数の事業や製品ごとの組織で構成されることもある。人事や財務、法務、基礎研究など、専門性の高い業務や全社横断的な業務、どの事業にも直接は関係しない業務などに関する組織は本社部門とし、各事業の中心となる製品開発や製造、販売などで事業部を構成することが多い。
各事業の収支や責任が明確になり、現場や市場に即した迅速な意思決定が行えるというメリットがあるが、事業部間で機能や人員、業務の重複が生じるため非効率な面がある。また、他の事業部との一体感が希薄になり、全社の利益より自らの事業部の利益を優先したり、全体最適な資源配分が阻害されることがある。事業部の独立性をさらに高め、仮想的な企業のように完結した機能を持たせた組織形態は「カンパニー制組織」という。
職能別組織 【ファンクショナル組織】 ⭐⭐
企業などの組織形態の一つで、職能や機能ごとに組織を編成したもの。営業、生産、人事、総務、財務など職能ごとに組織があり、それらの中に個々の事業や製品を担当する部門が設けられる。事業や製品の少ない中小企業や中堅企業に多い組織形態。
業務や組織の重複や無駄が生じにくいが、どの組織も事業や製品(の業績や収益)全体には責任を負わないため、同じ事業を担当する部署や人員の間で意識や目的の共有が難しくなったり、部署間の利害の対立や局所最適化が発生しやすい傾向がある。
これに対し、事業や製品、製品分野(カテゴリー)ごとに組織を編成し、その中に職能別の組織を置く形態を事業部制組織という。主な事業・業務について事業部制を採用している企業でも、人事、総務、財務、法務など、間接部門(管理部門)の一部の業務については事業部から独立した職能別の組織を編成する場合が多い。
マトリックス組織 【マトリクス組織】 ⭐
企業などの組織・部門編成の手法の一つで、二つの異なる基準で組織を設置し、一人の従業員が同時に二つの組織に所属するようにしたもの。
各従業員は、ある地域を統括する支社に所属しながら、会計部門の所属でもあるというように、職能と事業分野、職能と所管地域など、異なる分類に基づく複数の組織に所属し、それぞれの上司や指揮系統に同時に服することになる。
機能別組織とプロジェクト型組織の特徴を併せ持つ組織形態で、うまく機能すれば一般的な縦割り、ピラミッド型の組織よりも機能の重複が少なく、職能の専門性を維持しつつ対象の市場や製品に集中できる。ただし、指揮系統が複数あるため、どちらの指示・目標を優先すべきかを巡って混乱や摩擦が生じることもあり、利害の対立や権限の競合を調整する仕組み作りが肝要となる。
プロジェクト型組織 【プロジェクト組織】
企業などの組織形態の一つで、ある目的や事業、業務のために人員を集めてチームを作り、事業が終了したら解散する方式。
社内に設けられたプロジェクトごとに必要な技能を持った人員を集めてチームを編成し、一つの業務を集中的に遂行する。そのプロジェクトの業務に関する責任と権限はプロジェクトマネージャ(PM:Project Manager)に集中し、迅速に意思決定できる体制を取る。プロジェクトが終了するとチームは解散し、メンバーは他の組織に移っていく。
チーム内の一体感や状況の変化に対応する柔軟性や機敏さを持たせやすい一方、全社的な調整が難しく部分最適に陥りやすく、プロジェクトが終了するごとに人材が流動するため経験やノウハウの蓄積や継承がしにくいとも言われる。
新製品開発や映像作品制作のように期限やゴールがはっきり定まっている業務について編成されるもので、社内のすべてがプロジェクト組織であることは少なく、職能別組織などベースとなる組織形態が別に存在することが多い。
カンパニー制組織 【社内カンパニー制】
企業などの組織形態の一つで、企業内に事業や製品分野ごとに仮想的な企業を設け、その内部に必要な機能・職能をすべて持たせたもの。
独立性の高い仮想的な企業内企業を「社内カンパニー」という。子会社のように別の法人にはなっておらず、法的・制度的には社内の一部門であるが、一つの独立したグループ企業のように責任や権限、予算、機能、人員などを抱え、社内の他部門に頼らず単独で事業を遂行していく。
社内を事業部門別に分割する組織形態は「事業部制組織」というが、カンパニー制組織という場合には事業部制よりもさらに独立性を高め、高度な権限移譲が行われたり、独立採算が求められることが多い。企業の持つ資本、資産も会計上は各カンパニーに分配し、各年度の損益だけでなく資産の効率やバランスについても責任を負うよう運営されることが多い。
持株会社
他の会社の株式を支配目的で保有し、企業グループとして一体的に管理・経営する機能に特化した企業。自身も事業を行う事業持株会社と、自身はグループ企業の経営自体が事業である純粋持株会社に分かれる。
株式会社の株式は他の会社が保有することができ、ある会社の支配的な株主であるような別の会社を親会社という。親会社が子会社の株式を保有する目的は様々で、純粋な投資目的で経営に関与しない場合もあるが、支配目的で保有し、経営陣を親会社から送り込んだり、出向や転籍で一体的に人事管理を行う場合もある。
事業を行う会社を子会社として所有し、もっぱら子会社の経営や管理を行うことを本業とする会社のことを持株会社という。事業会社の親子関係と区別するため、狭義には自身では一切事業を行わない「純粋持株会社」のみを指すが、広義には主事業がグループ経営だが自身も何らかの事業を行う「事業持株会社」も含まれる。
大規模な企業グループやでは持株会社の子会社として複数の事業会社を束ねる「中間持株会社」が置かれる場合もある。合弁事業として複数の会社が出資する持株会社が事業会社を経営する例も見られる。銀行、証券、保険などの金融機関を傘下に収める持株会社は「金融持株会社」と呼ばれ、特別な法律の規制を受ける。
英語では “holding company” (ホールディングカンパニー)あるいは “holdings” (ホールディングス)と呼ばれ、日本でも持株会社の名称を「~ホールディングス」とする例が多く見られる。この場合の略称は「~HD」となる。他に、「~グループ」「~グループ本社」などの名称を付ける例も多い。
同一企業内の事業部門として運営する場合に比べ、持株会社経営層がグループ全体の経営へ専念することができ、各子会社への権限の移譲や経営責任の明確化、意思決定の迅速化などを図ることができる。子会社の業種や事情に応じて人事制度を変更することもでき、他グループとの事業の買収や売却(M&A)も行いやすい。
一方、グループ内が複数の会社に分かれていることで同じ機能や業務が会社ごとに重複して存在し、コストや効率が悪化する場合があるほか、事業の現場と経営・監督が別法人となるため、経営判断に必要な情報がスムーズにグループ首脳に上がらなくなる場合がある。子会社の独立性の高さがセクショナリズムに繋がり、グループ内の他企業との連携の動きが鈍くなることもある。
CEO 【Chief Executive Officer】 ⭐
アメリカ合衆国の(各州の)法律に基づき設置された法人において、業務の執行に最終的な責任を負う役員。また、米国外の法人で、同様の職務を担う役職の社内的な称号。
米国の法人制度では理事・取締役(director)と執行役員・執行役(officer)が分離しており(兼務してもよい)、理事会・取締役会で選任される執行役の長が最高経営責任者である。最高経営責任者を置かない会社では “president” (プレジデント)に当たる。日本では執行役員制度を導入している会社では「代表執行役」が最も近く、伝統的な会社組織では「社長」に最も近い。
最高経営責任者と president が両方存在する企業も多いが、その場合、執行上の最高責任者が最高経営責任者であることは変わらず、最高経営責任者が president を兼ねるパターン、取締役会長(chair of the board)が最高経営責任者を兼ねて執行役の長を president とするパターン、全社を統括するのが最高経営責任者で各事業領域の部門長を president とするパターンのいずれかが多い。
COO (Chief Operating Officer/最高執行責任者)
米国の法人制度で、CEOの下で法人の業務の執行全般に責任を負う役員を「COO」(シーオーオーと読む)という。日本では「最高執行責任者」と訳される。
COOが置かれるのは主にCEOが取締役会長を兼ねる企業で、CEOが監督側の長を兼ねているため執行責任を一元的に統括する役職としてCOOが置かれる。その場合にはCOOが president を兼ねる(あるいは president を置かない)ことが多い。
他に、事業部門の長がCOOで間接部門・管理部門を含む全社の総括責任者がCEOという場合や、CEOの下に事業部門ごとにそれぞれCOOを任命する場合もある。
CFO (Chief Financial Officer/最高財務責任者)
米国の法人制度で、法人の財務に関する業務の執行に責任を負う執行役員を「CFO」(シーエフオーと読む)という。日本では「最高財務責任者」と訳される。理事会・取締役会により専任され、CEOあるいはCOOの下で法人の財務を統括する。
会計、出納、予算管理、資金管理、税務、投資、資本政策など企業の財務に関する業務の責任者である。CEO、COOに次ぐ上席役員とみなされることが多く、これらトップが欠いた場合の職務の代理などを行うことがある。
CIO 【Chief Information Officer】 ⭐⭐⭐
組織内の情報戦略のトップとして情報の取り扱いや情報システム、情報技術(IT)について統括する役員や責任者のこと。
企業の場合は取締役や執行役員、他の法人では理事などの役員、官公庁ではトップを補佐する職位として設置されることが多いが、部門長クラスを最高情報責任者としている場合もある。情報戦略の策定や執行、IT投資の意思決定などを行い、組織内のIT部門を監督する。情報システム部門や情報システム子会社のトップを兼ねる場合もある。
CTOとの違い
企業によってはCTO(Chief Technology Officer:最高技術責任者)と呼ばれる役員を置き、最高情報責任者に相当する情報戦略を統括する業務を担当する場合があるが、一般的にはCTOは研究開発や製品の技術的側面を担当する場合が多く、組織内の情報技術活用を管掌する最高情報責任者とは別に置かれる。
CISOとの違い
相次ぐ秘密情報の漏洩やサイバー攻撃などを受け、最高情報責任者とは別に情報セキュリティ戦略を管掌する独立の役員としてCISO(Chief Information Security Officer:最高情報セキュリティ責任者)を置く企業も増えている。情報システムそのものの管轄はCIOであるため、権限や業務の切り分け、利害の衝突などが課題となる場合もある。
CDOとの違い
近年では、企業活動の全面的なデジタル化(デジタルトランスフォーメーション)の必要性が叫ばれるようになり、従来の情報化の枠を超えて全社的なデジタル化を推進する役員としてCDO(Chief Digital Officer:最高デジタル責任者)を置く企業も増えている。最高情報責任者からCDOに移行する場合と、最高情報責任者とは独立にCDOを置く場合の両方がある。
政府CIO
日本政府では、2000年に各府省ごとに最高情報責任者に相当する情報化統括責任者と情報化統括責任者補佐官(最高情報責任者補佐官)が設置された。
また、政府全体の情報戦略を統括するため、2012年に政府情報化統括責任者が置かれたが、2013年に内閣法が改正され、内閣官房の特別職公務員である内閣情報通信政策監に改められた。これを政府最高情報責任者と通称し、分野ごとに担当の異なる数十人の政府最高情報責任者補佐官が置かれている。
CTO 【Chief Technology Officer】 ⭐
企業内の役職の一つで、科学技術や研究開発などを統括する役員のこと。業種や企業によって職務は様々だが、技術戦略の策定・執行や、研究開発部門の統括などを担うことが多い。
企業内での位置付けとしてはアメリカ型の企業統治機構における執行役員(officer)の一種で、CEO(最高経営責任者)やCFO(最高財務責任者)などと並んで設置される。
法的な定義や設置基準などはなく、各企業が内部で独自に設けた役職である。日本では執行役を置いている企業では執行役が、それ以外では取締役が任命されることが多い。
一方、企業の情報戦略や情報システムの担当役員はCIO(最高情報責任者)と呼び、主に製品に関連する技術を統括する最高技術責任者とは区別されるが、IT系の企業では情報技術が事業の中心であるため、最高技術責任者がCIOを兼務するもことがある。
最高技術責任者は事業の中核に科学技術や情報技術、産業技術が深く関わる製造業やIT関連業種で置かれることが多いが、他業種でもEC事業や先端的な金融サービスなど、競争力の源泉に情報システムやネット技術などが欠かせない企業では最高技術責任者職を設置している場合がある。
人工知能 【AI】 ⭐⭐⭐
人間にしかできなかったような高度に知的な作業や判断をコンピュータを中心とする人工的なシステムにより行えるようにしたもの。
人類は未だに人間の脳の振る舞いや知能の仕組みを完全には解明していないため、AIにも明快な定義は与えられていない。また、情報技術の進歩に伴って時代によってAIとされるシステムの具体的な内容は大きく変化してきている。
特に、前の時代にAIの一分野として研究・開発が進められていたものが、技術が成熟し実用化や普及が進むとAIとは呼ばれなくなり、より高度で研究途上のものが新たにAIとして注目される傾向がある。この現象は「AI効果」と呼ばれ、例として文字認識技術(OCR)や検索エンジン、かな漢字変換システム、ロボット掃除機などが挙げられる。
2000年代後半以降にAIとされるものは、大量のデータから規則性やルールなどを学習し、与えられた課題に対して推論や回答、情報の合成などを行う機械学習(ML:Machine Learning)を基礎とするものが主流となっている。
特に、人間の神経回路を模したニューラルネットワーク(NN:Neural Network)で深い階層のモデルを構築し、精度の高い推論を行うディープラーニング(深層学習)研究に大きな進展があり、これに基づく研究や開発が盛んになっている。
応用分野として、チェスや将棋、将棋など知的なゲームで対局するシステム、画像や映像に映る物体や人物を識別する画像認識システム(コンピュータビジョン)、人間の発話を聞き取って内容を理解する音声認識システム、言葉を組み立てて声として発する音声合成システム、ロボットや自動車など機械の高度で自律的な制御システム(自動運転など)、自動要約や質問応答システム、高度で自然な機械翻訳といった様々な自然言語処理などがよく知られる。
インダストリー4.0 【Industry 4.0】 ⭐⭐
製造業における生産や流通のデジタル化、自動化が大きく進むことで産業にもたらされる、人類史的な巨大な変革。ドイツ政府の産業振興政策の名称が一般に広まったもの。
第4次産業革命では高度に自動化、効率化が進んだ工場および生産システムである「スマートファクトリー」を普及させ、従来の大量生産と同じ規模、コスト、スピードで多品種少量生産を行う「マスカスタマイゼーション」をあらゆる業種、品目で展開することを目指す。
そのためには、生産設備やサプライチェーンといった物理世界の情報をコンピュータシステムに集約して分析や処理を行い、制御や管理などの形で物理世界にフィードバックする「サイバーフィジカルシステム」(CPS:Cyber-Physical System)の構築が必要となる。
CPSの要素技術として無線センサネットワーク(WSN:Wireless Sensor Network)やIoT(Internet of Things:モノのインターネット)、ビッグデータ解析、機械学習、クラウドコンピューティング、オートメーション(自動化)、ロボティクス(機械制御)などが含まれ、これらを緊密に統合することが求められる。
「第4次産業革命」という用語は2012年にドイツ政府の産官学連携プロジェクトで提唱された概念で、産業の発展を1800年前後の第1次産業革命(蒸気機関と機械、工場)、1900年前後の第2次産業革命(石油や電気、重工業)、2000年前後の第3次産業革命(コンピュータとデータ通信)の各段階に区分し、物理的な生産手段の本格的なデジタル化、自動化が第4次産業革命に相当するという認識に基づいている。
Society 5.0 【ソサエティ5.0】
日本政府の科学技術政策の中で提唱された未来社会の構想。ITの高度化と社会への浸透によりサイバー空間と物理空間を高度に融合し、経済の発展と社会課題の解決を図るとされる。
2016年度に始まった第5期科学技術基本計画の中で提唱されたコンセプトで、これまでの人類社会の変遷について、狩猟社会を「Society 1.0」、農耕社会を「2.0」、工業社会を「3.0」、現在の情報社会を「4.0」と位置付け、その次に訪れる段階という意味で「Society 5.0」を提唱している。
サイバーフィジカルシステム(CPS:Cyber-Physical System)を念頭に、ITシステム上に築かれたサイバー空間(仮想空間)と、我々が実際に暮らす現実世界(物理空間)を高度に連携、融合させる。産業や社会、人々の生活に革新(イノベーション)をもたらし、経済発展と社会の諸課題の解決を両立させた人間中心の社会を目指すとされる。
こうした社会を実現するための鍵となる技術として、クラウドコンピューティング、IoT(Internet of Things)およびセンシング技術、機械学習システムなどの人工知能(AI)技術、ビッグデータやデータ解析・シミュレーション技術、ロボットや自動運転車などの自動化技術などが挙げられている。
デジタルトランスフォーメーション 【DX】 ⭐
企業や行政などの組織や活動、あるいは社会の仕組みや在り方、人々の暮らしなどがデジタル技術の導入と浸透により根本的に変革すること。従来型の「デジタル化」と違い、デジタルを前提として既存の仕組みを根本的に作り変えることを指す。
1950年代の商用コンピュータの発売以来、情報の蓄積や処理、伝送のデジタル化(digitization)が進められ、さらに1990年代以降の個人用コンピュータやインターネットの普及を通じて経済や社会、暮らしのデジタル化(digitalization)が進んできた。
こうした従前のデジタル化は既存の組織や仕組み、やり方といったものを前提に、コンピュータや通信ネットワークを導入してより効率的に物事を行うのが主眼であった。例えば、企業が会計業務にコンピュータを導入し、より少人数で短期間に会計事務を遂行するといった具合である。
デジタルトランスフォーメーションはこれを更に推し進め、デジタル技術の存在を前提として、既存の組織や仕組み、手順、モノや情報の流れといったものを根本的に変革することを意味する。例えば、企業であれば業務の効率化や省力化を超えて、事業や商流の在り方そのもの、また、業務の流れ、組織や人材などを「デジタルに合わせて」根本的に組み替える改革をデジタルトランスフォーメーションという。
ビジネスの文脈で取り上げられることが多いが、デジタルを前提とする根本的な変革は企業や経済活動だけでなく、公的機関や法制度、個人の行動や生活、社会全体の様々な側面に及び得る。
“digital transformation” という用語は2004年にスウェーデン・ウメオ大学のエリック・ストルターマン教授(当時)らが発表した “Information Technology and the Good Life” という短い論文が初出とされる。“transformation” を “X” と略すのは日本人には馴染みにくいが、英語では接頭辞の “trans-” と “cross-” は多くの場合に可換であると考えられており、“trans-” の略字として “x-” を用いることがある(例:transfer→xfer)。
オペレーションズリサーチ 【OR】
数理的な解析手法やアルゴリズムを駆使して、現実の問題をモデル化し、計画や意思決定を最適化する方法論を研究する分野。第2次世界大戦中のイギリス軍の作戦研究から発展した分野で、現代では企業の経営管理や生産管理などに応用が広がっている。
人間社会で実際に起きる現象や活動、問題は様々な要素や要素間の関係、制約条件からなる複雑なシステムとなっている。ORではこれを数理モデルとして抽象化、定式化し、科学的な技法を用いて何らかの目的に照らして最も望ましい解や計画などを求める。
主な分野や手法として、線形計画法、動的計画法、ネットワーク計画法、待ち行列理論、ゲーム理論、組合せ最適化、シミュレーション、在庫管理、日程計画、PERT、包絡分析法(DEA)、階層分析法(AHP)、マルコフ連鎖などが挙げられる。
インダストリアルエンジニアリング 【IE】
工学の分野の一つで、企業などが様々な資源を効率的に利用して、製品の生産やサービスの提供などを行なうための科学的方法論の体系。
組織が人材、物資、設備、資金、情報、時間などの資源を有効に活用し、より素早く、より少ない資源で事業の遂行ができるよう、科学的な方法によって分析や改善を行う技術や知識のことを意味する。
広義には、経営や企業活動全般についての科学的管理手法(経営工学や管理工学)を含むが、狭義には、製造業の工場などの現場における生産活動などの効率化・合理化を進めるための方法論(生産工学)を意味し、一般的にはこちらの意味で用いられることが多い。
パレート図 【Pareto chart】 ⭐⭐⭐
項目を大きい順(降順)に並べた棒グラフと、それらの累積構成比(百分率)を重ねて描画したグラフ。構成要素の組み合わせと全体のカバー率の関係を一目で把握できる。
各項目について、その項目自身の値の大きさと、最上位からその項目まで累積した値の全体に対する割合を知ることができる。これにより、全体の中である特定の比率をカバーするには上位からどの項目までを対象とすればよいかが一目瞭然となる。
<$Img:Pareto-Chart.png|center|パレート図の例>製造業の品質管理などの分野でよく用いられる複合グラフで、重点的に取り組むべき課題とその全体への影響度合いなどを明らかにすることができる。
「パレート」の名称は、パレート最適などの概念で知られる19世紀末・20世紀初頭に活躍したイタリアの経済学者、社会学者ヴィルフレード・パレート(Vilfredo Pareto)の名に因んでいる。
ABC分析 【ABC analysis】 ⭐⭐
膨大な要素数がある場合にどれを重視するかを判断するための分析手法で、全体に占める構成比が多い順に要素を上位、中位、下位の3グループに分割する方式。
まず要素を大きい順に並べ、順に累積構成比を算出する。要素数が膨大な場合、大抵は上位の少数の項目が累積構成比の多くを占め、下位の多数の項目を足し合わせても少ない構成比にしかならない(パレートの法則)。
このため、これを構成比の大きな順に、最上位の少数(Aクラス)、中位の少数(Bクラス)、下位の多数(Cクラス)に分類し、それぞれを重要度に応じた異なる扱いにする。具体的に何割ずつで分割するか決まった方法はなくケースバイケースだが、例えばAが60%、Bが30%、Cが10%といった値になることが多い。
特性要因図 【魚骨図】 ⭐⭐
製品の品質管理などでよく用いられる図の一種で、対象の持つ特性とその要因と思われるものを階層的に図示したもの。ある事象がどのような要因に組み合わせによって成り、個々の要因がどのような要素に分解されるかを一覧することができる。
表記法にはいくつかのバリエーションがあるが、よく知られる一般的な手法では、特性を図の右端中央に大きく記し、その左に特性に向かう長い矢印を水平に引く。特性の要因と思われるものは図の上下に配し、それぞれ中央の長い矢印に向かって矢印を引く。
さらに各要因について、その要因や構成要素と思われるものがあるときは周辺に記し、矢印に向かって小さな矢印を引く。この作業を段階的に繰り返していき、より小さな要因へ分解していく。最終的には、支流が合流して大河となり海に注ぐように、無数の細かい要因が次第に大きな要因となって特性が生じている関係性が図示される。
特性要因図は中央の大きな矢印を魚の背骨に、そこに集まる各要因の矢印が肋骨になぞらえて「魚骨図」「フィッシュボーンチャート」などと呼ばれることもある。より実用的には、見やすさや付加情報の書き込みやすさなどから組織図やトーナメント表のように上から下に向かって枝分かれする表のような形式で作成されることも多い。
作業などの実施前に、想定される問題とその要因を列挙して対策を講じるために作成するものを「管理用特性要因図」、問題が発生した後に、その原因を検証するために実際に起きたことを元に作成するものを「解析用特性要因図」ということがある。
管理図 ⭐
製造業の品質管理などに用いられるグラフの一つで、品質のばらつきを時系列に図示して工程の安定度合いを把握するためのもの。いわゆる「QC七つ道具」の一つ。
同じ時期に生産された個体の集団を「群」として、各群の個体の品質を表す特性を計測する。品質の特性の平均値を「中心線」(CL:Center Line)として、各群の測定結果の平均値をプロットする。各点を時系列に繋いでいくと、品質のばらつきの変化を時系列に表す折れ線グラフとなる。
中心線の上方には、一定の基準を超えて値が上に乖離したことを示す「上方管理限界」(UCL:Upper Control Limit)線を、下方には同様に下に乖離したことを示す「下方管理限界」(LCL:Lower Control Limit)を引く。基準の設定には様々な考え方があるが、全体の標準偏差(σ)を用いてUCLを+3σ、LCLを-3σに設定することが多い(3σ法)。
工程が正常な場合、グラフは中心線の周囲をランダムに推移する。UCLあるいはLCLを超える群が現れた場合は何らかの異常とみなして原因の究明や対策を行う。また、管理限界の範囲内で推移していても、多数の群が連続して中心線より上または下にある場合や、連続して単調に増加あるいは減少するなど、偶然のばらつきから逸脱する事象が見られる場合は異常を疑う場合がある。
系統図法
物事を系統立てて把握するための作図法の一つで、大きな構成要素から小さな要素へ段階的に枝分かれしていくように描かれた図のこと。
左端に主題を置き、その右に複数の大項目を置いて線分で結び、それぞれの大項目の右に複数の中項目を置き…という具合に右に向かって段階的に枝分かれしていくトーナメント表のような形式で項目を整理する。階層の深さが同じ項目群は一列に並ぶように配置する。
目的や対象により様々な場面で使用される。例えば、一つの目的や目標を達成するための手段の段階的詳細化、一つの機能や部品を構成する要素の段階的詳細化、一つの問題の原因を探索するための段階的詳細化などのために用いられる。
製造業では、いわゆる「新QC7つ道具」の一つとして親和図法や連関図、マトリックス図などと共に用いられ、製造現場での課題解決を図るための有力なツールとしてよく知られている。
PERT 【Program Evaluation and Review Technique】
プロジェクトの工程管理を定量的、科学的に行う手法の一つで、各工程の依存関係を図示して所要期間を見積もったり、重要な工程を見極めたりする手法。1950年代に米海軍で弾道ミサイル開発プロジェクトのために考案された手法である。
PERTでは各工程を「前の工程が終わらないと次の工程が始められない」という依存関係に従って矢印で繋いでいき、それぞれの工程には所要時間を記入していく。
出来上がったネットワーク図(アローダイアグラム、PERT図とも呼ばれる)にはプロジェクト開始から終了まで通常いくつかの経路が現れる。経路をたどって各工程の所要時間を足し合わせていくとその経路の所要時間が求められ、その中で最大のものがプロジェクト全体の工期の見積りとなる。
クリティカルパス
所要時間が最大となる経路に存在する工程はどれか一つでも遅れると全体が遅延するため、重要な工程のみが集まった「クリティカルパス」(critical path)と呼ばれる。
全体の工期を短縮するにはクリティカルパスを短縮しなければならないため、スケジュールや人員配置の変更、資源の集中投下などの判断を行うことが必要となる。
その際、ある工程の所要時間が変化すると、これまでとは別の経路がクリティカルパスになる場合があるため、PERT図の作成と分析はプロジェクト進行中に何度も繰り返し行なうことが重要となる。
最小二乗法
調査や測定から得られたデータ系列を関数でモデル化する際、関数による理論値と実際の値の誤差の2乗の和が最小となるように関数の係数を決定する手法。
2つのデータ系列 があるとき、両者の関係をモデル関数 で表したいとする。最小二乗法は を構成する係数を決定する手法である。
におけるモデル関数の値は である一方、実際の値は であるため、両者の誤差(残差という)は となる。これは他の についても同様である。この残差が全体でなるべく小さくなるようにするため、最小二乗法では各点の残差の2乗をすべて足し合わせ(残差平方和)、理論値と実測値の誤差の分散の推定値を求める。得られた合計値 はモデル関数の係数を変数とする関数の形となるため、これを代数的に解いて各係数の値を決定していく。
具体的な解き方はモデル関数に選択した関数の種類によって異なるが、最も単純に直線的な関係を想定して一次関数 で表した場合、 と の平均 と 、標準偏差 と 、相関係数 を用いて、 、 として表すことができる。
回帰分析 ⭐
何かの結果を表す数値があるとき、原因と考えられる数値がどのような形で影響を与えているのか規則性を明らかにすること。因果関係の推定や事象の予測、シミュレーションなどのためによく行われる。
調査などで得られた様々な数値の組み合わせのうち、着目している数値(従属変数)が、他の数値(説明変数)からどのように影響を受けているかを関数の形で明らかにする。説明変数が一つの場合を「単回帰分析」、複数の場合を「重回帰分析」という。
例えば、ある飲食店のビールの売上(y)とその日の最高気温(x)についての記録を単回帰分析したところ、y=ax+c という1次関数の形で表されたとする。この関係が分かれば、天気予報を元に仕入れ量を調整することができる。降水量(z)との関係も合わせて重回帰分析することで、y=ax+bz+c という関係が明らかになれば、より精度の高い予測が可能となる。
この例では説明変数と従属変数が直線的な比例関係で表されることを仮定しており、これを「線形回帰」あるいは「直線回帰」という。物事の関係性は単純な比例関係で表されるとは限らず、x2 のような高次の項を含む多項式、指数関数、対数関数、三角関数などが含まれる場合がある。これを「非線形回帰」という。
統計値などから回帰分析を行う場合、各標本は誤差を含んで一定の範囲にばらついているため、数値計算を繰り返して関数のパラメータ(係数)を推定する。代表的な手法として「最小二乗法」がよく知られ、回帰式から得られる値と各標本の実際の値の誤差を二乗して足し合わせた値が最小になるよう係数を決定する。
因果関係 【因果】
2つの事象が原因と結果の関係になっていること。一方の事象に起因して、ある特定の機序によってもう一方の事象が生起されるような関係。
「降水量が増えると川が増水する」といったように、ある事象が別の事象の原因となっているような関係である。「降水量の増大」と「川の増水」の間には「降った雨水が川に流れ込む」という機序が存在する。
一方、2つの事象の変化の間に「一方が変化するともう一方も変化する」という傾向が存在する場合、これを「相関関係」あるいは略して「相関」という。相関は因果を含む概念で、因果関係にある事象間には必ず相関もある。逆に、相関があるからと言って両者に因果があるとは限らない。
例えば、河川敷の湿度と川の水位の変化に相関が見られたとして、「湿度上昇によって水位上昇が引き起こされた」あるいは「水位上昇によって湿度上昇が引き起こされた」とは言えない。両者は共に「降水」という共通の原因の結果に過ぎないからである。このように両方に影響する外部の要因を「交絡因子」という。
相関関係 【相関】
2つの事象に関わりがあり、一方が変化するともう一方も変化するような関係のこと。特に、何らかの規則性に基づいて双方の変化が連動しているような関係を指す。
「冬の気温と桜の開花日」や「親の身長と子の身長」のように、傾向として片方が増えるともう片方も増える、あるいは逆に片方が増えるともう片方は減るといった関係性が見られるとき、両者の間に「相関がある」あるいは、両者は「相関関係にある」という。
一方、片方が原因となってもう一方の変化が引き起こされる関係性を「因果関係」という。相関関係は因果関係を含む概念で、因果があれば必ず相関もあるが、相関があるからといって必ずしも因果もあるとは限らない。
統計学では2つのデータ系列の分布について、一方の値が高ければ高いほどもう一方の値も高くなる(同じ方向に連動する)関係を「正の相関」、一方の値が高ければ高いほどもう一方の値は低くなる(逆方向に連動する)という関係を「負の相関」という。
2つのデータ系列の間にどの程度強い相関が見られるかは「相関係数」という値で表すことができる。これは両者が線形相関(1次関数で書き表せる直線的な関係)にどの程度近いかを表す係数で、「1」ならば完全な正の相関、「0」ならば相関なし、「-1」ならば完全な負の相関があることを表す。
疑似相関 【見せかけの相関】
二つの事象の間に相関が見られるが、因果関係は存在しない状態のこと。両者とも共通の原因の結果である場合などに生じる。
二つの事象AとBの傾向に相関が認められる場合、両者に因果関係があり、原因Aによって結果Bが生じている、あるいはその逆であることが疑われる。しかし、AもBの共通する原因X(潜伏変数あるいは交絡因子という)の結果である場合、AとBの間に因果は無い。このような関係を疑似相関という。
例えば、月ごとのリップクリームの売上と火災の発生件数に強い相関が認められたとして、リップクリームが火災の原因になったり、火災がリップクリーム購入の動機になっているのかというと、そうではなく、「季節による湿度の変動」という共通の原因によって両者に同じ傾向の変動が起こっているだけである。
棒グラフ 【バーチャート】 ⭐
数値データを図示するグラフの一つで、各項目の大きさに対応する長さの棒を縦または横に並べたもの。片方の端の位置が揃っており、棒の長さで各項目の大きさを一目で比較できる。
同じ幅の細長い棒(長方形)を並べた図で、棒の長さが各項目の大きさを表している。垂直に伸びる棒を横に並べた「縦棒グラフ」と、水平に伸びる棒を縦に並べた「横棒グラフ」がある。縦棒の場合は下端を、横棒の場合は左端を揃えて並べる。
項目の並び順は図で示したい内容に応じて決められるが、左端や上端から値の大きい順に並べる場合や、年齢のように項目の順序や大きさに従って並べる場合がある。項目が時系列の場合は過去から順に並べることが多い。
バリエーションとして、棒を区切って内訳を示す「積み上げ棒グラフ」、棒の長さを揃えて内訳の比率の比較や変化を示す「100%積み上げ棒グラフ」、一つの項目に複数の細い棒を並べて時系列の変化などを表す「集合棒グラフ」などがある。折れ線グラフなどと組み合わせて複合グラフとする場合もある。ソフトウェアによっては棒の並びを3次元的に描画する「3D棒グラフ」の機能が利用できる場合もあるが、3D化すると棒の長さの比が歪むため好ましくないとする考え方もある。
折れ線グラフ
数値データを図示するグラフの一つで、各項目を点で表し、隣接する項目同士を線分で結んで推移を折れ線で表したもの。時系列の変化などを表すのに適している。
縦軸に量、横軸に時間を取り、各時点における量の大きさを点で示す。隣接する点同士を端から順に線分で繋いでいくことで、すべての点を一つの折れ線で結びつける。線分が右上がりの箇所は増加、右下がりの箇所は減少を表し、折れ線の上下で量の時系列の変化を視覚的に把握することができる。
同じグラフに複数の異なる系列を表す折れ線を重ねて描画したり、折れ線グラフと棒グラフを重ねて描画することもあり、複数の項目の変化を直感的に把握することができる。複数の系列を重ねる場合は実線と折れ線、破線を使い分けたり、線を色分けしたり、点を表す図形(●▲■など)を変えるなどして見分けやすいようにする。
円グラフ 【パイチャート】
数値データを図示するグラフの一つで、円の中を大小の扇形に区切って各項目に対応付け、扇の面積によって各項目の大きさを表すもの。各項目の全体に占める割合を一目で比較できる。
円全体が全項目の値の和(100%)に相当し、各項目を全体に占める割合に従って扇形で示す。時計でいう0時方向から時計回りに配置するのが一般的である。あまりに構成比の小さな項目は細すぎて見にくいため、最下位の位置に「その他」としてまとめる。
各項目が独立している場合は大きい順に並べるのが原則だが、項目間にグループ関係や何らかの順序性がある場合にはそちらに従って配置することがある。例えば、アンケートの回答が「とてもそう思う」「そう思う」「どちらとも言えない」「そう思わない」「まったくそう思わない」であれば、構成比に関わらずこの順に並べる。議会の勢力図であれば、右側に与党系、左側に野党系、中央に独立系とすると分かりやすい。
英語では切り分けたパイになぞらえて “pie chart” (パイチャート)と呼ぶことが多い。バリエーションとして、中心を空けて表題などを書き入れた「ドーナツグラフ」、複数の系列や各項目の内訳などを同心円状に重ねる「二重円グラフ」などがある。ソフトウェアによっては厚みのある円盤状の「3D円グラフ」を描画する機能もあるが、3D化すると扇の面積比が歪むため好ましくないとする考え方もある。
散布図 【分布図】 ⭐⭐
一つのデータが複数の量や特性の組として表される場合に、二つの値の間の関係を明らかにするために作成される図。縦軸と横軸にそれぞれ別の特性を割り当て、各データについて対応する位置に点を打って作図する。
点の分布する様子を見て、データを構成する二つの量の間に関連があるか、どのような関連があるかを知ることができる。例えば、点が右上がりの帯状に分布していれば正の相関があると分かり、(左上から)右下がりなら負の相関があると分かる。まんべんなく散らばっていれば相関が薄いか無さそうであると考えられる。
全体の傾向から大きく外れた特異点(外れ値)がどこにあるかも容易に知ることができ、これを除外して計算を行ったり、外れた理由を詳しく調べたりすることもある。また、全体に当てはまる傾向を調べるだけでなく、点の集まり具合から二つの量の関係が同じ傾向を示している項目群をグループ分け(グルーピング)するといった使い方をする場合もある。
マトリックス図 【マトリクス図】
二つの要素の関連性について、縦と横の二次元の図や表を用いて整理したもの。分野によって表形式のものと数学のグラフのような図に分かれる。
表
碁盤の目状の表を使い、複数の要素を行と列に対応付け、交点の升目に対応する内容を書き入れていく作図法がよく知られる。品質管理の分野では新QC七つ道具の一つに数えられる。
二つの要素の項目をそれぞれ一行目と一列目に列挙した「L型」、三つの要素の項目を中央列と一行目左側、右側にそれぞれ列挙した「T型」、四つの要素を表の中心から十字形に中央列上方と下方、中央行左方と右方にそれぞれ列挙した「X型」などの種類がある。
図
数学のグラフのような図を使い、二つの要素を縦軸と横軸に対応付けて全体を四象限に区切り、各項目を二要素の値や性質の強さに基づいて図中に配置していく作図法もある。「四象限マトリックス」とも呼ばれる。
多数の項目を二つの性質に基づいて分類するための図で、単に四つの象限に分類する場合と、軸や原点からの距離が性質の強さを表す場合がある。似た性質を持つグループは近くに集まるため、多数の要素の分類を視覚的、俯瞰的に把握することができる。
箱ひげ図 【箱髭図】
数値データを図示するグラフの一つで、長方形の上下に線分を付け加えた図形で一つのデータ系列の分布を要約するもの。箱の上下の線分を「ひげ」になぞらえた名称である。
縦軸に量を取り、横軸方向に系列を箱ひげとして並べていく。各箱ひげは、上のひげの上端が分布の最大値、箱の上端が第3四分位数、箱の中に引かれた仕切り線が第2四分位数(中央値)、箱の下端が第1四分位数、下のひげの下端が最小値となっている。最大値や最小値は外れ値の場合もあるため、ひげの端は最大・最小から1~10%程度の値を用いる場合もある。
一つの箱ひげで一つのデータ系列の分布を直感的に把握することができる。これを系列の数だけ横に並べていくことで、系列間の分布の違いを視覚的に比較することができる。複数の異なる対象の分布を比べるために作成する場合もあれば、同じ対象の時系列の分布の変化を知るために作成することもある。
ヒートマップ
データの可視化手法の一つで、映像を被写体の表面温度で色分けするサーモグラフィのように、表や画像を各点や領域の値の高低に応じて連続的な色調の変化で塗り分けたもの。
一般的なデータ解析で用いる場合、値を2次元の表(行列)などに並べ、各領域を値に応じた色(単色の濃淡や明暗で表す場合もある)で着色する。色は最上位20%は赤、次の20%は橙、次の20%は黄…といった具合に閾値を定めて段階的に決めておく。
単に数字が並んだ表に比べ、各色の領域の分布や変化、繋がり具合が視覚的に表現されるため、全体の傾向を素早く把握することができる。数字だけでは気が付かなかった法則性などを発見できる場合もある。地理情報システムなどでは、地図や建物の間取り図などを各領域の統計量や測定値などで色分けしたヒートマップが用いられることもある。
Webページのヒートマップ
Webサイトのアクセス解析では、閲覧者がWebページ内のどの領域にどれくらい注目したかを調べ、実際のページに被せるように連続的な色合いの変化で塗り分けた画像をヒートマップという。
一般的な手法では、ページがWebブラウザに表示された際の利用者の操作を記録し、スクロール中に留まっていた時間の長さ、クリックしたリンクの位置、マウスポインタの動き(パソコンからのアクセスのみ)などから長く注目していた領域とそうでない領域を段階的に色分けする。
詳細に調べる場合はユーザーテストを実施し、被験者の視線を記録できる特殊な機材を用いて実際にWebサイトを閲覧してもらう。視線の集まり具合や留まり具合によってページを段階的に色分けする。スクロールの記録からは分からない左右の違いまで詳細に明らかにすることができる。
レーダーチャート 【クモの巣グラフ】 ⭐
グラフの種類の一つで、複数の項目の大きさを中心点からの距離で表したもの。各項目の大きさを同じ尺度で一覧し、項目間のバランスや全体的な傾向を図形の形状や大小で把握できる。
各項目の軸を図の中心を原点として放射状に伸ばし、それぞれの軸上に各項目の値をプロットする。隣接する項目同士を線分で結んでできた多角形が、対象の各項目の傾向を表している。
突出して高い項目や低い項目があると対応する角に大きな凹凸ができ、多角形のいびつさでバランスの良し悪しを視覚的に表現できる。また、値が全体的に高ければ多角形の面積が広く、低ければ狭くなる。
各軸は隣の軸となす角度がすべて等しくなるように配置し、最大値同士を線で結ぶと正多角形になる。途中の目盛りを結んだ線はクモの巣のような形になるため、「クモの巣グラフ」(spider chart)とも呼ばれる。
ヒストグラム 【度数分布図】 ⭐
データの分布を表す統計図の一つで、縦軸に値の数(度数)、横軸に値の範囲(階級)を取り、各階級に含まれる度数を棒グラフにして並べたもの。どの範囲の値が多く、どの範囲が少ないかを視覚的に表現できる。
値の出現頻度の高い階級は高い棒で、低い階級は低い棒で図示されるため、出現頻度の高低やバラつき具合を視覚的に容易に把握できる。各階級の度数を示す棒のことを「ビン」(bin)と呼ぶことがある。
すべてのビンの面積の総和が全体の度数を表しており、各ビンの面積は全体に占めるその階級の度数の割合を視覚的に表現したものとなっている。同じデータ群でも階級の幅の取り方次第でビンの形状や分布は異なるが、どのような基準で区分すべきかについて様々な方法論が提唱されている。
また、手前のすべての区間の度数を足し合わせた累計値をその区間の度数とし、これを右肩上がりの棒グラフの列で示したものを「累積ヒストグラム」(cumulative histogram/累積度数図)という。端からどの区間までが重要かを見極める場合などに利用される。
ロジックツリー
論理的思考のために用いられる作図法の一つで、対象を段階的に構成要素に分解していく様子を枝分かれしていく樹形図の形で示したもの。
物事の内訳や分類、問題の原因などを図示する技法の一つである。左端に大本の事象を書き入れ、そこから構成要素を右側に枝分かれさせる。各要素を細分化した要素をさらに右側に枝分かれさせ、この手順を繰り返して段階的に詳細化していく。
ある要素を構成要素へ分解する際には、細分化された要素をすべて足し合わせると左側の元になった要素全体を表すように心がける。このような分解法は「漏れなく、重複なく」という英語表現の頭文字をとって「MECE」(Mutually Exclusive, Collectively Exhaustive)と呼ばれる。
ロジックツリーは様々な場面や対象に適用できる汎用的な技法で、構成要素に分解するものを「要素分解ツリー」(Whatツリー)、事象の原因を探求するものを「原因追求ツリー」(Whyツリー)、問題の解決策を探求するものを「問題解決ツリー」(Howツリー)と呼ぶことがある。組織の目標管理などでは「KPIツリー」もよく用いられる。
CSV 【Comma-Separated Values】 ⭐⭐
テキスト(文字)データの形式の一つで、項目をカンマ「,」で区切って列挙したもの。複数の項目をレコードとしてまとめる場合は、改行でレコードの区切りを表す。表形式で項目が並んだデータの保存に用いられる。
表のように項目が縦横に並んだデータを記述することができる形式の一つで、標準のファイル拡張子は「.csv」。表計算ソフトやデータベースソフトなど多くのソフトウェアが標準で対応している。異種システム間のデータ交換などで古くから広く用いられている。
実体は単純な記法のテキストデータであるため、対応プログラムの開発もしやすく、人間がテキストエディタなどで開いて直接読み書きすることも容易である。反面、アプリケーション固有の複雑なデータや動的なデータ(他のセルの参照や関数など)や、画像などのバイナリデータ、データ全体についての情報(メタデータ)などを記録するのには向いていない。
仕様のばらつき
システムによって「項目をカンマで区切る」以外の仕様には細かな差異がある。例えば、改行文字として「CR+LF」(16進数で0D+0A)を用いるシステムが多いが、システム標準のテキストデータの扱いの違いにより、「CR」(0D)のみの場合や「LF」(0A)のみの場合もある。
また、項目を二重引用符「"」や一重引用符「'」で囲むのを原則とする場合と、文字列型のデータのみを引用符で括る場合、項目内にカンマや引用符、改行など区切り文字が出現する場合に引用符で括る場合などがある。項目内に引用符が現れる場合は「,"私は""神""だ",」のように二文字連続とする。
慣例として先頭行を「氏名,住所,電話番号」のように項目名の列挙とすることが多く、アプリケーションで開いたときに最上段に項目名を表示させることができる。各列が何を表しているのか容易に把握することができるが、そのまま表示・編集することを意図しない自動処理用のファイルなどでは省略してデータ本体のみとすることも多い。
同じ用途の他形式
<$Img:CSV-File.png|right|mcmurryjulie|https://pixabay.com/vectors/spreadsheet-icon-spreadsheet-excel-1898557/>CSVと同じように、項目を記号文字や制御文字で分離して改行でレコードを区切る形式は他にもあり、タブ文字(16進数で09)で区切る「TSV」(Tab-Separated Values)形式や、スペース文字(16進数で20)で区切る「SSV」(Space-Separated Values)などがよく知られる。西欧の一部のように数値の桁区切りにカンマを用いる国では、CSVの区切り文字にカンマでなくセミコロン「;」を用いる場合もある。
Microsoft Excelなどの表計算ソフトでは表形式に項目を並べたワークシートを扱うが、標準では各アプリケーション固有のファイル形式(Excelの場合はXLSXファイルなど)でこれを保存する。ほとんどのソフトにはCSVファイルの取り込み(インポート)や書き出し(エクスポート)機能があるため、標準ファイル形式では対応できない他のアプリケーションとのデータ交換などの際にはCSVを利用することがある。
チャートジャンク
グラフを構成する視覚的な要素のうち、情報の理解には不要な要素。過度な装飾などによって情報の正しい理解が妨げられるとして批判される。
数値で表される定量的な情報を図示する手法としてグラフ(chart)がよく用いられるが、点や線、軸、数値、項目名など本来の構成要素の他に(あるいは、そのような要素に対して)デザイン上の要請から装飾や編集が施されることがある。
このような視覚的な編集内容のうち、グラフが伝達すべき情報を歪め、正しい解釈を妨げるとされるのがチャートジャンクで、1983年に米統計学者エドワード・タフティ(Edward Tufte)氏によって提唱された。
過度な装飾の具体的な例としては、目立ちすぎなグリッド線、装飾された軸線や枠線、不要な文字情報、不必要に装飾的なフォント、描画領域内の背景画像やアイコン、必然性のない陰影付けや立体化(3Dグラフ化)などがある。
また、グラフの形状自体を歪めたり、誤解を招くような描画方法もチャートジャンクとされる。例えば、縮尺が異なる複数の項目を同じ作図法で並べたグラフ、低い値の省略箇所を波線などで断絶させず視覚上は連続してしまっているグラフ、視点の位置や奥行きのせいで表示上の長さや広さと数値の大きさが対応していない3Dグラフなどである。
機械可読 【マシンリーダブル】
コンピュータ上のデータ集合やファイルの持つ性質の一つで、記述された内容がコンピュータプログラムによって容易に処理可能であること。単純な処理で個々の要素を読み込むことができ、集計や変換などを行える状態を指す。
例えば、数値を集計した表が記された紙面を撮影した画像データは、人間が見れば書かれている項目や値を理解することができるが、コンピュータに画像の中に写っている内容を文字や数字として認識させるには複雑で高度な処理が必要で、認識精度も低くなる。
一方、「支店,年,月,売上(改行)東京,2021,1,7650000(改行)大阪,2021,1,9610000(改行)…」という形式で記述されたテキスト(文字)データは、「改行文字で分割して一件のデータ列を取り出す」「一件のデータ列をカンマ(,)文字で分割して各項目を取り出す」という単純な処理により、構造化されたデータ集合として扱えるようになる。
このように、単純なルールに基づいて処理を行うことでプログラム上で扱えるデータ構造に変換できるようなデータ形式を機械判読可能であるという。この例で挙げたCSV(Comma-Separated Value:カンマ区切り)形式は代表的な機械判読可能形式であり、他にもXML(Extensible Markup Language)やJSON(JavaScript Object Notation)などの形式が機械判読可能データの記述に適している。
ソフトウェアにより読み書きや編集などが可能なデータ形式であっても、例えばワープロソフトの文書ファイル(Microsoft WordのDOCX形式など)やPDF(Portable Document Format)ファイルなどは文書データを人間が閲覧するために表示・印刷するのが目的であるため、記述された内容は機械判読可能とはならない。
Webページの記述に用いられるHTML(Hypertext Markup Language)や表計算ソフトのワークシート(Microsoft ExcelのXLSX形式など)などは両者の中間的な性質を持ち、人間もソフトウェアも内容を読み取れるよう機械判読可能な構成とすることも、機械判読可能性を無視して人間が読むためだけに見栄えを整形することもできる(そしてそのことがしばしばトラブルや余計な手間が発生する原因となっている)。
ログ
起こった出来事についての情報などを一定の形式で時系列に記録・蓄積したデータのこと。原義は船の航海記録(日誌)。機器やソフトウェアがその機能の一部として自動的に記録するものを指すことが多い。
ある機器やソフトウェア、システムについて、その起動や停止、エラーや障害の発生、利用者による操作や設定の変更、外部との通信など、稼働中に起こった出来事の内容を日時などとともに時系列に記録したものをログデータという。稼働状況の確認や集計、不具合の原因調査などのためによく参照される。
「システムログ」「エラーログ」「通信ログ」「操作ログ」「アクセスログ」といったように、何を対象にどのような出来事を記録するのかによって様々な種類に分かれる。データ形式は対象や目的により多種多様だが、自動処理しやすいよう各項目をカンマやスペース文字などで区切り、各件を改行文字で区切ったテキスト形式がよく用いられる。WebサーバのW3C形式のように、システムによっては標準形式が存在する場合もある。
ログデータは個別のシステムやソフトウェアが自身で記録することが多いが、Windowsのイベントログのようにオペレーティングシステム(OS)に付属する記録システムを通じて一元的に蓄積・管理される場合もある。また、UNIX系OSのsyslogのように、ネットワークを通じてコンピュータ間でログデータを送受信して管理システムに集約する手法が用いられることもある。
システム上の出来事を記録したもの以外にも、コンピュータやネットワークを介して複数の人の間で交わされたメッセージの内容を時系列に記録したものをログデータということがある。電子掲示板(BBS)やSNSへの書き込みや、メッセンジャーなどによる利用者間のメッセージのやり取りなどを記録したデータやファイルがこれに相当する。
対数
数学では対数(logarithm)のことを「ログ」(英語でも“log”)と呼ぶため、プログラミングなどの分野ではこれにならって対数の計算を行う関数や機能などの名称として “log” が用いられることがある。“logarithm” の省略形であり、時系列の記録を意味する “log” とは同音同綴異義語で直接の関係はない。
量的データ 【量的変数】
調査や観測などで得られたデータのうち、物事の量的な側面を表す数値データのこと。長さ、重さ、人数、金額など大小や高低の程度を反映したデータである。
数で表され、数の大きさが量の多寡や性質の強さ、度合いを反映しているようなデータをこのように呼ぶ。物事の質的な側面を表す「質的データ」(質的変数)と対比される。
量的データを測る尺度のうち、数の間隔に意味があるものを「間隔尺度」という。数の間隔が量の大きさを反映している尺度で、温度の摂氏(℃)や年号などが当てはまる。原点が量的な「0」を表さないため値同士の比率には意味がない。
一方、間隔だけでなく値そのものの比に意味があるような尺度を「比例尺度」という。数がそのまま量の大きさを反映しているような尺度で、長さ、面積、体積、重さ、時間、速度、絶対温度、人数、金額など多くの量的データは比例尺度で表される。数で表されていても、数が順序や順位しか表さない、ランキングや段階評価、段位のような「順序尺度」のデータは含まない。
質的データ 【質的変数】
調査や観測などで得られたデータのうち、物事の質的な側面を表すデータのこと。数で表されないような記録や、数値の場合は値自体や値同士の差の比率には意味がないようなデータである。
性別や血液型、「はい」「いいえ」を選択するアンケート項目、色、形状など、結果を数値で表すことができないデータや、数字で表されていても自動車ナンバーや電話番号のように大小に意味がない「名義尺度」のデータが含まれる。物事の量的な側面を表す「量的データ」(量的変数)と対比される。
また、数の大小が順位や順序を表していても、間隔や比には意味がない「順序尺度」の数値データも質的データに分類される。例えば、競技の順位、成績やアンケートなどの段階評価、検定制度の段位や級などは、上位と下位の区別はできても度合いを数量比較することはできないため質的データに分類される。
メタデータ 【メタ情報】
データについてのデータ。あるデータそのものではなく、そのデータを表す属性や関連する情報を記述したデータのこと。データを効率的に管理したり検索したりするためには、メタデータの適切な付与と維持が重要となる。
例えば、文書データであればタイトルや著者名、作成日などが、楽曲を収めた音声データであれば曲名や収録媒体、作曲家、作詞家、実演家、発表(発売)日時などが考えられる。どのような属性がメタデータとして適切あるいは必要かはデータの種類によって異なり、また、データの作成方法、利用目的などによっても異なる。
文書や画像、音声、動画など多くのファイル形式では、ファイルの先頭などにメタデータを格納する領域が用意されており、あらかじめ決められた形式で、データと一緒にメタデータを保管できるようになっている。ファイル自体もまた、ファイルシステムによって作成者、作成日時、最終更新日時、アクセス権などのメタデータと共に管理されている。
構造化データ
項目の形式や順序など、明確に定義された構造に従って記述、配置されたデータ集合のこと。プログラムによって自動処理するために用いられることが多い。
リレーショナルデータベースのテーブルやCSVファイルのように、一件のレコードの構成、各項目のデータ型や形式、項目の並び順、項目やレコードの区切り文字などが事前に決まっており、同じ構成のレコードの繰り返しとしてデータを列挙したものを指すことが多い。
ソフトウェアによって容易に読み込んで内容を認識させることができ、大量のデータを集計したり分析するのに適している。人間がそのまま眺めて読みやすい形式とは限らず、ソフトウェアによって抽出や集計を行ったり、見やすいよう整形したり、レポートなど別の形式へ変換してから人間に供されることが多い。
一方、Webページや電子メール等のメッセージ、ワープロソフトやプレゼンテーションソフトなどで作成した(見栄え重視の)文書ファイル、画像や音声、動画などのメディアデータといった、決まった形式や配置に従ってデータが並んでいるわけではない不定形なデータ群のことを「非構造化データ」(unstructured data)という。
Webページの構造化データ
WebページのHTMLコードは、Webブラウザにその文書の構造やレイアウトを伝達するという意味では構造化されているが、書かれている情報をサイト横断的に同じ形式に従って自動収集・処理できるような構造にはなっていない。
そこで、ソフトウェアが自動処理しやすいようページ内に書かれている内容を特定の規約に則って構造化データとして記述する手法が提唱されている。同じ情報を人間向けと機械向けに同じページに埋め込んでおき、ブラウザは人間向けのデータを表示し、Webロボットなどの自動処理プログラムは機械向けのデータを収集する。
様々な手法が提唱されているが、現在有力な方式はHTMLのヘッダ領域などにJSON-LD形式でスクリプトの形で情報を埋め込む手法で、Schema.orgという業界団体が情報の種類ごとにデータの記述形式(スキーマ)の標準を提案している。
例えば、ある行事の開催案内のWebページに、Schema.orgの定義する「Event」(行事)のスキーマで構造化データを埋め込むことで、巡回してきたロボットに行事名や主催、出演者、開催日時などを伝達することができる。
非構造化データ
項目の形式や順序などについて明確に定義された構造を持たない不定形なデータ集合のこと。主に人間が情報を把握するために作成されるデータ群で、コンピュータによる内容の自動処理には適さない。
コンピュータが扱うデータの多くは何らかの形式や構造に従って記録されているものが大半だが、非構造化データといった場合はリレーショナルデータベース(RDB)の表(テーブル)のように構成要素を分割、配列した構造を持たず、コンピュータプログラムによって要素を個別に把握して処理するような利用方法が難しいようなものを指す。
よく挙げられる例として、(人間が閲覧するための)Webページ、電子メールやメッセンジャーなどのメッセージ、ワープロソフトやプレゼンテーションソフトなどで作成した(見栄え重視の)文書ファイル、画像や音声、動画などのメディアデータなどがある。
これらのデータはそれぞれ特定のデータ形式で記録されてはいるものの、主に人間が見聞きするために視聴覚的な構成を整えることを主眼に作成・編集されており、内部の構成要素をプログラムが自動認識できるような形になっていない。データベースのような検索性や再利用性は乏しく、情報として後から活用することが難しい。
一方、データベースのテーブルやCSVファイルのように、一件のレコードの構成、各項目のデータ型や形式、項目の並び順、項目やレコードの区切り文字などが事前に決まっており、同じ構成のレコードの繰り返しとしてデータを列挙したものを「構造化データ」(structured data)という。
サンプリング 【標本化】
対象全体の中から何らかの基準や規則に基いて一部を取り出すこと。統計調査などで少数の調査対象を選び出すことや、信号のデジタル化などで一定周期で強度を測定することなどを指す。
アナログ信号のサンプリング
信号処理の手法の一つで、アナログ信号などの連続量の強度を一定の時間間隔で測定し、観測された値(標本値)の列として離散的に記録することをサンプリングということが多い。デジタルデータとして記録したい場合は、値を整数などの離散値で表す「量子化」(quantization)処理が連続して行われる。
測定の間隔を「サンプリング周期」(sampling cycle:標本化周期)、その逆数である測定の頻度(単位時間あたりの回数)を「サンプリング周波数」(sampling frequency:標本化周波数)という。頻度の多寡は通常サンプリング周波数で表現され、単位として1秒あたりの回数を表す「Hz」(ヘルツ)が用いられる。
例えば、音声を44.1kHz(キロヘルツ:Hzの1000倍)でサンプリングする場合、音声信号の強度を毎秒4万4100回記録し、音声データを1秒あたり4万4100個の数値の列として表現する。44.1kHzは人間の可聴音をほぼカバーする周波数とされ、CD(コンパクトディスク)などの音声記録に用いられている。
統計・調査におけるサンプリング
統計や調査などの分野では、調査したい母集団全体を対象とすることが困難な場合に、集団を代表する少数の標本を抽出して対象とし、その結果から統計的に母集団の性質を推計する手法をサンプリングという。製品の出荷時検査や社会調査などで広く用いられ、標本から母集団の推定値を算出する方法や偏りのない標本の抽出方法などについて様々な手法が提唱されている。
音楽におけるサンプリング
音楽の分野では、楽曲の制作手法の一つで、既存の楽曲や何らかの音源からメロディや歌詞、あるいは音声そのものの断片を抽出し、引用したり繋ぎ合わせる技法をサンプリングという。また、録音した楽器の音や環境音、人や動物の声などを短い単位に分解し、再構成して楽曲に仕上げる手法のことをサンプリングということもある。
名寄せ ⭐
複数のシステムやデータベースに分かれて記録されている同一主体に関するデータを統合して一元的に管理できるようにすること。ある顧客についての様々な情報を集めて一元化するといった操作を指す。
主に金融機関で行われる手続きおよびデータ処理で、同じ個人や法人が複数の口座などを開設している場合に、これらをシステム上で紐付けて同一主体による口座であることが分かるようにする。顧客の利便性や情報管理の効率が高まるほか、一人あたりの限度額などを規定した制度などへの対応上も必要となる。
転じて、金融機関以外でも、同一主体による情報が複数の場所に分かれて記録されている場合に、共通の識別番号などを導入して同じ主体の情報をすぐに集約できるようにする作業を名寄せと呼ぶことがある。例えば、企業が顧客の情報を記録した複数のデータベースに共通の顧客IDを導入する作業などを指す。
近年では、インターネット上で公開されている特定の個人や法人に関する断片的な情報を第三者が収集し、一つに統合する「名寄せ」行為が行われることもある。ある企業の公開情報や評判などを一覧できるサービスなど有用な使い方もあるが、個人のプライバシー侵害やサイバー攻撃の下準備などに悪用されることもある。
外れ値
調査や測定、観測などで同種のデータをいくつも取得したとき、全体のデータの傾向から大きく外れた値のこと。統計処理などの際に一定の基準を設けて除外することがある。
収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを外れ値という。このうち、測定機器の不具合や記入ミスなど、何らかの誤りによっておかしな値になってしまったものは「異常値」という。対象や方法によって、異常値と異常値以外の外れ値を区別できる場合とできない場合がある。
外れ値を含んだデータをそのまま分析すると、平均値や相関係数などの統計量に大きな影響を与え、歪んだ結果が導き出されることがある。このため、一定の基準を設けて外れ値を取り除く操作を行うことがある。
よく用いられる手法として、箱ひげ図を描いて「第1四分位数-箱の幅×1.5以下」「第3四分位数+箱の幅×1.5以上」のデータを外れ値と判定する方法がある。また、平均値や標準偏差などから特定の統計量を算出し、基準値を設けて判定する方法もある。こうした検定にはスミルノフ・グラブス検定やトンプソン検定などが知られている。
なお、用意した結論に都合のよいデータのみを残してそれ以外を外れ値として排除することはデータの改竄とみなされる可能性があるため値の削除は慎重に行う必要がある。どんな調査や観測でも、現実の対象を調べれば全体の傾向から外れたサンプルが存在するのは普通のことであるため、異常値として理由が説明できる値以外は恣意的に取り除くべきではないとする考え方もある。
異常値
調査や測定、観測などで同種のデータをいくつも取得したとき、ミスなどで混入した誤った値のこと。また、単に傾向から大きく外れた値(外れ値)や、何らかの基準を超えて異状を示す値を指すこともある。
収集したデータ全体の分布が何らかの傾向を示すとき、この傾向から大きく外れた値のことを「外れ値」という。このうち、測定機器の不具合や故障、測定ミス、記入ミスなど、何らかの明確な原因によっておかしな値になってしまったものを異常値という。
ミスなどの不手際に限らず、人間の身長を示す値が「10m」になるなど、理論的に絶対に起こり得ない値を含むこともある。データを取る対象や方法によって、外れ値から異常値と他の外れ値を区別できる場合と、区別がつかない場合がある。文脈によっては外れ値のことを異常値と呼ぶ(両者を特に区別しない)場合もある。
また、医療における検査や、システムや機械の監視など、正常な状態と異常な状態を区別するために測定などを行う場合には、異常な状態を示す値のことを異常値と呼ぶことがある。この場合には値そのものは正しく得ることができており、「正しく捉えられなかった値」という意味合いはない。
欠損値 【欠測値】
調査や測定、観測などでデータを収集した際、あるデータの記録場所を参照してもデータが記録されておらずに欠けていること。一定周期で観測値を記録するシステムでデータが欠けた時刻がある場合などが該当する。
観測において、装置の不具合や操作ミスなどで測定値が得られなかった状態や、調査において特定の記入項目が空欄で記載されていない状態などを指す。値は存在するが傾向から大きく外れている「外れ値」や、装置故障やミスなどでおかしな値になってしまった「異常値」とは異なる。
観測における欠測などは機械的に取り除いて分析することが多いが、調査では記入が任意の項目が複数ある場合などに完全にデータが揃っているサンプルが十分な数揃わないこともある。そのような場合には欠損の多い項目を解析から外したり、平均値などの代表値で穴埋めしたり、他の項目の値が似ているサンプルのデータで補完するといった操作を行うことがある。
アノテーション 【アノテート】
「注釈」という意味の英単語で、ITの分野ではデータやプログラムの中に特殊な記法を用いて埋め込まれた付加情報のことをこのように呼ぶことが多い。
プログラミングでは、ソースコード中に登場する要素(クラスやメソッドなど)に対して、処理系に伝達したい付加的な情報(メタデータ)を注記する仕組みのことをアノテーションという。
「このメソッドはテスト用である」「ここでコンパイラは警告を出してはならない」「このメソッドはオーバーライドである」などの情報を付記し、コンパイル時や実行時に参照させることができる。
アノテーション自体は実行コードの一部とはならず、コンパイラなどの言語処理系に指示を与えるためだけに用いられる。アノテーションにアノテーションを加える「メタアノテーション」(meta-annotation)の記法が用意されている言語もある。
ソースコード中に注釈を記入する仕組みにはコメント(comment)もあるが、これは主に他の開発者など人間に情報を伝えるために自然言語で書かれるもので、コンパイルなどの過程で削除され、処理系の動作には影響を及ぼさない。
移動平均
時系列に並んだ数値データを平滑化する手法の一つで、ある時点の値を、その値を含む一定期間の平均値で置き換える方式。長期的な推移を分かりやすく表示できるようになる。
例えば、月次データを3か月移動平均で表す場合、4月のデータは2月、3月、4月の3か月分のデータの平均値とし、5月は3~5月の、6月は4~6月の平均といった具合に、枠を移動しながらそれぞれ直近の一定期間の平均を取っていく。
これにより、短期的に生じる大きな変動やノイズ、外れ値などの影響を均し、データの長期的な推移や傾向を明らかにすることができる。これを応用し、直近の過去のデータの平均から将来値の予測を行う手法を「移動平均法」という。
単純/加重/指数
単に移動平均という場合は各データの単純平均を取る「単純移動平均」(simple moving average)を指すが、時間の経過に応じて過去のデータの影響を割り引くように係数を掛け合わせて平均する手法を「加重移動平均」(weighted moving average)という。さらに、係数が経過時間に対して指数関数的に減少していくよう調整する手法を「指数移動平均」(exponential moving average)という。
後方/中央/前方
平均を取る区間について、当該データを先頭に過去のデータのみを組み合わせる手法を「後方移動平均」、当該データを中心に過去と未来を同じ期間ずつ組み合わせる手法を「中央移動平均」、当該データを末尾に未来のデータのみを組み合わせる手法を「前方移動平均」という。
現在(直近)のデータを扱う場合は未来のデータが未定のため後方移動平均を用いるのが一般的だが、過去のデータの分析などでは中央移動平均や前方移動平均を用いたり、これらを併用したり比較することもある。
自然言語処理 【NLP】 ⭐
人間が普段使っている日本語や英語といった自然言語を対象として、コンピュータによる自動処理により解析や生成、変換などを行う技術の総称。自然文検索、自動要約、自動翻訳などに応用されている。
日本語の書き言葉を対象とした自然言語処理では、文を単語などの最小単位(形態素)に分解する「形態素解析」、文の構造を調べる「構文解析」、単語の意味や語間の修飾関係を調べる「意味解析」、前後の文で得られる知識も用いて文意を確定する「文脈解析」などの段階で進めていく。
言語や表現形態によって必要な処理の内容が異なる場合がある。例えば、英語など単語間に空白を開けて文を記述する「分かち書き」を行う言語では形態素解析は不要となるが、話し言葉を対象に音声認識を行う場合は形態素解析が必要となる。
自然言語処理では処理手順を定めたアルゴリズムだけでなく、その言語の語彙や文法、連語、慣用句などを知るための大量のデータが必要となる。単語の意味や読み、品詞、活用形などを機械可読な形式に整理した「辞書」データや、構文解析済みの大量の文例を集めた「コーパス」などのデータ集合が利用される。近年では機械学習システムで自然言語処理を行うための学習済みデータモデル(言語モデル)の開発も盛んに行われている。
自然言語処理の応用としては、Web検索エンジンや音声アシスタント、かな漢字変換システム、光学文字認識(OCR)、文書編集ソフトのスペルチェッカーや校正ツール、音声認識(音声入力)や音声合成、機械翻訳、自動要約、テキストマイニングなどが挙げられる。
全数調査 【悉皆調査】
統計的な調査を行う際に、対象となる母集団全体を調査対象とする方式。国勢調査のように、標本の抽出などを行わずに対象すべてを虱潰しに調べる調査。
調査の対象となる母集団に含まれるすべての要素を一つ一つ調べる調査方式をこのように呼ぶ。一方、母集団の中から一定の基準や方法で少数の標本(サンプル)を抽出して調査する方式を「標本調査」という。
全数調査はすべての対象についてのデータを揃えることができるため、抽出調査で生じる標準誤差などの不確かさに影響されない。対象の総数が少ない場合は容易に実施できるが、日本人全体など母集団が巨大な場合には大きなコストや長い期間を要したり、そもそも不可能なこともある。
社会調査の多くは標本調査だが、国が5年ごとに実施する、国内の全居住者を対象とした「国勢調査」や、国内の全法人を対象に行われ企業の国勢調査とも言われる「経済センサス」は全数調査として行われている。これらは統計としての意義と共に他の標本調査の基礎となるデータを提供する意義がある。
第1種の誤り 【type I error】
統計的な検定を行う際に、帰無仮説が真であるのに棄却してしまう過誤のこと。主張が実際には成立していなかったのに、誤って「成立している」と結論付けてしまう過ち。分野によっては「偽陽性」とも呼ばれる。
何らかの主張を統計的な手法で立証したいとき、「その主張は成立していない」という仮説(帰無仮説)を立て、主張の内容はその逆である対立仮説とする。調査や測定、統計量の計算などで帰無仮説が棄却されれば、本来の主張である対立仮説の成立を証明することができる。
このとき、実際には帰無仮説が正しい(主張は成立していなかった)のに、誤って帰無仮説を棄却してしまう過誤を第1種の誤りという。例えば、「新薬に効果がある」という主張のために「新薬には効果がない」という帰無仮説を統計的な検定にかけ、実際には効果がないのに誤って「効果があった」という結論を導いてしまう状況である。
一方、実際には対立仮説が正しい(主張は成立している)のに、誤って帰無仮説を採択してしまう過誤を「第2種の誤り」(第二種過誤)という。先の例では、新薬には実際には効果があったのに、「新薬に効果がない」という帰無仮説が検定を通ってしまい、誤って「効果がない」と結論付けてしまう状況である。
第2種の誤り 【type II error】
統計的な検定を行う際に、帰無仮説が偽であるのに採択してしまう過誤のこと。主張が実際に成立しているのに、誤って「成立していない」と結論付けてしまう過ち。分野によっては「偽陰性」とも呼ばれる。
何らかの主張を統計的な手法で立証したいとき、「その主張は成立していない」という仮説(帰無仮説)を立て、主張の内容はその逆である対立仮説とする。調査や測定、統計量の計算などで帰無仮説が棄却されれば、本来の主張である対立仮説の成立を証明することができる。
このとき、実際には帰無仮説が誤っている(主張は成立している)のに、誤って帰無仮説を採択してしまう過誤を第2種の誤りという。例えば、「新薬に効果がある」という主張のために「新薬には効果がない」という帰無仮説を統計的な検定にかけ、実際には効果があるのに誤って「効果がない」という結論を導いてしまう状況である。
一方、実際には帰無仮説が正しい(主張は成立していない)のに、誤って帰無仮説を棄却してしまう過誤を「第2種の誤り」(第二種過誤)という。先の例では、新薬には効果がなかったのに、「新薬に効果がない」という帰無仮説を検定によって棄却してしまい、誤って「効果がある」と結論付けてしまう状況である。
平均値 【平均】 ⭐
値の集団があるとき、全体の量は変えずにすべての値が同じだったらいくつになるかを求めたもの。集団全体の性質を表す代表値として最もよく用いられる。
単に平均値という場合はすべての値を足して個数で割った「算術平均」(相加平均、単純平均)を指す。全体の総和は変わらずすべての値が同じだったらいくつになるかを求めたもので、全体の値の水準を表している。
平均値の算出法として、すべての値(n個)を掛け合わせてn乗根を求めることもある。全体の積が同じですべての値が同じだったらいくつになるかを求めたもので、「幾何平均」(相乗平均)と呼ばれる。他にも調和平均、対数平均、加重平均など様々な算出法がある。
平均値は代表値として最もよく用いられるが、値の分布によっては必ずしも全体の性質を表すのに適さない場合がある。例えば、少数の値が極端に大きい(あるいは小さい)と、その値に引きずられてほとんどの値よりずっと大きい(あるいは小さい)値が平均値となることがある。
他によく用いられる代表値として、大きい順に並べ替えたときに順位がちょうど真ん中の値を求める「中央値」(median:メディアン/メジアン)、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)がある。
中央値 【メジアン】 ⭐
値の集団があるとき、最大値から最小値まで順に整列したとき順位がちょうど真ん中である値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。
値を大きい順あるいは小さい順に並べた時、ちょうど真ん中にある値が中央値である。値が偶数個の場合は中央の値が2つになるため、両者の平均値(算術平均)を中央値とする。例えば、「0, 5 ,1, 9, 7」という値の集合がある場合、大きい順でも小さい順でもちょうど3番目が「5」となり、これが中央値となる。
代表値としては値を均した「平均値」(算術平均/相加平均)を用いることが多いが、平均値は極端な値が含まれる場合にその影響を受けやすいという難点がある。例えば、10軒の家があって9軒は車を1台所有しており、残り1軒が11台所有している場合、1軒あたりの平均所有台数は「2台」となるが、実際に2台以上所有しているのは1軒だけである。
このような場合、中央値は5位と6位の中間、すなわち「1台」となり、大半の家が1台のみである実態をよく表している。ただし、時系列の比較などを行う場合、中央値は中央付近の値の動向しか反映しないため、全体の変化の傾向などを表すのには不向きである。
集団の代表値としては平均値、中央値の他にも、同じ値が出現する回数(あるいは区間ごとの頻度)を数え、最も出現頻度が大きいものを取る「最頻値」(mode:モード)を用いることがある。先の車の所有台数の例では最頻値も「1台」である。
最頻値 【モード】
値の集団があるとき、各値が出現する回数を数え、最も多く現れる値のこと。集団全体の性質を表す代表値の一つとしてよく用いられる。
集団の中で同じ値が何回出現するかを調べ、最も多く出現する値が最頻値である。例えば、{ 0, 1, 1, 1, 2 } という値の集合があるとき、この中には「0」が1回、「1」が3回、「2」が1回出現しており、最頻値は3回の「1」となる。
連続値の場合は全く同じ値が繰り返し現れることは稀であるため、度数分布表やヒストグラムを用いて「0以上10未満」「10以上20未満」のように区間を区切って頻度を数え、最も多い区間の中心の値(10~20が最多なら15)を最頻値とする。
最頻値は一つに定まるとは限らない。「0, 1, 1, 2, 3, 3, 4」の場合、最多頻度2回の値が「1」と「3」2つとなり、両者ともに最頻値となる。このように最頻値が複数の場合を「多峰性」(multimodal)の分布、中でも2つの場合を「二峰性」(bimodal)の分布という。最も極端な場合、すべての値が同じ頻度で出現するとすべての値が最頻値となる(最頻値を考える意味がなくなる)。
代表値としては他にも、全体を同じ値に均した「平均値」(average)、順位がちょうど真ん中の値を取る「中央値」(median:メジアン、メディアン)などがある。統計値などがきれいな山型の分布にならない場合には、これらより最頻値で代表させるのが適していることがある。また、平均値や中央値と異なり、「○○という回答が最も多かった」というように数値で表されないデータ(名義尺度)の集計にも適用できるという重要な性質がある。
データサイエンス
統計解析や数理解析、コンピュータによる処理などを駆使して大量のデータを解析・分析し、有用な知見を導く手法を研究する学問領域。
現代ではコンピュータや通信技術の発達で大量のデータの記録や蓄積、伝送が可能となった。これを様々な手法を駆使して処理、解析し、学術研究やビジネスなど人間の社会的な活動にとって有用な知見を導き出す方法論を研究するのがデータサイエンスである。
人間の知的活動と機械によるデータ処理を橋渡しするという性質上、様々な既存の学問や技術を横断的に活用する学際的な側面を持っている。統計や数理解析、線形代数、機械学習、データモデリングなどの数理科学やコンピュータ科学の知見、データベース操作やデータ形式の理解、プログラミング、データ加工・変換・処理といったエンジニアリング領域の技法が総合的に求められる。
データサイエンスを修め、あるいは研究する人材を「データサイエンティスト」(data scientist)という。日本では2011年頃からビッグデータ活用の重要性が叫ばれるようになるなか、データ活用を推進する具体的な人材像として2013年頃からデータサイエンティストという職種が認識され始めた。十分な技能を持ったデータサイエンティストは常に人材不足であるとされ、今後もそのニーズは高まっていくと予想されている。
ビッグデータ ⭐⭐
従来のデータベース管理システムなどでは記録や保管、解析が難しいような巨大なデータ群。明確な定義があるわけではなく、企業向け情報システムメーカーのマーケティング用語として多用されている。
多くの場合、ビッグデータとは単に量が多いだけでなく、様々な種類・形式が含まれる非構造化データ・非定型的データであり、さらに、日々膨大に生成・記録される時系列性・リアルタイム性のあるようなものを指すことが多い。
今までは管理しきれないため見過ごされてきたそのようなデータ群を記録・保管して即座に解析することで、ビジネスや社会に有用な知見を得たり、これまでにないような新たな仕組みやシステムを産み出す可能性が高まるとされている。
米大手IT調査会社ガートナー(Gartner)社では、ビッグデータを特徴づける要素として、データの大きさ(Volume)、入出力や処理の速度(Verocity)、データの種類や情報源の多様性(Variety)を挙げ、これら3つの「V」のいずれか、あるいは複数が極めて高いものがビッグデータであるとしている。これに価値(Value)や正確性(Veracity)を加える提案もある。
コンピュータやソフトウェアの技術の進歩は速く、具体的にどのような量や速度、多様さであればビッグデータと言えるかは時代により異なる。ビッグデータという用語がビジネスの文脈で広まった2010年代前半にはデータ量が数テラバイト程度のものも含まれたが、2010年代後半になるとペタバイト(1000テラバイト)級やそれ以上のものがこのように呼ばれることが多い。
近年ではスマートフォンやSNS、電子決済、オンライン通販の浸透により人間が日々の活動で生み出す情報のデータ化が進み、また、IoT(Internet of Things)やM2M、機器の制御の自動化などの進展により人工物から収集されるデータも爆発的に増大している。
また、人工知能(AI)の構築・運用手法として、膨大なデータから規則性やルールなどを見出し、予測や推論、分類、人間の作業の自動化などを行う機械学習(ML:Machine Learning)、中でも、多階層のニューラルネットワークで機械学習を行う深層学習(ディープラーニング)と呼ばれる手法が台頭している。
このような背景から、膨大なデータを的確、効率的に扱う技術上の要請はますます高まっており、統計やデータ分析、大容量データを扱う手法やアルゴリズムなどに精通した「データサイエンティスト」(data scientist)と呼ばれる専門職の育成が急務とされている。
BI 【Business Intelligence】 ⭐
企業の情報システムなどで蓄積される様々なデータを、利用者が自らの必要に応じて分析・加工し、業務や経営の意思決定に活用する手法。そのためのソフトウェアや情報システムをBIツールあるいはBIシステムという。
従来の情報システムではデータを蓄積・保管していても、単に記録として残すためで活用などはせずに死蔵するか、会計事務などのために情報システム部門の人員が専門的な技術や技能、システムなどを用いて定型的な帳票や報告書などを作成するのが一般的だった。
BIでは、経営層や部門長などの意思決定者や、個別の業務を担う現場のスタッフが自らソフトウェアを操作してデータを抽出・分析し、自らの業務や意思決定にとって有用な情報に加工する。属人的な経験や勘に頼らず、実際の業務から得たデータに基づいて分析や予測、改善などを進めることができる。
BIツール
BIの実践には、専用に作られた「BIツール」というソフトウェアを用いることが多い。これはオフィスソフトのようにコンピュータの専門家ではない一般の利用者が使用することを想定したシステムで、グラフィック表示・操作(GUI)でデータの操作や分析を行うことができる。
データが蓄積された社内のデータベースシステムと連携して必要なデータを検索・抽出したり、多次元分析など多様な視点から解析・分析したり、データや分析結果を表やグラフなどにまとめ、分かりやすく可視化する機能を提供する。狭義には、このようなBIツールを導入して業務部門や経営層が活用できるようにすることを指してBIと呼ぶことが多い。
より広義には、様々なシステムに分散したデータを一元化する「データウェアハウス」(DWH)やデータ抽出を行う「ETLツール」、部門ごとに必要な形式に変換する「データマート」、必要なデータを抽出・分析する「データマイニング」や「OLAP」など、併用されることが多い関連技術・システムの全体を含める場合もある。
歴史
19世紀の商業に関する文書や、1950年代のコンピュータ黎明期の研究などで “business intelligence” という概念が登場するが、コンピュータシステムによるデータ活用という今日的な意味でのBIの概念は、1990年代頃から普及したものとされる。
これは1960~70年代に見られた、経営層の意思決定に情報システムを活用しようとする「MIS」「DSS」「EIS」などの試みを踏まえたもので、1989年に当時の米DEC(Digital Equipment Corporation)社のハワード・ドレスナー(Howard Dresner)氏が提唱したものが起源とされている。
データウェアハウス 【DWH】 ⭐⭐
企業などで運用される複数の業務システムやデータベースからデータを収集し、業務上発生した取引記録などのデータを時系列に保管したデータベース。また、そのようなシステムを構築・運用するためのソフトウェア。
「ウェアハウス」(warehouse)とは「倉庫」という意味で、組織内で運用される様々な情報システムやデータベースなどから集めたデータを保管する「データの倉庫」という意味合いでこのように呼ばれる。
通常、種々雑多なデータを単にそのまま記録するわけでなく、同じ意味のデータは横断的に扱えるようにするなど統合し、データの主題ごとに整理し直して格納する。このデータの収集や整形、統合を専門に行うツールを「ETLツール」(Extract/Transform/Load、ELTツールとも)という。
データは発生した時系列に記録していき、更新や削除は行わなず、過去のある時点の個別のデータを参照できるように格納される。集積された過去のデータを元に、OLAPやBIツールなどの分析ツールを用いて抽出や集計、解析、比較などを行なって、計画立案や意思決定などのために有用な知見を得るために構築されることが多い。
データマート
蓄積された個々のデータの中から、利用部門や用途、目的などに応じて必要なものだけを抽出、集計し、利用しやすい形に格納したデータベースを作成する場合があり、これを「データマート」(data mart)という。小規模なシステムではデータウェアハウスを作らずにデータマートだけを構築することもある。
データレイク
データウェアハウスは原則としてリレーショナルデータベース(RDB)など構造化されたデータ形式で記録されたものを対象とするが、近年では情報システムの種類や利用方法の多様化、複雑化を受け、文書ファイルやソーシャルメディアの書き込みなど構造や形式が整っていないデータを扱う機会が増えている。形式によらず非構造化データを含む雑多なデータを一元的に保管する管理システムやデータ群のことを「データレイク」(data lake)という。
データマイニング ⭐⭐⭐
蓄積された大量のデータを統計学や数理解析などの技法を用いて分析し、これまで知られていなかった規則性や傾向など、何らかの未知の有用な知見を得ること。
「マイニング」(mining)とは「採掘」の意味で、膨大なデータの集積を鉱山に、そこから有用な知見を見出すことを資源の採掘になぞらえている。適用分野や目的、対象となるデータの種類は多種多様だが、ビジネスの分野では企業が業務に関連して記録したデータ(過去の取引記録、行動履歴など)を元に、意思決定や計画立案、販売促進などに有効な知見を得るために行われることが多い。
例えば、小売店の商品の売上データの履歴は、それ自体は会計上の手続きや監査などの業務にしか使われないが、データマイニングの手法で統計的に処理することで、これまで知られていなかった「商品Aと商品Bを一緒に購入する顧客が多い」といった傾向が分かる場合がある。これにより、AとBの売り場を統合するといった販売促進施策を行うことが可能となる。
商業分野だけでなく、自然言語処理やパターン認識、人工知能などの研究などでも利用される。分析・解析の手法も様々だが、代表的な手法としては、頻度の高いパターンの抽出や、相関関係にある項目の組の発見、データの特徴や共通点に基づく分類、過去の傾向に基づく将来の予測などがある。
近年では、一般的なシステムやソフトウェアでの解析が困難な巨大なデータセットである「ビッグデータ」を対象とした解析手法や、人工知能の一分野である機械学習、特に先進的な手法である「ディープラーニング」を応用したマイニング手法などが活発に研究・開発されている。
テキストマイニング
定型化されていない文字情報(テキストデータ)の集まりを自然言語解析などの手法を用いて解析し、何らかの未知の有用な知見を見つけ出すこと。
「データマイニング」(data mining)の手法を非定型のテキストデータに応用したもので、自然言語の文の蓄積として集められたデータを分析し、鉱山から鉱石などを掘り出す(mining)ように、業務や製品に役立つ情報を探し出す。
目的や具体的な技術は様々だが、多くの場合、文章に形態素解析を行ってテキストを単語やフレーズに分解し、特定の表現の出現頻度やその増減、複数の表現の関連性や時系列の変化などを調べる。
これにより、知られていなかった問題点を見出したり、様々な要素や要因の間の結びつきを可視化したり(共起ネットワーク分析)、顧客や消費者の評判(肯定的か否定的か)や時系列の推移を把握したりする(センチメント分析)ことができる。
対象となるデータの例として、アンケートや報告書などに含まれる自由記述の文章、電子掲示板(BBS)やSNSの書き込み、ニュース記事、OCRでスキャンしてテキストデータ化した過去の書籍、雑誌、新聞の記事などが挙げられる。
データサイエンティスト ⭐⭐
統計解析や数理解析、機械学習、プログラミングなどを駆使して大量のデータを解析し、有用な知見を得る職業あるいは職種。
企業の事業活動の電子化、コンピュータ化が進み、取得可能なデータや実際に蓄積されるデータの種類や量は飛躍的に増大したが、IT部門はデータの記録や管理のみ、ビジネス部門は表計算ソフトでの集計など定型的な利用のみの場合が多く、十分な利活用がされないまま死蔵される例が多かった。
データサイエンティストは様々な意思決定上の局面やビジネス上の課題を認識し、データによって立証可能な仮説やモデルを組み立て、蓄積された実際のデータ群に対して様々な処理手法や解析手法を適用することで、現実の課題解決に資する有用な知見を提供する。
具体的なスキルとして、対象領域への基本的な理解やビジネス部門との折衝、解析結果のドキュメンテーションやプレゼンテーションといったビジネス領域のスキル、統計や数理解析、線形代数、機械学習、データモデリングなどの数理科学やコンピュータ科学の知識、データベース操作やデータ形式の理解、プログラミング、データ加工・変換・処理の技法といったエンジニアリング領域の技能が総合的に求められる。
日本では2011年頃からビッグデータ活用の重要性が叫ばれるようになるなか、データ活用を推進する具体的な人材像として2013年頃から「データサイエンティスト」という職種が認識され始めた。十分な技能を持ったデータサイエンティストは常に人材不足であるとされ、今後もそのニーズは高まっていくと予想されている。
大学などが専門のコースやカリキュラムを編成する事例が見られるほか、日本数学検定協会の「データサイエンス数学ストラテジスト」やデータサイエンティスト協会の「データサイエンティスト検定」、統計質保証推進協会の「統計検定 データサイエンス基礎」など民間資格の認定制度も相次いで開始されている。
オープンデータ
誰でも自由に入手や使用、加工、再配布などができるよう広く一般に公開されているデータ。特に、ソフトウェアなどによる自動処理に適した一定のデータ形式に整理・整形された機械可読(マシンリーダブル)なもの。
データの中には著作権などによって保護されていたり、所有者によって入手や利用に制限が課せられ、手続きや対価が必要なものが多くある。オープンデータはこのような制約から解放され、営利・非営利を問わず誰でも自由に使用や再配布が可能なデータを指す。
こうしたデータ公開が期待され、また積極的に行われているのは主に学術・科学分野や公共分野である。大学や研究機関の持つ科学的な資料や、政府や自治体などの公的機関の持つ公共的な情報や、事業などで調査・収集した統計データなどの公開が進められている。
行政などのデータ公開・提供はこれまでも白書やWebサイトなどの形で行われてきたが、これはもっぱら人間が閲覧するための文書として発行されたものであり、ソフトウェアで解析・加工するには人間の手で整形しなければならなかった。オープンデータではコンピュータ上での自動処理を前提としたデータ形式が求められ、XMLやCSVファイル、Excelファイル(XLSXファイル)などの形で提供される。
ある完結したひとまとまりのデータ集合を「データセット」と呼び、これを一つのファイルなどに(複雑・大規模な場合はいくつかに分割して)記録してWebサイトなどで公開する。複数のデータセットを公開する機関やサイトでは、どこにどんなデータセットがどのような形式で公開されているかをまとめた「データカタログ」が作成されることが多い。
2000年代後半頃から、米連邦政府の「Data.gov」や日本政府の「データカタログサイト」(DATA.GO.JP)など、政府機関が提供している様々なオープンデータをまとめたデータカタログや専用のWebサイトを公開する国が増えている。
パーソナルデータ
ある個人に関連し、あるいは個人の活動から生み出されるデータ全般のこと。個人を識別できる情報や、個人の属性や性質に関する情報、個人の活動などから生み出された記録などの総称。
ある個人の属性や履歴、本人の作成した情報などを記録したデータの総体を指す。この中には、氏名や住所、電話番号、生年月日など個人を特定できる情報、個人の識別に用いられる符号(マイナンバー、パスポート番号など)、他の情報と照合することで個人の特定に繋がる情報(顔写真、所属先のメールアドレス等)が含まれ、これらは法律上の保護の対象となる個人情報(PII:Personally Identifiable Information)となる。
パーソナルデータにはこうした個人情報だけでなく、識別や特定には直接は結びつきにくいが個人に属するデータが含まれる。例えば、携帯端末で取得した位置情報や移動履歴、交通機関の乗降履歴、商品の購入履歴、検索エンジンの検索履歴、Webサイトなどの閲覧履歴、SNSなどへの投稿、本人が撮影や録音した画像や動画、音声、IPアドレスやCookieなど機器の識別情報、体重や血圧といった身体や健康の状態を表す測定データ、医療機関の利用履歴などである。
これらの中には特定の分野の事業者にとって顧客サービスや製品開発などに利用価値のある有用な情報が含まれる一方、プライバシーに属するとみなされるセンシティブな情報も含まれるため、情報機器やオンラインサービスを通じた個人からのデータの取得や保管、解析、外部への提供などについて各国や業界でルールの整備が進められている。
個人情報保護法ではパーソナルデータの扱いについて、2017年の改定で特定の個人を識別する情報を復元できないよう改変・削除した「匿名加工情報」の概念を導入し、一定の要件を満たせば明示的な本人の同意がなくても第三者への提供などが行えるようになった。
また、2020年の改定では一連のデータが一人の個人に紐付いている状態は維持しつつ、氏名等の識別情報は別の符号に置き換えて本人を特定できないようにする「仮名加工情報」の枠組みが設けられ、事業者内での高度なパーソナルデータ活用に用いられている(外部提供は大きく制限)。
決定木 【デシジョンツリー】
意思決定や分類、判別、予測などのために作られる、木構造(ツリー構造)のデータや図などのこと。各ノード(枝分かれ)に書かれた条件に従って分岐を辿っていくことにより、末端の葉(リーフノード)に書かれた結論が得られる。
一つの根(ルートノード)から段階的に枝分かれしていく木構造に従って条件が整理されている。途中のそれぞれ枝分かれ(ノード)には一つの条件が書き入れられており、条件を評価してどの枝に進むかを判断する。末端(葉/リーフノード)には最終的な結果や結論が用意されている。
分類を行うものを「分類木」(classification tree)、関数の近似により推論や予測を行うものを「回帰木」(regression tree)という。扱うモデルが単純な場合は人力で木を構成することもでき、「診断チャート」「分類チャート」などの形で日常的にも馴染み深い。データ分析の分野では、学習データを元に機械学習により(巨大な)デシジョンツリーを自動生成する「決定木学習」(decision tree learning)が研究されている。
決定木学習は、非線形のデータや説明変数の多い(次元の高い)データ、様々な尺度(質的変数か量的変数かなど)が混在しているデータでも扱いやすい、外れ値の影響が小さい、なぜその結論に至ったのか説明しやすいといった利点がある。ただし、分類性能は他の手法より劣ることが多く、線形データが苦手、過学習を起こしやすいといった難点もある。
モデリング 【モデル化】 ⭐
ある物体や事象について、着目している特徴や同種の複数の対象に共通する重要な性質を抽出し、些末な細部は省略あるいは簡略化した抽象的な模型を作成すること。
科学や工学、ビジネス、IT関連では特にシステム設計やシミュレーションなどの分野において、取り扱う対象から目的に照らして不要な側面を捨象して、その構造や構成要素、対象間の関係や互いに及ぼす作用などを模式的に表した模型(モデル)を作り、図表や数式、データ集合、データ構造、人工言語(モデリング言語)などを用いて定義することをモデル化という。
モデルを作成することで、対象をデータや情報の集合としてコンピュータシステム内で取り扱ったり、シミュレーションなどを通じてその振る舞いや状態を解析し、現実に起きている現象を説明したり、特定の条件下での振る舞いを予測することができるようになる。様々な分野で一般的に行われる営みであり、具体的な手法や手順なども分野ごとに異なる。
3DCGにおけるモデリング
3次元コンピュータグラフィックス(3DCG)の制作・編集過程の一つで、点や線、平面や曲面、単純な形の立体(の全体や一部分)などを組み合わせ、望みの立体物の外形(3Dモデル)を形作る工程をモデリングという。
立体物の表現方式として最も一般的な「サーフェスモデル」では、空間上に定義した点と点を結ぶ線分を組み合わせて多角形(ポリゴン)を構成し、これを貼り合わせて立体を構成する。外から見える表面だけを整える「ハリボテ」のような構成法で、ゲームなどでは内部の質量などの情報が不要であるため多用される。
一方、3次元CADなどでは、このような直線的な図形に加えて、球や楕円体、円柱、円錐、特定の方程式で表される曲面などを組み合わせ、表面の一部が滑らかな曲面の立体を定義できるものもある。工業製品の設計やシミュレーションなどに用いるシステムでは、立体を中身の詰まった物体のように扱う「ソリッドモデル」が用いられることもある。
シミュレーション 【シミュレート】 ⭐
現実の対象や現象から特徴的な要素を抽出してモデル化し、模擬的に実践・再現すること。科学技術の分野では現象の理解や予測、人工物の開発や改良などによく応用される。
「顧客の反応をシミュレーションする」といったように日常の場面でも模擬的な予測や再現をシミュレーションということがあるが、一般的にはコンピュータによる数値計算や情報処理を用いて複雑な物理現象や人工物の振る舞いなどを再現する「コンピュータシミュレーション」(computer simulation)を指すことが多い。綴りから分かるように「シュミレーション」は誤記である。
シミュレーションは実物による実験が様々な理由により不可能・困難な場合、あるいは長い期間や多くの費用を要する場合などに、これを簡易に代替する手法として実施される。対象の振る舞いや生じる現象への理解を深めたり、対象を扱う技能の教育・訓練を行なったり、対象が人工物の場合は結果を元に修正や改良を行ったりする。
対象にまつわるありとあらゆる要素を正確に模倣することは不可能で、多くの場合は無意味でもあるため、対象の性質や挙動を代表する要素を絞り込んで単純化したモデルを用いて計算などを行なう。モデルがよく対象を表していれば正確なシミュレーションができるが、誤りや粗さがあれば精度の低いシミュレーションにしかならない。
ある対象のシミュレーションを行うことに特化した機器やソフトウェア、システムなどを「シミュレータ」(simulator)という。特に乗り物や機械の挙動を再現するシミュレータがよく知られ、自動車を模倣する「ドライブシミュレータ」や航空機を模倣する「フライトシミュレータ」は運転・操縦の訓練にも用いられる。
最適化 【オプティマイズ】
対象の実質は維持したまま、設定や内部の構造などを調整し、より好ましい状態に組み替えること。基準となる値を決め、その値が最も望ましい状態(最大値や最小値など)となるように調整する。
例えば、コンピュータプログラムの場合、同じ機能のプログラムであれば「より高速に」「より小さいメモリ占有量で」動作する方が望ましい。このような効率のよいプログラムを作成するために、一通りの機能が実装された後に、仕様を変えずに細かな見直しを行うのが最適化である。
人間が読み書きできるソースコードを解釈し、コンピュータに適した形式(機械語コードなど)に翻訳するコンパイラやインタプリタなどのソフトウェアは、より効率的なコードを生成するために、自動的に最適化を行う「オプティマイザ」(optimizer)機能を内蔵している場合がある。
数理最適化
コンピュータ科学の分野では、ある関数を特定の条件下で最大あるいは最小とする解を求める問題を「最適化問題」という。現実の問題には数式を解析的に解くことができない問題がたくさんあり、コンピュータによって計算を繰り返して最適な入力値を探索する手法が広く応用されている。
マーケティングにおける最適化
Webマーケティングなどの分野では、広告やWebサイトなどの制作物を目的に照らして最も効果が高まるよう編集する工程を最適化ということがある。例えば、Web検索エンジンで特定のキーワードを検索した際に上位にリストされるようWebサイトを編集することを「サーチエンジン最適化」(SEO:Search Engine Optimization)という。
定量発注方式 【FOQ】 ⭐
在庫の発注方式の一つで、手元の在庫の量があらかじめ設定した水準を下回ったら一定量を注文する方式。下限の在庫量のことを「発注点」という。注文時期や間隔は在庫の減少具合に応じてまちまちとなる。
在庫管理では在庫の払底、欠品を防ぎつつ、過剰在庫による資金効率の低下や保管コストの増大も避けなければならず、なるべく一定量の在庫を維持する必要がある。
定量発注方式は在庫の発注を管理する手法の一つで、あらかじめて設定した在庫量を下回ったら、一定の数量の商品を発注する。発注量が毎回同じで、在庫の減少ペースが同じなら周期も一定となるため、発注の手間が少ない手法である。
定量発注方式では発注のトリガーとなる下限量である発注点と毎回の発注量を設定する必要がある。発注点は納品までのリードタイムを考慮して、発注から納品までの平均的な使用量に安全在庫を加えたものとする。発注量は発注費用と在庫管理費用の和が最小となる経済的発注量を算出する。
定量発注方式は時期や季節などによる需要や供給の変動が少なく、安定的に取引される製品に向いているとされる。また、安価な製品や重要度が低い製品、短納期の製品にも向いているとされる。在庫量ではなく時期に着目して注文を管理する手法は「定期発注方式」という。
ブレインストーミング 【ブレスト】 ⭐⭐⭐
集団で行うアイデアの発想法の一つで、参加者が集まって会合を開き、思いつくまま次々自由にアイデアを発言し、互いに刺激し合ってより豊かな発想を促していく手法。
一人では考えつかないようなアイデアを導き出すために行われる会議で、結論を得たり決定を行うことは目的ではない。出た意見やアイデアは会議後に整理したり分析したりして、その後の過程に役立てる。
アイデアをより豊かで創造的なものにするための原則がある。「他の参加者の意見を否定・批判しない」「突飛・奇抜・乱雑・常識外れな意見も歓迎する」「質より量を重視する」「他の参加者の意見から連想したり自分の意見を加えて発展させる」の4つである。
1942年に大手広告代理店グループBBDO創業者の一人として知られるアレックス・オズボーン(Alex Faickney Osborn)氏が著書 “How to Think Up” で提唱したのが始まりとされる。ブレーンストーミングのように集団で創発的な活動を行う技法としては他にKJ法やバズセッションがよく知られる。
KJ法 【KJ method】 ⭐⭐
多数の関連する情報群を分類・分析するための手法の一つ。小さなカードに項目を一つずつ書き出し、グループ化することで情報を整理する。
まず、手元にある情報やデータを小さなカードに一枚一項目で書き出し、広い場所にばらばらに置く。互いに関連が強い、あるいは同じ種類のものを集めてグループ化し、グループの見出しのカードを置く。数が多い場合はグループ同士を集めて大グループを作り、さらに何段階かこの作業を繰り返す。
グループ分けが完了したら、各グループ間の関連性が分かるようにグループを配置しなおし、別の紙にその様子を写しとる。そこに枠や線分、矢印などを書き入れ、それぞれの関連性を明らかにする。この図解を元にテーマを選定したり、文章化してまとめたりする。
1967年に東京工業大学教授で文化人類学者の川喜田二郎氏が考案したもので、フィールドワークで集めた知見を整理するための手法として開発された。「KJ」は同氏の氏名のイニシャルに由来する。製造業の品質管理の手法を体系化した「新QC7つ道具」の一つとしても採用されており、こちらでは「親和図法」の名称で知られる。
売上総利益 【粗利】 ⭐⭐
企業などのある会計期間における利益額の算出法の一つで、売上高から売上原価を差し引いた額。企業や事業、製品の収益性を計る指標として重視される。
製品やサービスを販売して得た収入である「売上高」から、製品やサービスを提供するのにかかった直接的な費用である「売上原価」を差し引いたもの。売上高に占める割合は「売上総利益率」または「粗利益率」(粗利率)という。
ここで言う「原価」とは実際に売り上げた商品などにかかった原材料費や製造費などを合わせた費用で、これには間接的な経費や売れ残り商品にかかった費用は勘案されない。なお、粗利益から経費(販売費や管理費)を差し引いた残りが会計上の「利益」(営業利益)となる。
営業利益 ⭐⭐⭐
企業などのある会計期間における利益額の算出法の一つで、本業の営業活動による売上から、かかった費用を差し引いた残額のこと。
本業の営業活動で得た売上から、原材料費や製造費など直接的にかかった原価を差し引いた利益を「売上総利益」(粗利)というが、営業利益はそこから給与や家賃、光熱費、通信費、広告宣伝費など企業活動全体にかかる経費を差し引いたものを指す。ある期間に本業でどのくらい儲けが出たかを表している。
営業利益に本業以外に経常的に得られる収入や支払う支出(金利や保有資産の運用損益など)を反映した利益を「経常利益」という。経常利益に一回限りの一時的な収入や支出(資産の売買など)を反映したものを「(当期)純利益」という。
損益分岐点 【BEP】 ⭐⭐⭐
企業や事業の損益がちょうどゼロである状態。また、そうなるときの売上高や販売数量などのこと。売上と費用がちょうど均衡して損失も利益も出ていない状態であり、一般的な事業ではこれより売上が多ければ利益が上がり、少なければ損失が出る。
事業にかかる費用には、売上や販売数に応じて増減する「変動費」と、直接的には連動せず決まった額がかかる「固定費」がある。売上が少ない段階では固定費を賄えず赤字となるが、売上が増えていくと売上から変動費を差し引いた粗利が固定費に等しくなる点が現れる。
この状態になる売上や数量を損益分岐点と呼び、これを超えると利益を計上することができるようになる。損益分岐点の売上が現在の実際の売上に対してどのくらいの割合であるかを表す比を「損益分岐点比率」という。この値が1未満ならば収益が出ていることを表し、小さいほど収益性が高いことを意味する。
変動費 ⭐⭐⭐
事業などにかかる費用のうち、生産量や販売数、操業度などに比例して増減するもの。一単位の製品の製造やサービスの提供ごとに決まってかかる費用である。
原材料費のように生産数などに正比例して必要となる費用のことで、運搬費、販売手数料、現場のパートタイム社員の給与、外注先への委託料などが該当する。これに対し、設備の減価償却費や事業所の地代家賃のように生産量などに依らず固定的にかかる費用を「固定費」という。
事業が全体として利益を生むためには、製品一単位あたりの変動費よりも高い価格で販売するだけでは不十分で、売上から変動費の総額を差し引いた粗利益で固定費を賄うことができる必要がある。固定費と変動費の合計が売上と等しくなる点を「損益分岐点」という。
固定費 ⭐⭐⭐
事業などにかかる費用のうち、生産量や販売数、操業度などに依らず固定的にかかる一定額の費用のこと。
設備のリース料や減価償却費、事業所の地代家賃、正社員の給与などが含まれる。生産量などが増えると単位生産量あたりの固定費は下がっていく。これに対し、原材料費や運搬費のように生産量などに応じて増減する費用を「変動費」という。
事業が全体として利益を生むためには、製品一単位あたりの変動費よりも高い価格で販売するだけでは不十分で、売上から変動費の総額を差し引いた粗利益で固定費を賄うことができる必要がある。固定費と変動費の合計が売上と等しくなる点を「損益分岐点」という。
なお、固定費が一定なのは年度や半期、四半期といった会計上の単位となる短い期間の中での話である。事業規模が大きくなれば相応に社員が増えたり事業所が増えるなどして固定費も増大し、規模が縮減すればリストラなどで固定費の削減を迫られることになる。
販売費及び一般管理費 【SGA】 ⭐⭐
会計の勘定科目の一つで、営業活動に費やした費用のうち、売上原価に参入されないもの。損益計算書などで費用の部に計上される。間接的、固定的な費用の総体。
販売費は製品の販売やサービス提供にかかった費用で、販売員の人件費や販売活動に要した交通費などの費用、広告宣伝費、販売促進費、販売手数料、商品の発送費用などが含まれる。
一般管理費は企業の運営自体に要した費用で、財務や総務、人事など間接部門の人件費や、企業活動全般かかる費用、すなわち、全社的な福利厚生費、採用費、旅費交通費、通信費、消耗品費、水道光熱費、地代家賃、リース料などが該当する。
企業の損益計算では、売上高から売上原価を差し引いた額を売上総利益(粗利益)というが、ここから販売費及び一般管理費を差し引くと営業利益、すなわち本業の利益となる。
ROI 【Return On Investment】 ⭐⭐
投下した資本に対して得られる利益の割合。事業などから得られた利益額を、そのために費やした投資額で割ったもの。一般には割合の値に100を乗じてパーセンテージで表すことが多い。
100の投資に対してどれだけ利益を得られたかを表し、損失が生じた場合は負の値になる。事業や資産、設備の収益性を測る指標として最も一般的なものの一つで、異なる事業間の収益性を比較したり、投資に見合った利益を生んでいるかどうか判断するための重要な指標である。
本来は投資についての指標であり、所有する資産の時価と購入額の差を損益として、その購入額に対する割合を表すが、広告やマーケティングなどの分野では、(費用を投資に見立てて)収益を費用で除した割合のことを指すことが多い。これは本来は費用対効果と呼ばれるものである。