ITパスポート単語帳 - 情報メディア
マルチメディア
情報媒体(メディア)の様態の一種で、文字や画像、動画、音声など、様々な種類・形式の情報を組み合わせて複合的に扱うことができるもの。特に、コンピュータなどの情報機器を用いて、デジタル化されたそれら多様な種類の情報を統合したもの。
単に複数の形態の情報を統合して提示するだけでなく、利用者の操作に応じて表示や再生の仕方に変化が生まれる双方向性(インタラクティブ性)をその構成要件に挙げる考え方もある。
1990年代に個人用小型コンピュータの処理性能や記憶容量、操作性などが大きく進歩すると、それまでは制約されていた様々な種類の表現を複合的に扱うことが容易になり、新しい情報メディアのあり方としてマルチメディアが大きく注目を集めた。
しかし、その指し表す内容が不明確で具体性を欠いたまま流行語のように消費されたことや、コンピュータ上でのメディア技術の利用が一般化し、マルチメディア的な表現が特に新しくも珍しくもなくなったことなどから、2000年代にはほとんど用いられなくなった。
ハイパーメディア ⭐
米国の学者テッド・ネルソン(Theodor Holm Nelson)氏が著書「Computer Lib」において1974年に提言した情報表現方法で、文字情報主体のハイパーテキストを画像や音声などを含めたマルチメディアに拡張した概念。
ハイパーテキスト(hypertext)とは、互いに関連する情報を含んだ文書同士を相互に関連付ける(リンクする)ことで、読者が関連する情報を次々にたどっていけるようにしたシステムを意味する。ハイパーメディアはこれを拡張した概念で、文字情報に加えて画像、音声、動画などを含む様々な種類の情報を扱うことができ、これらを相互に対応付けた情報の集合体を表現するシステムである。
「マルチメディア」(multimedia)という用語・概念に近く、実際、マルチメディアシステムはハイパーメディア的な仕組みを内包している場合が多いが、ハイパーメディアという語は、メディアを複合するという意味よりも、文書や情報が相互に関連付けられアクセスが容易になっているという点に力点が置かれている。
発表された当時は、コンピュータで文字以外のメディアを扱うことは処理性能やデータ量の点から難しく、未来的な空想上の概念でしかなかったが、現在では、HTMLやHTTPなどの技術を組み合わせてWeb(WWW)として世界規模のハイパーメディアシステムが構築されている。また、企業の情報システムやパッケージメディアも、ハイパーメディアとして構成されることが当たり前になってきた。
エンコード 【符号化】
ある形式の情報を一定の規則に従って別の形式に変換すること。元の形式に復元可能な状態に変換することを指し、データ圧縮や暗号化、文字コードの変換などが該当する。
ある形式のアナログ信号やデジタルデータを特定の形式の符号(code)に置き換える操作を指す。得られた符号列に逆方向の変換を行って元の状態に戻す操作は「デコード」(decode)という。デコードによってエンコード前の状態を復元することができるが、非可逆圧縮など完全に元の状態には戻せない方式もある。
例えば、動画データは極めてデータ量が大きいため、エンコード処理によってデータの間引きや圧縮を行い、短い符号列に置き換えてから保存や伝送を行う。圧縮されたデータはそのままでは再生できないため、再生時にはデコード処理によって元のデータを取り出してから表示を行う。
ある方式のエンコード処理を行う装置やソフトウェアを「エンコーダ」(encoder)、その方式でデコード処理を行うものを「デコーダ」(decoder)という。音声の録音と再生、映像の録画と再生など、状況に応じてどちらも行う可能性がある場合には、両者を一体化した「コーデック」(codec:encoder-decoder)を用いる。
デコード 【デコーディング】
一定の規則や方式に基づいて符号(コード)の集まりに変換されたデータに対し、符号化時とは逆方向の変換を行い、元のデータを復元すること。
音声などアナログ信号から生成されたデジタルデータを本来のアナログ信号に戻す処理や、元のデータからデータ圧縮や暗号化などによって別の形式に変換されたデータに対して、逆方向の変換処理を行って元のデータに復元する処理などを指す。
また、CPU(マイクロプロセッサ)では、プログラムを構成する機械語の命令コード(インストラクション)を解釈し、プロセッサ内の回路を制御する単純な命令であるマイクロコードの集合に変換することを「命令デコード」(instruction decode)あるいは略してデコードという。
デコード処理を行う装置や電子回路、ソフトウェア、システムなどのことは「デコーダ」(decoder)という。デコードとは逆に、データを一定の規則に基づいて特定の形式の符号に変換することを「符号化」あるいは「エンコード」(encode、encoding)という。また、そのような処理を行う装置やソフトウェアなどのことは「エンコーダ」(encoder)という。エンコードとデコードの両方の機能を持つソフトウェアや装置は「コーデック」(codec:coder/decoder)と呼ばれる。
ストリーミング ⭐
通信ネットワークを介して動画や音声などを受信して再生する際に、データを受信しながら同時に再生を行う方式。データが完結していなくても配信・視聴を始めることができ、ライブ配信などで用いられる。
従来はデータ全体の受信(ダウンロード)を完了してから再生する方式が一般的だったが、ストリーミングではデータをある程度受信した時点で再生を開始し、受信処理と再生処理を並行して進めることにより、利用者は短い待ち時間で視聴を開始することができる。
ストリーミングにより、ダウンロード型では実現が難しい、始まりや終わりの決まっていない放送局型の配信サービスを実現することができる。テレビ放送やラジオ放送の生放送・生中継のように、撮影や録音を行いながら同時に配信・視聴できる配信方式のことは「ライブストリーミング」(live streaming)という。
技術的には、専用のデータ形式や通信方式(プロトコル)を用い、受信したデータが視聴者側でファイルとして残らない方式をストリーミングと呼ぶことが多く、動画ファイルなどをダウンロードしながら同時に再生する方式(利用者の使用感はほとんどストリーミングと変わらない)は「プログレッシブダウンロード」(progressive download)という。
ライブストリーミング (live streaming)
通信ネットワークを通じて映像・音声を配信する手法の一つで、撮影・録音しながら同時にデータを圧縮・変換して視聴者へ配信する方式。いわばネットワークを通じた「生放送」。
視聴者側が末尾まで受信の完了を待たずに受信しながら同時に再生することをストリーミング(再生)というが、ライブストリーミングではこれに加え、配信側も撮影・録音とデータ送信を並行して行い、収録したものをわずかなタイムラグでリアルタイムに配信する。テレビやラジオの生放送・生中継に相当する配信方式である。
インターネット上で大規模にライブストリーミングできる動画サービスも普及しており、開催中のイベントやスポーツの試合の様子をリアルタイムに伝えたり、視聴者とリアルタイムにやり取りしながら進行する生放送番組などが人気を博している。
ストリーミングサーバ (streaming server)
映像や音声のストリーミング配信を行うコンピュータをストリーミングサーバという。そのような機能を提供するソフトウェアのことを指すこともある。多数のクライアントからの接続を受け付け、同時にストリーミング方式のマルチメディアデータを配信する。
ストリーミング方式のデータは通常のWebサーバから配信することも可能だが、サーバや回線への負担が大きいため、ストリーミングサーバを利用するのが一般的である。また、録画した映像をリアルタイムに配信(ライブストリーミング)するような作業は、専用のストリーミングサーバでなければ行えない。
以前は専用のソフトウェアと高性能なハードウェアが必要とされていたが、パソコンの高性能化や光ファイバーなどの高速回線の普及によって、小規模なストリーミングサーバは個人でも構築できるようになった。
プログレッシブダウンロード (progressive download)
動画や音声などのファイルをダウンロードしながら、全体の受信完了を待たずに同時に再生(を開始)すること。
データを受信しながら同時に再生するストリーミング視聴に似ているが、技術的にはストリーミングとは異なり、あくまでファイルのダウンロードであるため、事前に再生時間を決めずに連続的に視聴することはできず、サーバ側に任意の位置からの再生(送信)開始を指示することもできない。
また、通信エラーなどでデータの一部が損なわれた際、ストリーミングではそのデータを飛ばして次のデータを送信し、再生時間が遅延しないよう制御するが、プログレッシブダウンロードではデータを再送して完全なデータが揃えようとするため、再生が一時停止することがある。
ストリーミングで視聴したデータは再生後すぐに破棄されるのが一般的だが、プログレッシブダウンロードの場合はキャッシュファイルの形で記憶装置に永続的に保管され、次に同じものを再生する際にそこから再生することができる。
DRM 【Digital Rights Management】 ⭐
デジタルデータとして表現されたコンテンツの著作権を保護し、その利用や複製を制御・制限する技術の総称。音声・映像ファイルにかけられる複製の制限技術などが有名だが、広義には画像ファイルの電子透かしなども含まれる。
デジタル化された音楽などの著作物は何度コピーしても、どんな遠距離を送受信しても品質が劣化しないため、インターネットの普及や回線の高速化、コンピュータの性能向上に伴って、著作者の許諾を得ない違法な配布・交換などが増えている。
これに対抗するため、コンテンツの複製や再生などに一定の制限を設け、正規の手段でしか利用できないようにする技術がDRMである。内容を暗号化して正規の再生環境でのみ復号できるようにして、複製データや非正規の環境では暗号化を解除できないようにする手法がよく用いられる。
具体的な実装形態は様々で、ディスクやメモリーカードなどの媒体側に特殊な加工や機構を組み入れたり、音声や動画の再生機器やプレーヤーソフト、ファイルの送受信・転送ソフトに組み込んだり、それらを組み合わせたシステムなどがある。
DRMが普及して以降、このような技術的な保護手段が講じられていない状態で提供されるデジタルコンテンツを「DRMフリー」(DRM free)と呼ぶことがある。これは技術的には複製や伝送が可能であることを表し、利用者に認められた権利上、自由に複製や伝送しても良いという意味ではない(自由である場合もそうでない場合もある)。
特殊なツールなどを用いてDRMコンテンツから複製・配布可能な状態のデータを抜き出す行為(DRM解除)はもともと違法ではなかった(そのデータを無断で配布・販売等すれば著作権侵害となる)が、日本では2012年の著作権法改正で、DRMの解除が違法化(刑事罰は無し)され、DRM解除ツールの配布も違法化(刑事罰あり)された。
CPRM 【Content Protection for Recordable Media】 ⭐
DVDなどに採用されている、記録メディア向けの著作権保護技術の一つ。利用者側で内容を書き込み可能なメディア向けの方式で、コンテンツのデジタルコピーをメディアに記録する際の一度だけ許容し、メディアから他の機器やメディアへのコピー(ダビング)を禁じる「コピーワンス」を実現する。
CPRM対応メディアには1枚ごとに固有の「メディアID」と一定の生産枚数ごとに変更される「MKB」(Media Key Block)と呼ばれる情報が記録されている。メディアにコンテンツを記録する際にはこの2つに加え録画機器の持つ「デバイスキー」を用いて暗号化を行い、記録する。
他のメディアにコンテンツをコピーすると暗号化されたデータ本体を記録することはできるが、メディアIDやMKBまではコピーできないため、復号時に暗号化に使用した鍵を生成することができず、再生することができない。
かつてDVDで使われていたCSS(Content ScramblingSystem)方式は再生機器の暗号鍵の管理がずさんなメーカーがあったため、すべての暗号を解除できるソフトウェアが公開され実質的に無効化されてしまったが、CPRMではこれを防ぐための機構が用意されている。
録画機器の持つデバイスキーが流出すると、新規に生産される記録メディアのMKBを変更して、そのデバイスキーを元に鍵を生成できないよう設定する。すでに生産され流通しているメディアMKBは変更できないが、新しいメディアでは流出したデバイスキーを持つ機器での記録や再生ができなくなるため、万能の暗号解除ソフト等を作ることはできない。
CPRM対応の録画用メディアとしては、DVD-RAM、DVD-RW、SDメモリーカードなどがある。2004年4月5日から、BS/地上デジタルテレビ放送に、原則「1回だけ録画可能」(コピーワンス)なコピー制御信号が加えられ、デジタル放送番組のデジタル録画をするためには、CPRMに対応しているレコーダーと録画用メディアが必要となった。「1回だけ録画可能」なデジタル放送をデジタル録画した場合、他のデジタル機器にはダビングできず、CPRM対応プレーヤーでなければ再生できない。
CPPM (Content Protection for Prerecorded Media)
著作物の収録された再生専用メディア(prerecorded media)の違法コピーを防ぐ技術。1999年に米IBM社、米インテル(Intel)社、松下電器(現パナソニック)、東芝などによって提案された。主に映像作品などの収録されたDVDメディアで採用されている。
メディアの内容は暗号化されて記録され、メディア本体とメディアを再生する機器(もしくはソフトウェア)がそれぞれ暗号を解読するために必要な暗号鍵を持っている。メディア側の持つ鍵と、再生機器側の鍵がそろわなければ、暗号化されたメディアを復号し再生することはできない。
メディア側の鍵はMKB(Media Key Block)と呼ばれ、メディア内のリードイン領域と呼ばれる場所に記録されている。リードイン領域は、通常のディスク操作ではアクセスできない領域であり、一般的な方法による複製ではリードイン領域の内容はコピーされない。つまり、違法コピーによって複製されたメディアは正しい鍵を持っていないことになり、再生できない。
CPPMでは、かつてDVDメディアの暗号化技術であるCSS(Content Scrambling System)において秘密の暗号鍵の流出により暗号が破られた経験を踏まえて、暗号をより強力にし、万が一暗号鍵が流出した場合でもその鍵を無効にすることができるようになっている。
CSS (Content Scrambling System)
市販のDVD映像ソフトの多くに採用されていたデジタルコピー防止機構。映像データにスクランブルをかけ、CSSデコーダを内蔵したプレーヤでしか再生できないようになっている。
CSSではマスター鍵、ディスク鍵、タイトル鍵という3種類の暗号鍵が用いられる。タイトル鍵はディスク内に記録されたタイトルごとに設定される鍵で、コンテンツの暗号化に使用される。ディスク鍵はディスクごとに設定される鍵で、そのディスクで使用されるタイトル鍵の暗号化に使用される。
マスター鍵はDVD機器製造メーカーに個別に割り当てられる鍵で、これを使用してディスク鍵を暗号化し、ディスクの先頭に記録する。復号時にはDVD機器や再生ソフトが内蔵するマスター鍵でディスク鍵を復号し、ディスク鍵でタイトル鍵を復号してコンテンツのスクランブルを解除する。
再生ソフトでのマスター鍵の管理がいい加減なメーカーが存在したため、CSSはあっさり破られてしまった。1999年11月にノルウェーの数人のプログラマによって「DeCSS」というCSSスクランブル解除ソフトが開発され、インターネットなどを通じて世界中に公開された。これを機にCSSは使われなくなり、このような手法が通じないよう工夫されたCPRMやCPPMに取って代わられた。
PDF 【Portable Document Format】
米アドビ(Adobe)社が開発した、どのような環境でも同じように表示・印刷できる電子文書のファイル形式。1993年に登場し、2008年にはISO(国際標準化機構)によって標準化された。
従来の文書ファイルの形式は特定のアプリケーションソフトや制作環境に依存した方式となっており、正しく表示・印刷するためには作成時に用いたソフトやフォントファイルなどを入手して同じ環境を再現する必要があった。
PDFでは特定のソフトウェアや環境に依存せず独立して取り扱うことができる文書のデータ形式を定義しており、作成した文書をPDF形式に変換して配布・提供することで、閲覧側ではPDF表示ソフト(PDFビューワ)さえあればどのような環境でも制作時と同じように表示・印刷することができる。
PDF形式のファイルには文字情報だけでなく、フォントや文字の大きさ、字飾り、埋め込まれた画像、それらのレイアウトなどの情報を保存できる。ファイルサイズは増大するが、フォントの字形データ自体を埋め込んで保存することもでき、閲覧側にフォントファイルが用意されていなくても同じフォントで表示できる。
PDF文書の作成
同社ではPDF文書の作成ソフトとして「Adobe Acrobat」(アドビ・アクロバット)を販売し、表示ソフトとして「Acrobat Reader」(アクロバット・リーダー)を無償配布しているが、いずれも他社の互換ソフトを利用することができる。
Acrobatを含めPDF作成ソフトの多くは仮想的なプリンタのように振舞うドライバソフトとして提供されているため、文書作成に用いるソフトウェア自体がPDFファイル書き出し機能を内蔵している必要はなく、印刷機能さえあればPDF文書を作成することができる。
PCM 【Pulse Code Modulation】
音声などのアナログ信号をデジタルデータに変換する方式の一つ。信号の強度を一定周期で標本化(サンプリング)したもの。そのまま保存すれば非圧縮音声データとなる。
音波をマイクなどでアナログ電気信号に変換し、その強度をサンプリング周波数に従って一定周期で測定する。各測定値は定められた量子化ビット数の範囲で整数値として記録する。
例えば、CDの音声はサンプリング周波数44.1kHz(キロヘルツ)、量子化16ビットのPCM方式で記録される。これは毎秒44,100回信号を測定し、その強度を65,536(216)段階の値で表していることを意味する。
サンプリング周波数と量子化ビット数を高めるほど高品質のデータを得ることができるが、その分データ量は増大する。標本化定理により、サンプリング周波数の半分の周波数までの信号は再現可能とされており、これを「ナイキスト周波数」という。
音声の場合は人間の可聴音の上限が20kHz程度であることが知られており、40kHzを超えるサンプリング周波数を用いれば録音データからおおむね自然な音が再生できるようになると言われる。
通常のPCM方式は「リニアPCM」(LPCM:Linear PCM)とも呼ばれ、毎回の標本化で得られたデータを単純に順番に並べた形式だが、一つ前のデータとの差分を記録していく方式を「DPCM」(Differential PCM:差分PCM)という。
さらに、DPCMの各標本の量子化ビット数を直前の標本の変動幅に応じて適応的に変化させる方式を「ADPCM」(Adaptive Defferential PCM:適応的差分PCM)という。PCMとほぼ同じ品質を保ちながら符号化後のデータ量を削減できるため、実用上はこちらが用いられることも多い。
MIDI 【Musical Instrument Digital Interface】 ⭐
楽曲データの記述、保存、伝送などの方式を定めた標準規格の一つ。シンセサイザーなどの電子楽器やコンピュータを接続し、楽曲データを送信して自動演奏させるのに使われる。
機器間を接続してデータを送受信するための端子(コネクタ)やケーブル、信号、伝送制御などの規格と、音色や音量の指定、演奏する音の並びといった楽曲データの記述形式、楽曲データを保存するファイル形式などを定めた規格があり、単に「MIDI」と言った場合は何を指しているのか文脈に注意する必要がある。
MIDIによる楽曲データは楽譜などと同じように楽器による演奏の仕方を記述するデータ形式であるため、音声そのものを録音して記録する形式に比べデータ量が少なく、変換や編集などで劣化することもないが、利用できる音は楽器や音源装置が発することのできるものに限られる。例えば、人が歌唱する声を記録・再生することはできない。
MIDI規格は当初、コンピュータなどで作成した楽曲データを電子楽器に伝送して自動演奏することを想定して作成されたが、後に、コンピュータに内蔵されたICチップやソフトウェア(MIDI音源と呼ばれる)で音を合成して発する仕組みも利用されるようになった。携帯電話の音楽再生機能などで広く普及したことから、一般にはこちらの方が馴染み深い。
最初のMIDI規格は1981年に日本音楽製造(現ヤマハ)、ローランド、コルグ、河合楽器など業界の有力企業が共同で策定した。後に業界団体として国内に「MIDI規格協議会」(JMSC:Japan MIDI Standards Committee、現・音楽電子事業協会)、国際団体として「MMA」(MIDI Manufacturers Association)が置かれ、規格の標準化と普及にあたった。2020年には最新版の「MIDI 2.0」が発行された。
WAV 【Waveform Audio File Format】
音声データを記録するためのファイル形式の一つ。Windowsが標準で対応している形式として有名で、通常は非圧縮PCM形式の音声データを記録する。
汎用のデータ記録用ファイル形式である「RIFF」(Resource Interchange File Format)形式を元に米マイクロソフト(Microsoft)社と米IBM社が共同開発したファイル形式で、音声信号をデジタルデータ化したものをファイルに記録する形式を定めている。ファイル名の標準の拡張子は「.wav」。
ファイル内でのデータの配置や格納方式のみを定めた「コンテナフォーマット」の一つであり、記録する音声データは様々な圧縮形式から選択することができる。特定の形式で記録されたデータを扱うには、その形式を扱うためのコーデック(CODEC:COmpressor/DECompressor)が必要となる。
標準では無圧縮のPCM方式(リニアPCM)のデータが記録されていることが多いため、「無圧縮の音声フォーマットである」と説明されることもあるが、PCM以外のコーデックを用いて別の形式のデータを記録することもできる。実際、WMA形式やMP3形式のWAVファイルも存在する。
PCM形式のWAVファイルはWindowsのオーディオ機能や音声を扱う多くのソフトウェアが標準で対応しているため、録音やデータ交換、マスターデータの保管などのために用いられることがある。無圧縮でデータが巨大になるため、最終的に配布などを行う際の形式として用いることは少ない。
MP3 【MPEG Audio Layer-3】 ⭐
音声データを圧縮する方式およびファイル形式の一つで、動画圧縮方式のMPEG-1で音声を記録するために策定されたもの。最も普及している音声圧縮形式の一つである。
元のデータを一定の規則に従って改変し、人間の聴覚が感じ取りにくい部分のデータを間引くことによって高い圧縮率を得ており、元のデータが完全には保存されない非可逆圧縮(不可逆圧縮)形式である。標準のファイル拡張子は「.mp3」。
ビットレート(1秒あたりの情報の表現に費やすデータ量)は32kbps(キロバイト毎秒)から320kbpsまで選択でき、音質を下げればより少ない容量に圧縮できる。CDに記録されたリニアPCM形式の無圧縮音声データ(サンプリング周波数44.1kHz、量子化16ビット、2chステレオ、ビットレート1411.2kbps)を圧縮する場合、概ね128kbps(約1/11)~192kbps(約1/7)程度までならほとんどの人にとって音質の違いが気にならないと言われる。
MP3は音声データの圧縮符号化方式(コーデック)とファイルへの格納形式(コンテナフォーマット)の両方を規定しているが、コーデックのみを使用してWAV(RIFF)ファイルなど他のコンテナ形式に格納したり、動画ファイルの音声部分に使用することができる。MP3ファイル形式には音声についての情報を記録する「ID3タグ」というデータ形式が規定されており、曲名やアーティスト名などを記録することができる。
歴史
MP3は1993年にドイツの産学連携研究機関、フラウンホーファー研究機構の集積回路研究所(Fraunhofer IIS)が開発したもので、同研究所は圧縮方式に関して特許を取得した。対応ソフトウェアの開発には特許使用料の支払いが必要なため、これを嫌ってMP3に対応しないメーカーなどもあった。2017年に特許権の保護期間が終了したため、現在では誰でも自由に利用することができる。
MPEG-1ではMP3の他に「Audio Layer-1」(MP1)および「Audio Layer-2」(MP2)の音声形式が規定され、それぞれ異なる方式で圧縮を行うため互換性はない。MPEG-2ではこれらに加えて「AAC」(Adavanced Audio Coding)と呼ばれる新しい方式が追加され、いずれかを選択して使用する形になった。MPEG-4では音声形式はAACに一本化されている。
AAC 【Advanced Audio Coding】
MPEG-2およびMPEG-4の一部として規定されている、音声の圧縮符号化方式の一つ。主に動画データに付随する音声データの記録に用いられるが、単体の音声ファイルとしても用いられることがある。
MPEG形式の動画データに含まれる音声データの標準圧縮方式の一つで、MPEG-1に採用され広く普及した「MP3」(MPEG-1 Audio Layer-3)の後継として、1997年にISOとIECが共同で標準規格を策定した。音声ファイル単体の圧縮方式としてもよく利用される。
サンプリング周波数は最大96kHz、使用できるチャンネル数は最大48チャンネルとなっており、MP3の48kHz、2チャンネルから大幅に拡張されている。圧縮方式の改良により、MP3に比べ同じ程度の音質なら1.4倍ほど効率よく圧縮することができるとされる。
MPEG形式の動画に付随する音声の記録に用いられ、AVIやMOV、MP4、Matroska(.mkvファイル)、MPEG-2 TS(.m2tsファイル)などの動画ファイルに含まれることがある。単体で音声ファイルとして記録されることもあり、音声ファイル形式として.m4aファイルや.aacファイル、.3gpファイル、.3g2ファイルなどが用いられる。
仕様のバリエーション
様々な拡張機能が用意されており、用途に応じて「プロファイル」(profile)と呼ばれる機能や設定値の組み合わせが定義されている。標準として設計されたのは「AAC-Main」方式だが、一般的な用途では基本機能のみで最も処理負荷の軽い「AAC-LC」(Low Complexity)が用いられることが多い。
MPEG-2規格(ISO/IEC 13818)に含まれる仕様(MPEG-2 AAC)と、これを拡張したMPEG-4規格(ISO/IEC 14496)に含まれる仕様(MPEG-4 AAC)がある。基本仕様は同一であり、通常はあまり区別されない。MPEG-4規格では低ビットレート時の音質を改善する拡張仕様が追加され、「HE-AAC」あるいは「aacPlus」と呼ばれる。
ビットマップ画像 【ラスター画像】 ⭐
画像データの表現形式の一つで、画像を色のついた点(画素/ピクセル)が縦横に規則正しく並んだ矩形として表現したもの。画面表示や印刷の際には最終的にこの形式で出力する必要がある。
ディスプレイ画面への表示やプリンタによる印刷はビットマップ形式で行われるため、コンピュータでも基本的には画像をラスターデータとして表現・保存・処理することが多い。ファイル形式としては無圧縮のBMP(Windows Bitmap)、可逆圧縮のGIFやPNG、不可逆圧縮のJPEGなどが有名である。
任意の画像を表現することができ、特に写真など図形の組み合わせでは表現できない画像の保存に適しているが、内容についての幾何学的な情報などは持たないため、拡大や縮小、変形、合成などの処理を行うと内容が不可逆に変質し、画質の劣化、不鮮明化の原因となる。
ラスターデータは縦横それぞれの画素数が決まっており、その積が画像を構成する総画素数となる。例えば横1024ピクセル×縦768ピクセルの画像ならば78万6432画素の色情報が並んだデータとして表現される。画像形式によっては解像度(単位長さあたりに並ぶ画素数)の情報を持つものがあり、表示や印刷の際の画像の実際の大きさに反映される。
色情報と色深度
個々の画素が持つ色情報の大きさを色深度(color depth)と呼び、色情報のビット数(bpp:bits per pixel)で表す。例えば、色深度が1bppの場合は各画素は0と1の二値の色情報を持ち、通常は0を黒、1を白に対応付けた白黒画像のことを意味する。
色情報はRGB(Red-Green-Blue)形式など色自体の属性を直接表記したものと、色に番号をつけ、番号と実際の色情報(RGB値など)の対応関係を別のデータとして与えるインデックスカラー(indexed color)方式がある。16~32bppの場合は前者の方式(RGBの各値を5~8ビットずつ並べる)であることが多く、8bppの場合は後者の場合が多い。8bpp(256色)はインデックスカラー以外にもモノクロ256階調のグレースケール形式(白黒と254段階の灰色)にも用いられる。
また、色情報として透明色を設定したり、各画素ごとに透明度(アルファ値)を設定できる形式もあり、他の画像と重ね合わせたときに背後の色が透ける表現ができる。32bppの場合はRGB各8ビットに透明度8ビット(256段階)とすることが多い。
ベクター画像
一方、画像を図形を表す数値情報の集合として表現した形式はベクター画像(ベクトルグラフィックス)と呼ばれる。画像を点や線分、面などの図形の描画情報の組み合わせとして表したもので、画質を劣化させることなく自由に拡大・縮小や変形ができる利点がある。表示や印刷を行う際には最終的に特定の画素数のラスターデータに変換(ラスタライズ)される。
ベクター画像 【ベクターデータ】
画像データの表現形式の一つで、画像を図形を表す数値情報の集合として表現したもの。拡大・縮小・変形しても画質が劣化せず、サイズや解像度によらず同じ品質の出力結果を得ることができる。
画像を単純な図形の集合として表現する方式で、輪郭などを構成する点の位置や、それらを結ぶ直線や曲線を表す方程式のパラメータ、変形・回転など操作情報、線や面の色情報などの組み合わせとして記述する。“vector” の表記は「ベクター」「ベクタ」「ベクトル」の揺れがあるが、意味の違いはない。
一方、画像を最小単位の小さな点である画素(ピクセル)の集合として表し、各画素の色情報を端から順に縦横に規則正しく並べた形式の画像データは「ビットマップ画像」(bitmap image)あるいは「ラスター画像」(raster image)と呼ばれる。
コンピュータのディスプレイやプリンタなどの出力装置はビットマップ方式で画像を扱うため、ベクターデータはそのままでは表示・印刷することができない。表示する際には画像の縦横の画素数を決めて、その範囲の中で実際に各図形を描画してビットマップ画像を得る。この描画処理のことを「ラスタライズ」(rasterization)という。
ビットマップ形式はどのような画像でも同じように記録できるが、ベクターデータは原理的に写真のような像の表現には向かず、文字や図、イラスト、デザインなど図形の組み合わせで表現しやすい像の記録に向いている。実際、コンピュータで扱う文字の形状データを収録したフォントデータの多くはベクターデータで表現されたアウトラインフォント(outline font)である。
ベクターデータを作成・編集するソフトウェアもあり、米アドビ社の「Adobe Illustrator」(アドビ・イラストレーター)などが有名である。汎用のベクターデータ記録用の画像ファイル形式もいくつかあり、Illustrator標準の「AI形式」(.aiファイル)や、Webページなどでベクターデータを扱えるXMLベースの「SVG」(Scalable Vector Graphics)形式などがよく知られる。
JPEG 【Joint Photographic Experts Group】
静止画像のデータ圧縮形式の一つ。フルカラーの画像を多少の劣化を伴いながら高い圧縮率で符号化できるのが特徴で、写真など自然画像の記録に向いている。
画像の一部の不可逆的な変化や画質の劣化、情報の欠損を許容する代わりに極めて小さなデータに圧縮することができる「非可逆圧縮」(lossy compression)方式を採用しているのが大きな特徴で、圧縮前の状態に完全に復元することはできない。ファイル名の標準の拡張子は「.jpg」あるいは「.jpeg」である。
非可逆圧縮では画質の劣化の度合いが大きくなるほど圧縮率を高められるため、保存時にどの程度の画質とするかを係数の形で利用者が指定することができる。人間の目にはほとんど見分けがつかない画質でも元のデータの数分の一程度には圧縮することができ、最も低い画質では数十分の一から百分の一以下になることもある。
圧縮方式の特性やノイズの発生などから、図やグラフ、イラストなど同じ色が連続するのっぺりした質感の画像には向いておらず、写真や絵画など画素の色味が細かく変化する画像の保存に適している。このため、インターネットなどでは写真などの画像にはJPEGを使い、図表やアイコン、イラストなどの画像にはGIFやPNGなどで保存するなど、特徴の異なる画像形式を使い分けることが多い。
ベースラインとプログレッシブ
JPEGでは画像を8×8ピクセルの正方形の領域(ブロック)に分け、ブロックごとに色情報を記録していく。通常のデータ形式では左上のブロックから右下に向かって一段ずつ記録され、表示時には上から順番に画像が表示される。この方式を「ベースラインJPEG」という。
一方、各ブロックの情報を細かく分割し、何回かに分けて記録する方式も規定されており「プログレッシブJPEG」という。表示時にはまず全体がぼやけた画像で表示され、読み込みが進むにつれて次第に鮮明になっていく。低速回線で大きな画像を表示する際に素早く全体像が分かるため、Webサイトなどで用いられる。
ロスレスJPEG (Lossless JPEG/JPEG-LS)
JPEGでは元の状態に完全に復元できる「可逆圧縮」(lossless compression/ロスレス圧縮)を行う符号化方式も拡張仕様として追加されている。圧縮率は通常の非可逆圧縮を行う方式よりも悪いが、圧縮前の完全な画像を取り出すことができる。
1993年に追加された「Lossless JPEG」と1999年に追加された「JPEG-LS」の二方式があり、符号化方式やデータ形式が異なっている。後者の方が圧縮率が高く、復号後データのゆがみをパラメータで指定された誤差の範囲内に収めることができる「準可逆圧縮」(near-lossless compression/ニアロスレス圧縮)を行うこともできる。
可逆圧縮を行う画像形式としてはPNGなどが一般的であまり馴染みがないが、医用画像の保管システムなどに採用例がある。JPEGの後継規格のJPEG 2000やJPEG XR(HD Photo/JXR)には当初から可逆圧縮モードが用意されている。
標準規格
JPEG規格はISO/IEC JTC 1(ISOとIECの情報分野の合同委員会)とITU-Tの合同作業部会であるJoint Photographic Experts Groupが1992年に策定したもので、この部会の名称がそのまま画像形式の名称として用いられている。
策定された規格はITU-TではT.81として1992年に、ISO/IECではISO/IEC 10918として1994年に、ぞれぞれ標準化された。日本でも両規格を参照して同内容のものがJIS X 4301として1995年に国内規格化されている。
ファイル形式
JPEG規格では当初は画像データの圧縮符号化方式のみを定め、標準のファイル形式(コンテナフォーマット)を規定しなかったため、「JFIF」(JPEG File Interchange Format)と呼ばれる形式が広く普及し事実上の標準となった。
JPEG画像が保存されているファイル(拡張子が「.jpg」のファイル)は一般的にはJFIF形式か、あるいはその拡張形式のExif形式(カメラの撮影時などに使用)であることが多い。JFIF形式は2011年にITU-Tによって、2013年にISO/IECによってJPEG規格の一部として標準化されている。
GIF 【Graphics Interchange Format】 ⭐
画像データを圧縮して記録するファイル形式の一つ。256色までの画像を無劣化で圧縮することができ、図やイラストなどの画像に向いている。
データを圧縮符号化する方式と、ファイルに記録する形式(ファイルフォーマット)の両方を定めている。ファイル名の標準の拡張子は「.gif」。圧縮時に内容の改変や画質の劣化を伴わない可逆圧縮(ロスレス:lossless)方式を用い、モノクロ(白黒2色)から256色(フルカラー1677万7216色から画像ごとに必要な色を選択)までの色を扱うことができる。
写真などの圧縮に適したJPEG形式とともに、初期のWeb(ウェブ)で標準的に用いられる画像形式として広く普及したが、2000年代半ば以降は仕様や特徴の多くが重複する「PNG」(Portable Network Graphics)も同じ目的で広く用いられている。
画像中の色を一つ選んで透過色(背景が透けて見える)とすることができる「透過GIF」、一部のデータを受信するだけで画像の全体像を確認することができる「インターレースGIF」など様々な拡張仕様がある。
パラパラ漫画の要領で複数の静止画像を連結して簡易な動画とすることができる「アニメーションGIF」というユニークな拡張仕様があり、動画データの再生ソフトなどを組み込まなくてもWebブラウザなどで短時間の簡易な動画を表示できることから人気を博している。現在では「GIF」という用語をこのアニメーションGIFの意味で用いる例も増えている。
歴史と特許問題
最初の仕様は1987年に当時のパソコン通信大手、米コンピュサーブ(CompuServe)社によって開発・公開され、現在よく用いられるのは1990年に発表された改訂版(GIF89a)である。
圧縮アルゴリズムとして米ユニシス(Unisys)社が特許を所有していた「LZW」という方式を用いており、同社は当初、特許使用料の徴収などは行わない方針だったが、広く普及すると方針を一転させ、ソフトウェア開発者にライセンス料の請求などを始めた。
これを嫌って一部のソフトウェアがGIF対応を取りやめるなど混乱が起き、代替形式として考案された特許を使用しないPNG形式の開発・普及が進んだ。2003年から2004年に各国のLZW特許が失効したため、現在では再び自由に使うことができる形式となっている。
PNG 【Portable Network Graphics】
画像データを圧縮して記録するファイル形式の一つ。フルカラーの画像を無劣化で圧縮することができ、図やイラストなどの配布、写真などの高画質での保存に向いている。
色のついた画素を縦横に敷き詰めたビットマップ形式の画像を圧縮符号化するデータ形式の一つで、内容の変質や劣化を一切起こさず正確に元の状態に戻すことができる「可逆圧縮」(ロスレス圧縮)方式を採用している。ファイル名の標準の拡張子は「.png」である。
写真などに適した非可逆圧縮のJPEG形式とともに、インターネットで標準的に用いられる画像形式として広く普及している。派生仕様として、画像を連結して記録することで簡易な動画とすることができる「MNG」や「APNG」などがある。
主な仕様
画像の色数はフルカラー(RGB各色8ビットの24ビットあるいは各色16ビットの48ビット)および最大256色(8ビット)のインデックスカラー(画像ごとに必要な色を選択)、最大65,536段階(16ビット)のグレースケールなどから選択できる。
一部の色の透明化や半透明化(透過PNG)にも対応している。8ビットPNG(256色)では透過GIFと同じように特定の1色を透明色に指定することができる。フルカラーPNGでは各画素の透過度を指定する「アルファチャネル」(8ビット256段階あるいは16ビット65,536段階)を設定し、背景色と合成された半透明表現を行うこともできる。
ファイルに画像の付加情報を埋め込むことができ、ホワイトバランスやデフォルト背景色、ガンマ補正値、任意の文字列などを含めることができる。圧縮方式としてZip形式などにも利用されるDeflate圧縮を採用しており、LZ77とハフマン符号化の2段階の圧縮を行う。
簡易動画
用途が近いGIF画像形式には一つのファイルに複数の画像を連結して格納し、パラパラ漫画の要領で次々に切り替えて表示することで簡易な動画を表示できる「アニメーションGIF」仕様があるが、PNGでもこれに似た派生仕様が用意されている。
初期に策定されたのは「MNG」(Multiple-image Network Graphics)形式だが、機能を詰め込みすぎて仕様が複雑化しすぎ、ソフトウェアの対応が進まなかった。後に簡素な仕様の「APNG」(Animated PNG)形式が策定され、GIFでは不可能なフルカラーの簡易動画を記録できる画像形式として2010年代後半から徐々に普及している。
歴史
PNGは1996年にGIF形式の代替となることを目指して開発され、後にW3CやIETF、ISOなどの標準化団体によって規格化された。当時は図やイラストなどの保存にはGIFがよく用いられていたが、圧縮方式に米ユニシス(Unisys)社の特許を使用していた。同社は当初は自由な特許利用を認めていたが、突如方針転換してライセンス料徴収を宣言したため、特許から自由な画像形式としてPNGが考案された。
2000年代初頭には主要なWebブラウザや画像編集ソフトなどがPNGに対応したためGIFに代わって広く普及し、標準的に利用される画像形式の一つとなった。GIFの特許権が期限切れとなった現在ではGIFの権利問題を回避するという当初の意義は消失している。
BMP 【Windows bitmap image】
Windowsが標準で対応している画像データのファイル形式の一つ。通常は無圧縮でデータを記録する。Windowsで使用されるアイコン画像などでよく利用される。
白黒2値画像から24ビットフルカラー(1677万7216色)までの色数に対応し、透過色やアルファチャンネルを利用することもできる。256色などのモードはインデックスカラー方式で、約1678万色の中から選択した色がカラーパレット領域に記録されている。
標準ではデータ圧縮を行わず元のサイズのまま保存するため、無圧縮の画像形式と説明されることが多いが、仕様上はランレングス圧縮で可逆圧縮を行う方式についても定めている。ただし、圧縮モードによる記録・読み込みに対応しているソフトウェアは多くはない。
個別の機器の仕様から独立した画像形式とするため、数学などで用いられる座標系(原点から上と右に正、下と左に負)を用いて画素データの並び順を規定しており、他の多くの形式とは異なり、画面上では最も下に表示される画素列がファイルの先頭に、最も上の列が末尾に来るように記録される(特殊な指定により上から下に記録することも可能)。
BMPファイルをプログラム上で取り扱うためメインメモリ上にそのまま展開したデータ集合を「DIB」(Device Independent Bitmap)という。データ形式自体は同一であるため、DIBとBMPはあまり区別されずほとんど同義語のように用いられることが多い。
なお、「ビットマップ画像」「ビットマップ形式」とは、ベクター形式などと対比して、各画素の色情報を端から順番に並べた画像データの表現形式全般を表す用語であり、BMP形式(Windowsビットマップ)はその具体的な仕様の一つにすぎない。文脈によってはビットマップという語がBMPを指す場合もあり紛らわしいため注意が必要である
TIFF 【Tagged Image File Format】
様々な符号化方式に対応した、ビットマップ形式の画像データを保存するためのファイル形式の一つ。色数や圧縮形式を様々な選択肢から選ぶことができ、「タグ」という仕組みで様々な情報を埋め込むことができる。
保存する画像の色数(白黒2値、グレースケール、フルカラーなど)や解像度、圧縮符号化形式(非圧縮、ランレングス圧縮、ZIP、LZWなど)に様々なものを選択して指定することができ、バージョン6.0からはJPEG圧縮された画像の保存にも対応した。各色32ビットまで対応するなど色数の表現が柔軟な点が大きな特徴となっている。ファイル名の標準の拡張子は「.tif」あるいは「.tiff」。
ファイル内部には「タグ」(tag)という項目名と値が並んでおり、タグによって画像の様々な属性を表現することができる。読み込み時にはタグに記載された情報を元に画像の仕様や形式を特定し、展開して表示する。タグの種類は仕様改訂のたびに増え続け、すべてのタグに対応することは困難となっている(規格上も全タグ対応は必須ではない)。
TIFFには「マルチページ」と呼ばれる仕様が規定されており、一つの画像ファイルに複数枚の画像データを保存することができる。それぞれの画像ごとにタグを設定できるため、異なる仕様・形式の画像を組み合わせて一つのファイルに記録することができる。
ファクシミリ(FAX)の伝送画像を扱うための拡張仕様として「TIFF-F」が定められており、FAX規格で定められたMH符号、MR符号、MMR符号などの符号化方式で生成された画像データをそのままTIFFファイルに保存することができる。いわゆるインターネットFAXサービス/システムで広く採用されており、受信画像の端末への保管や外部への転送などに用いられている。
1986年に米マイクロソフト(Microsoft)社と米アルダス(Aldus)社(現Adobe社)によって開発された形式で、古くから汎用の画像形式として様々なソフトウェアで利用されてきた。BMP形式が標準になる前の初期のWindowsでは標準の画像形式だったことでも知られる。Exif形式やDICOM形式など、TIFFの仕様を拡張して独自に定義されたファイル形式もある。
EPSファイル 【Encapsulated PostScript】
ページ記述言語の「PostScript」で記述された図版データを画像ファイルとして保存するためのファイル形式の一つ。ベクター形式 の図形や文字のフォントデータと、ビットマップ形式の画像の両方を組み合わせることができる。
構成要素としてベクター形式の文字(フォント)や図形と、ビットマップ形式の画像を含めることができる。ベクター形式は図形の頂点や輪郭線を数値(数式のパラメータ)の形で記述し、描画時に最も適した解像度で画素の集合に変換するため、品質を損なうことなく変形、拡大、縮小することができる。
EPSはPostScriptの開発元である米アドビ(Adobe)社が開発したもので、ベクターグラフィックス編集ソフトであるAdobe Illustratorなど、同社のソフトウェアで標準的に利用できる。仕様が公開されており、他社のソフトウェアの中にも対応しているものがある。他の画像形式と同じように取り扱うことができ、文書編集ソフトで文書の一部に貼り付けたりすることもできる。
フレーム
骨組み(を作る)、枠、縁、額縁、台、骨格、枠組み、背景、構造物、構成、組み立てる、枠にはめる、立案する、でっち上げる、などの意味を持つ英単語。IT分野では動画の各瞬間の画像(コマ)や、通信回線でやり取りするデータの送受信単位などを指すことが多い。
一般の外来語としては、絵画や写真などを入れる額縁や、画像の周囲を囲む飾り枠、機械などの骨組み、物事の理解の枠組みや共通の考え方などを意味することが多い。IT関連では主に以下の意味で用いられる。
動画のフレーム
動画を構成する一枚一枚の静止画(コマ)のことをフレームという。コンピュータで動画を表示する際は、数十分の1秒といった極めて短い一定の時間間隔で次々に静止画像を切り替えて表示することで人間の目に動いているように見せている。
この一枚ずつの静止画像をフレームという。動画の滑らかさの指標として、1秒間に書き換えるフレームの数を表す「fps」(frames per second:フレーム毎秒)という単位がよく用いられる。例えば、60fpsの動画といった場合は毎秒60枚の画像を切り替えて表示している。
データの送受信単位としてのフレーム
イーサネット(Ethernet)などいくつかの通信方式や通信プロトコル(通信規約)では、データの送受信単位をフレームと呼ぶ。送りたいデータを一定の大きさに分割し、先頭に宛先アドレスなどの制御情報を付加したもので、最大長や制御情報の形式は各規格ごとに定められている。
一般に、物理層における信号の送受信を一定のまとまりのデータ単位ごとの送受信に編成する「リンク層」あるいは「データリンク層」における送受信単位をフレームと呼ぶことが多い。有線LANの標準であるイーサネットの送受信単位は「MACフレーム」あるいは「イーサネットフレーム」と呼ばれる。
Webページ/HTMLのフレーム表示
Webページの表示手法の一つで、Webブラウザの表示領域を縦または横に複数の領域に分割して、それぞれに別のページを表示できるようにしたものをフレームという。HTMLではframeset要素(タグ)およびframe要素で定義する。
また、ページ内に矩形(箱型)の領域を設けて元のページから分離し、別のページの内容を埋め込んで表示する方式もあり、「インラインフレーム」(inline frame)という。広告の表示などに応用されており、HTMLではiframe要素で定義する。
フレームレート
動画像の表示の滑らかさを表す指標の一つで、動画が1秒あたり何枚の(静止)画像によって構成されるかを表す数。1秒あたりのコマ数。単位は「フレーム毎秒」(fps:frames per second)で、1fpsは動画が1秒あたり1枚の画像で構成されている(1秒あたり1回書き換えられる)ことを表す。
動画やゲームなど表示内容が時系列に変化する像をコンピュータで表示する場合、静止画像を高速に切り替えて表示することで動いているように見せている。動画像を構成する静止画像を「フレーム」(frame)と呼び、単位時間あたりのフレーム数が多ければ多いほど自然に近い滑らかな動画像となる。
動画データなどの属性としてフレームレートという場合は、その動画が毎秒何枚の画像を繋ぎあわせてできたものなのかを表している。人間の目に自然な動画として映るのは概ね30fps程度かそれ以上と言われており、これを下回るとカクカクとぎこちなく動く印象を与えるとされる。
コンピュータや映像機器などの処理能力についてフレームレートという場合は、動画を撮影、記録、圧縮、再生などする際に、1秒あたりに処理可能な画像の枚数や画面の書き換え回数の上限を表す。動画の処理能力が高いほどフレームレートも高くなり、より滑らかな動画を作成したり再生したりできる。
一方、ディスプレイ装置の画面書き換え頻度を「リフレッシュレート」(refresh rate)と呼び、1秒あたりの書き換え回数を「Hz」(ヘルツ)で表す。60Hzなら毎秒60回再描画される。動画データやゲームのフレームレートが高くても、表示側のリフレッシュレートが低ければその上限がフレームレートの上限となる。
MPEG 【Moving Picture Experts Group】 ⭐
動画・音声データの圧縮方式の標準規格を検討するため、ISO(国際標準化機構)とIEC(国際電気標準会議)が1988年に合同で設置した専門家委員会。また、同委員会の勧告した規格群の総称。動画・音声データの圧縮方式の標準として広く普及している。
正式な組織名は「ISO/IEC JTC 1/SC 29/WG 11」。ISOとIECが情報技術分野の標準化を合同で行うために設けた第一合同技術委員会(JTC 1)の副委員会(SC:subcommittee)29番、作業部会(WG:Working Group)11番という意味である。
同じSC 29には静止画像の圧縮符号化方式を扱う「WG 1」があり、「JPEG」(Joint Photographic Experts Group)の通称でよく知られている。ちなみに、SC 29の国際事務局は日本の工業標準調査会(JISC)が務めている。
これまでに、動画データ圧縮方式の「MPEG-1」や「MPEG-2」「MPEG-4」、付随する音声圧縮規格の「MP3」(MPEG Audio Layer-3)などの標準を策定してきた。メディアデータの圧縮符号化方式だけでなく、動画を扱うためのファイル形式や送信データ形式、メタデータの記述方式などの標準も策定している。
国際電気通信連合(ITU-T)とも連携し、「MPEG-2」と「H.262」、「MPEG-4/AVC」と「H.264」、「HEVC」と「H.265」のように合同で同じ仕様を策定し、それぞれが規格番号を付して標準として発表している規格もある。
MPEG諸規格は国際標準として仕様が公開され、誰でも入手して製品などに実装することができるが、一部の規格には企業などの特許技術を含み、権利者に別途ライセンス料を収める必要がある。MPEG-2およびMPEG-4では権利者が合同で特許管理団体MPEG LAを運営しており、窓口が一元化されている。
H.264 【MPEG-4 AVC】
2003年5月にITU-T(国際電気通信連合)によって勧告された、動画データの圧縮符号化方式の標準規格。2010年代に動画配信やデジタルテレビ放送、デジタルビデオカメラなどで広く普及した。
H.264は携帯電話のテレビ電話といった低画素数、低画質の用途から、HD画質のデジタルテレビ放送などの高画素数、高画質の動画まで幅広い用途に用いることができる。前世代のMPEG-2やH.263に比べ圧縮効率が改善されており、同じ画質なら概ね半分程度のデータ量で済むようになっている。
2007年にISOとIECによってMPEG-4規格の追加仕様(MPEG-4 Part 10)の一つとして「Advanced Video Coding」(AVC)の名称で同じ内容が勧告されているため、「H.264/MPEG-4 AVC」「H.264/AVC」のように両者の呼称を併記することが多い。
H.264の符号化の基本的な方式はH.263などの従来方式を踏襲しており、動き補償、フレーム間予測、DCT(離散コサイン変換)、エントロピー符号化などを組み合わせたアルゴリズムを利用する。それぞれの技術について、浮動小数点演算を整数演算で代替するなど処理方式を改良したり、新しい技術を取り込むことにより従来方式よりも優れた圧縮率を達成している。
フレーム予測技術や圧縮符号化方式(圧縮アルゴリズム)に関していくつかの方式から選べるため、それらの組み合わせが「プロファイル」として複数定義されている。目的に応じて使い分けることで、要求される処理性能やビットレートの違いに柔軟に対応できる。
MPEG-4では当初別の動画圧縮方式が定義されていたが、より効率の良いAVC方式が策定されたことにより、2000年代後半以降はこのAVC形式が一般的となっている。MP4ファイルに格納される動画データの大半は実際にはこの形式である。
一部のデジタル放送方式やAVCHDおよびAVCREC、Blu-ray Discのコーデックの一つにも採用されている。Adobe FlashのFlash Video(FLV)のコーデックに採用されたことからインターネット上の動画共有サービスなどにも広く採用された。現在はFlashが廃止されたこともありネット上の動画形式は後継世代のVP9やAV1、H.265などへ移行中である。
H.265 【HEVC】
動画データの圧縮符号化方式の標準の一つで、広く普及したH.264/MPEG-4 AVCの後継となる規格。2013年1月にITU(国際電気通信連合)によって勧告された。
コンピュータをはじめとするデジタル機器で動画像データを効率よく圧縮し、一定の形式で符号化する方式を定めた標準規格の一つである。H.265対応の機器やソフトウェアの間では、メーカーや機種の違いなどを気にすることなく動画の録画、伝送、再生などを行うことができる。
符号化の基本的な方式はH.264などの従来方式を踏襲しており、動き補償、フレーム間予測、DCT(離散コサイン変換)、エントロピー符号化などを組み合わせたアルゴリズムを利用する。圧縮率の改善により、画質が同等ならH.264の約半分、MPEG-2の約1/4のデータ量に圧縮することができるとされるが、計算量(特に圧縮時)は従来方式よりも増大している。
国際的な標準化団体のISO(国際標準化機構)、IEC(国際電気標準会議)、ITU-T(国際電気通信連合)の三者による合同調査部会JCT-VC(Joint Collaborative Team on Video Coding)により仕様が策定されたため、まったく同じ内容の規格をITU-TはH.265として、ISOとIECは共同でISO/IEC 23008-2として勧告している。
様々な企業や研究機関などの保有する特許技術が含まれており、対応システムを開発・販売するにはMPEG-LAやHEVC Advanceなど複数の特許管理団体(パテントプール)や企業に許諾を得て所定の特許使用料を支払う必要がある。
H.264ではMPEG-LAに一本化されていた権利団体が複数社にまたがるようになって手続きが煩雑になり、権利料も高騰したため、米グーグル(Google)社などはH.265に対抗する特許フリーな高効率動画圧縮形式として「AV1」を開発・推進している。
AVI 【Audio Video Interleave】 ⭐
米マイクロソフト(Microsoft)社が開発した、動画を保存するためのファイル形式の一つ。動画と付随する音声を記録・再生するためのもので、同社のWindowsをはじめ様々なソフトウェアが対応している。
データをファイルにどのように記録するかを定めた記録形式(コンテナフォーマット)であり、動画データや音声データの圧縮符号化方式を定めたものではない。標準のファイル拡張子は「.avi」である。
主な動画の圧縮方式としてはMPEG-1/MPEG-2/MPEG-4やWMV、H.264、H.264、Motion JPEGなどに、音声の圧縮方式としてはリニアPCM、MP3、AAC、WMA、AC-3、FLACなどに対応し、これ以外にも数十の形式に対応している。
AVI形式のファイルを再生するには、圧縮時に使われた符号化プログラム(コーデック)と同じものを再生ソフトに組み込んでおく必要があるが、ファイル名の拡張子は内部形式によらず常に「.avi」であるため、標準的でない形式だとどのコーデックが必要なのか分からない場合もある。
1990年代前半に策定された形式で、Windows上でメディアデータを格納する際に用いられる「RIFF」(Resource Interchange File Format)というファイル形式を元に開発された。音声(audio)と動画(video)を交互に折り混ぜた(interleave)構造になっていることが名称の由来とされる。
古い時代のコンピュータの仕様に合わせた形式であるため、現代では不都合となる制約が含まれる。例えば、ファイル末尾まで読み込まなければ正しく再生できないためストリーミング再生に向いていない、2GBを超えるファイルを作成できない、可変フレームレートの動画に対応していないといった点である。1996年に「AVI 2.0」と呼ばれる拡張仕様が追加されており、ファイルサイズの問題は緩和されている。
MP4 【.mp4ファイル】
MPEG-4規格の一部として策定された、動画や音声などを記録するためのファイル形式(コンテナフォーマット)の一つ。MPEG-4動画の記録に用いられることが多いが、データの「入れ物」の仕様であり他の形式の動画を格納することもできる。
格納できるデータ形式は、動画データがMPEG-1、MPEG-2、MPEG-4、MPEG-4/AVC(H.264)、H.265(HEVC)など、音声データがMP3、AAC、HE-AAC、MPEG-4 ALS、CELPなど、静止画像がJPEGやPNGなどとなっている。字幕などを文字データとして格納することもできる。
標準のファイル拡張子は「.mp4」だが、Apple社のシステムは動画ファイルを「.m4v」、音声ファイルを「.m4a」「.m4p」(DRMで保護された音声)とする場合もある。また、派生規格として携帯電話向けに特化した3GPP(.3gp)/3GPP2(.3g2)ファイル形式があり、構造などは同じだがH.263動画やAMR音声などMP4規格には含まれない形式のデータをサポートしている。
MP4の仕様は米アップル(Apple)社がQuickTime(クイックタイム)技術の一部として開発したMOVファイル形式を元に策定され、2001年にMPEG-4 Part1(ISO/IEC 14496-1:2001)規格の一部として標準化された。2003年にMPEG-4 Part12、2004年にMPEG-4 Part14のそれぞれ一部として更新されている。
データ圧縮 【圧縮符号化】 ⭐
データを一定の計算手順で加工し、実質的な内容を損なわずにより短い符号列で表すこと。原則として得られた符号は逆の計算手順により元のデータに復元することができ、データの一部を損なって容量を減らす削減や間引きとは異なる。
同じ情報を短いデータ長で表現することで、記憶装置上で占有する領域を小さくすることができ、また、機器間をより短い時間や少ない回線の占有度で伝送することができる。ただし、圧縮後の符号列は元のデータを扱う処理系では利用できないため、使用前に必ず元の状態に戻す処理が必要となる。この復元処理は「解凍」「伸長」「展開」などと呼ばれる。
圧縮処理や解凍処理に費やされる計算量や計算時間などと引き換えにデータ量の縮減という成果を得ており、両者が見合わなければ圧縮を行う意義は失われる。例えば、データ伝送を高速化するためにデータ圧縮を導入したのに、圧縮、伝送、解凍の合計時間が元データの伝送時間を上回ってしまっては元も子もない。
圧縮の逆変換の呼称
圧縮(compress)後の符号列から元のデータを復元する逆方向の変換処理のことを英語では “decompress” (compressに否定の接頭辞de-を付したもの)というが、日本語では定まった訳がなく、解凍、伸長、展開などの用語が用いられる。
ファイルのアーカイバでは複数のファイルを一つの圧縮ファイルにまとめることが多いため、その中から指定されたものを取り出して元の状態に戻すことを「抽出」ということもある(英語でもこの文脈では “extract” を用いる)。
日本では1980年代にパソコン通信やファイル圧縮ソフトの付属文書などを通じて「解凍」という用語が広まった(対応して圧縮のことを凍結と呼ぶこともあったがこれは広まらなかった)ため、慣用的に解凍と呼ぶことが多いが、本来の語義として圧縮と解凍では意味が対応しておらず、解凍には容積の増減の意味はないことなどから批判も多い。
一方、伸長や展開は、伸ばす、広げるという意味は合っているが、圧縮の逆の動作としての元に戻すという意味合いは薄いとの批判もあり、あまり定着していない。
圧縮率と圧縮比
どのくらい圧縮できたかを圧縮率という用語で表すことがある。より小さい量に圧縮できたことを「圧縮率が高い」という。
実際には二つの異なる指標が圧縮率と呼ばれており、一つは圧縮後のデータ量の元のデータ量に対する比率、もう一つは削減量の元の量に対する比率である。いずれを指すのかは文脈により異なる。圧縮後にデータ量が元の10分の1になったことを、前者の指標では圧縮率10%、後者では90%と表現する。
一方、圧縮前と後のデータ量の比や倍率で圧縮の程度を表すこともあり、データ圧縮比と呼ばれる。10分の1に圧縮したことを10:1あるいは10倍と言い表す。
可逆圧縮と非可逆圧縮
完全に元のデータに戻せる符号列に変換する方式を「可逆圧縮」、元のデータの一部を削除・変形することで高い圧縮率を得る代わりに完全には元に戻せなくなる方式を「非可逆圧縮」あるいは「不可逆圧縮」という。
可逆圧縮はわずかでもデータの一部が異なれば元とはまったく違う意味になってしまう文字(テキスト)データやコンピュータプログラムの圧縮や汎用のファイル圧縮などで用いられ、通常単にデータ圧縮といえば可逆圧縮を指す。
非可逆圧縮は主に画像や音声、映像など元のデータに大きな情報の冗長性が含まれる対象に用いられる。人間の視覚や聴覚の特性を利用して、人間が気づきにくい形でデータの一部を改変・削除することで、劇的な高圧縮率を得ることができる。
元の情報を損なう変換を伴うため、非可逆圧縮は厳密にはデータ圧縮手法の一部ではないとする立場もある。また、非可逆圧縮アルゴリズムの中には、元データの形式変換や加工(この段階ではデータ長の縮減は伴わない)を行った後、データ圧縮自体は連長圧縮などの可逆圧縮により行う(すなわち、「非可逆」の工程では圧縮していない)ものも多い。
伸張 【解凍】
データ圧縮されたファイルなどに逆変換を行い、圧縮前の状態に戻すこと。圧縮されたデータを処理する際には、原則として必ず伸張して元のデータ形式に戻す必要がある。
信号やデータを実質的な意味を保ったまま、一定の手順で変換してより短い符号列に置き換えることを「圧縮」(compress)という。これとは逆に、圧縮データを元に戻す操作・処理を英語では否定の接頭辞 “de-” をつけて “decompress” というが、日本語では定まった訳語がなく、「伸長」「展開」「解凍」「減圧」「抽出」などが用いられる。
日本では1980年代にパソコン通信やファイル圧縮ソフトの付属文書などを通じて「解凍」という用語が広まった。対応して圧縮のことを「凍結」と呼ぶこともあったが、これは広まらなかった。年配の人などは現在でも慣用的に解凍と呼ぶことが多いが、本来の語義として「圧縮」と「解凍」では意味が対応しておらず、解凍には容積の増減の意味はないことから批判も多い。
一方、「伸長」や「展開」は、伸ばす、広げるという意味は合っているが、圧縮の逆の動作としての元に戻すという意味合いは薄いとの批判もあり、あまり定着していない。また、ファイルのアーカイバでは複数のファイルを一つの圧縮ファイルにまとめることが多いため、その中から指定されたものを取り出して元の状態に戻すことを「抽出」ということもある。英語でもこの文脈では “decompress” ではなく “extract” を用いる。
Zip 【.zipファイル】
複数のファイルを一つにまとめるアーカイブファイル形式、および、データを圧縮して容量を削減することができる圧縮ファイル形式の一つ。Windowsなどで標準的に用いられる。
Zip形式のファイルは内部に複数のファイルを格納でき、必要なものだけを展開して取り出すことができる。オペレーティングシステム(OS)のファイルシステムのように階層型(入れ子型)のディレクトリ(フォルダ)構造をそのまま取り込むことができる。ファイル名の標準の拡張子は「.zip」である。
ファイルの格納時にデータ圧縮を行うことができ、内容を維持したままファイルサイズを縮減することができる。この機能は本来はオプションで、圧縮せずにアーカイブすることもできるが、ほとんどの場合に圧縮機能が用いられるためZip形式は圧縮形式であると説明されることもある。
32ビットCRC方式の誤り検出符号を付与し、展開時にデータが破損していないか確かめることができる。ファイル作成時にパスワードを設定し、DES、3DES、RC2、RC4などの暗号アルゴリズムで内容を暗号化して格納する拡張仕様があり、展開時にはパスワード入力が必要となる。
圧縮方式
Zipのバージョン2.0からLZ77圧縮アルゴリズムとハフマン符号化を組み合わせたDeflate方式のデータ圧縮を利用することができるようになり、ファイル単位で圧縮を行い容量を削減することができる。これは内容を損なわない可逆圧縮(ロスレス圧縮)方式であり、どのような種類のデータも圧縮できる。
似た名称の圧縮ファイル形式に「gzip」や「bzip2」、「7z」(7-Zip)などがあるが、gzipはDeflate圧縮を用いるが記録形式としては別物で互換性がなく、bzip2は名前が似ているだけで特に共通点はない。7zはDeflateやbzip2を含む様々な圧縮形式に対応しているが記録形式はZipと異なる。
他のファイル形式での利用
データファイルに様々な種類の複合的なデータを収める必要があるアプリケーションソフトでは、特定のデータ形式やディレクトリ構造で複数のファイルを生成・配置し、これをまとめてZipで圧縮して一つのファイルにまとめたものを標準のファイル形式とする場合がある。
このようなファイルは格納されるデータ形式自体はZipファイルそのものだが、内容を展開するとそのアプリケーション固有のデータの集合体となるため、固有のファイル形式として独自の名称とファイル拡張子によって識別されることが多い。
このような方式を採用したフォーマットとして著名なものとして、Javaのソフトウェア配布に用いられるJAR形式(.jarファイル)、オフィスソフトの標準ファイル形式である「Open Office XML」(DOCXファイル、XLSXファイル、PPTXファイルなど)や「OpenDocument Format」(.odtファイル、.odsファイル、.odpファイルなど)がある。
歴史
Zipは1989年に米PKWARE社のフィル・カッツ(Phil Katz)氏が考案したもので、同社のMS-DOS向けのファイルアーカイブソフトウェア「PKZIP」の標準ファイル形式として発表された。同氏はZipの仕様を公表し、一切の権利を放棄したため、誰でも自由に利用できるようになり、主にMS-DOSやWindowsなどのプラットフォームで標準的なアーカイブ形式および圧縮形式として普及した。2015年にISO/IEC 21320として国際標準となっている。
データ圧縮率 ⭐
データを圧縮した際に、圧縮後のデータが元のデータのどのくらいの情報量に減ったかを表す割合。圧縮後の量の元の量に対する割合を100倍したパーセンテージで表すことが多いが、削減された量の元の量に対する割合とすることもある。
データ圧縮はデータを一定の規則で変換する処理の一つで、実質的な内容を損なわずにより短いデータに置き換えることができる。逆変換により元の状態に復元することができる。記憶装置の容量や通信回線の伝送量を節約したり、データの記録や伝送の性能を向上することができる。
データ圧縮によりどの程度圧縮することができたかを、圧縮前後のデータ量の割合で表したものを圧縮率という。例えば、100MBのファイルが10MBに圧縮された場合、圧縮後の容量に着目して10/100で「0.1」あるいはパーセンテージで「10%」を圧縮率とする。
もう一つ別の考え方として、圧縮によって削減できた容量に着目し、(100-10)/100の「0.9」または「90%」を圧縮率とする場合がある。前者は値が小さいほどより少ない量に圧縮できていることを表し、後者はその逆である。
通常は前者の圧縮前後の容量の比によって表す方法が用いられる。いずれの場合も、慣例として、より少ない量に圧縮された(よく圧縮できた)状態を「圧縮率が高い」、多い量に圧縮された(あまり圧縮できなかった)状態を「圧縮率が低い」と言い表す。
データ圧縮比
圧縮前と圧縮後のデータ量を比で表したものを「データ圧縮比」ということがある。100MBを10MBに圧縮した場合はこれを10:1、あるいは比の値である10倍と表す。この値が高いほどより小さく圧縮できていることになる。数値で表す場合は、(圧縮前後のデータ量の比とした場合の)圧縮率の逆数となるが、圧縮率と同じ値(この例では10%)を圧縮比としている例も見られる。
可逆圧縮 【ロスレス圧縮】
データ圧縮方式のうち、圧縮符号化の過程で元のデータを一切毀損せず、完全に元通りに復元できるように圧縮する手法のこと。主にファイル圧縮や通信プロトコルなど、データの種類を特定しない汎用の保存形式や伝送方式で用いられる。
コンピュータプログラムや文字(テキスト)などのデータは、1ビットでも欠けたり変質するとその意味する内容自体が変わってしまうため、圧縮したデータを展開(解凍)したときに元のデータと完全に一致する可逆圧縮が行われる。
一方、画像や動画、音声などの場合には、人間の視聴覚が違いを感じ取りにくいように一部を省略・改変することで実質的な内容を維持しつつ劇的に圧縮率を高める「非可逆圧縮」(不可逆圧縮)が行われることがある。可逆圧縮は元のデータを完全に保存できるが、非可逆圧縮に比べ圧縮率は低い。
主な可逆圧縮アルゴリズムとしてはランレングス符号やハフマン符号、LZ77、LZSS、LZW、Deflateなどが知られる。ZIPやCAB、LZH、RAR、gzip、bzip2など汎用のファイル圧縮形式はすべて可逆圧縮を用いる。画像圧縮ではJPEGなどが非可逆圧縮、GIFやPNG、WebP、AVIF、Loassless JPEGなどが可逆圧縮である。
また、通常は非可逆圧縮が用いられることが多い音声圧縮でも、「ALAC」(Apple Lossless)や「FLAC」「WMA Lossless」など高音質のために可逆圧縮を用いるファイル形式があり、「ロスレス音源」と総称される。
なお、非可逆圧縮は実際には元のデータを圧縮しやすい状態に変換し、圧縮符号化自体は可逆圧縮アルゴリズムを用いて行うため、正確には圧縮方式そのものが可逆と非可逆に分かれているわけではないが、実用的にはこの変換処理も含めて圧縮方式や圧縮形式の仕様の一部とみなされるため、便宜上このような区分が常用されている。
非可逆圧縮 【不可逆圧縮】
データ圧縮方式のうち、圧縮符号化の過程でデータの一部の欠落や改変を許容することで極めて効率よく圧縮する手法のこと。非可逆圧縮されたデータを伸長(解凍)しても元のデータには完全には一致しない。
コンピュータプログラムや文字などのデータは1ビットでも変化すればその意味する内容自体が変わってしまうが、画像や動画、音声などはデータ上は細部が僅かに異なっていても人間の視聴覚には違いが気付きにくい場合がある。
このような特性を活かし、人間が認識しにくい手法で元のデータの一部を省略・改変したり、別の表現形式へ変換するなどして、効率よく短い符号に圧縮する方式を非可逆圧縮という。
元のデータを一切毀損しない可逆圧縮とは異なり完全に元のデータを復元することはできないが、人間にほとんど違いがわからない程度の改変でも劇的に圧縮率を高めることができる利点がある。また、多くの方式では圧縮時に品質劣化の程度を指定することができ、品質を犠牲にして極端に小さな容量に圧縮することもできる。
画像や動画、音声の圧縮形式の多くが非可逆圧縮を採用しており、JPEG、MPEG-1、MPEG-2、MPEG-4、H.264、H.265、MP3、AAC、WMAなど主要なデータ形式のほとんどが非可逆となっている。用途に応じて使い分けられるよう、Lossless JPEGやWMA Losslessのように仕様の一部として可逆圧縮を用意している形式もある。
なお、実際には元のデータを効率良く圧縮できる状態に変換し、圧縮符号化自体は可逆圧縮アルゴリズムを用いて行うため、正確には圧縮方式そのものが可逆と非可逆に分かれているわけではないが、実用的にはこの変換処理も含めて圧縮方式や圧縮形式の仕様の一部とみなされるため、便宜上このような区分が常用されている。
ランレングス圧縮 【連長圧縮】 ⭐
最も基本的な圧縮アルゴリズムの一つで、連続して現れる符号を、繰り返しの回数を表す値に置き換える方式。圧縮によって内容を損なわない可逆圧縮を行う。
例えば、「AAAABBBBCCCC」という文字列を圧縮する場合、「A」が4回、「B」が4回、「C」が4回それぞれ連続しているため、各文字とその繰り返し回数を組み合わせて「4A4B4C」のように表すことができる。
展開する場合は「4A」を「AAAA」のように戻していくことで元の文字列が得られる。この例では元のデータの半分のデータ長に圧縮することができた。
この単純な方法では同じ符号が連続する箇所が少ないか存在しない場合、圧縮どころか逆にデータ長が大きく伸びてしまう場合がある。例えば、「ABCABC」は「1A1B1C1A1B1C」となってしまい、元の倍の長さになってしまう。
こうした事態を防ぐための手法がいくつか考案されている。例えば、繰り返し回数を表す数字が負数の場合は、その絶対値の長さだけ元のデータがそのまま記載されている区間が出現するという規則を追加する方式がよく知られる(PackBits方式)。
例えば、「AAAABCDEBBBB」は、単純な符号化では「4A1B1C1D1E4B」と12文字で表されるが、PackBits方式では中間の繰り返しのない4文字の先頭に「-4」(説明のため負号を付けて2文字で表しているが実際のデータ上は1文字分)を付加した「4A-4BCDE4B」となり、9文字で表すことができる。
ランレングス法は余白の多い白黒2値画像のように、符号の種類が少なく繰り返し箇所が多い性質のデータで効率よく圧縮でき、ファクシミリの伝送符号や一部のビットマップ画像形式(BMP形式やPICT形式など)などに採用例がある。
ハフマン符号 【Huffman code】
データの内容を損なわずに短い符号列に変換する圧縮アルゴリズムの一つで、元のデータに高頻度で現れるパターンに短い符号を、低頻度で現れるパターンに長い符号を与えて置き換える方式。
1952年にデビット・ハフマン(David Albert Huffman)氏が考案した。符号化方式を「ハフマン符号化」(Huffman coding)、得られる圧縮符号を「ハフマン符号」(Huffman code)という。圧縮符号を展開すると完全に元通りのデータを復元することができる可逆圧縮の代表例で、現代でもファイル圧縮や画像ファイル形式など様々な場面で応用されている。
基本的な考え方は、対象データ列に出現する各パターンの頻度を調べ、高頻度で現れるパターンには短い符号(ビット列)を、低頻度のパターンには長い符号を割り当てることで全体のデータ長を短縮する。このような圧縮符号を「エントロピー符号」という。
ハフマン法ではデータ全体を一定の長さの断片ごとに区切り、同じパターンの断片の出現回数を数え上げる。最も頻出するものから順に短い符号を割り当て、パターンを符号に置き換える。置換後の符号列中で各符号を一意に識別できるようにするため、「ハフマン木」と呼ばれる二分木でパターンと符号の対応関係を管理する。
符号化のためにはパターンの出現頻度を調べる必要があるが、最初に出現頻度をすべて調べて符号の割り当てを決めてから符号化を行う方式(データ全体を2回走査する)を「静的ハフマン法」(static Huffman coding)、出現頻度を調べ符号の割り当てを変更しながら同時に符号化を進めていく方式(一度の走査で済む)を「適応的ハフマン法」(adaptive Huffman coding)という。
実装が難しく、かつては特許で保護されていた「算術符号」(arithmetic coding)を除けば、理論上最も圧縮率が高いエントロピー符号化アルゴリズムとして知られる。実装も比較的容易であることから、Zip(Deflate)やJPEG、MP3など様々な圧縮形式の仕様の一部に採用され、広く普及している。
RGB 【Red-Green-Blue color model】 ⭐⭐
色の表現方式の一つで、赤・緑・青をそれぞれ様々な強度で混合し、すべての色を表現する方式。コンピュータで図形や画像、動画などを扱う際の標準的な色表現の一つで、ディスプレイ装置など加法混色の系で利用される。
赤(Red)・緑(Green)・青(Blue)の3色は「光の三原色」と呼ばれ、頭文字を繋ぎ合わせて「RGB」と呼ばれる。発光体の色は強度を高めるほど明るくなっていき、3色を最大の強度で足し合わせると白色となる。このような混色系を「加法混色」という。
絵の具など光の反射体は発光体とは逆の「減法混色」となるため、RGBの各色の強度と出来上がる色の対応関係は我々が日常的に慣れ親しんできた色の感覚とはズレている部分もある。
例えば、赤と青を混ぜると明るい紫になるのは日常感覚に近いが、赤と緑を混ぜると黄色、青と緑を混ぜると水色となる。3色の強度が同じだと無彩色(灰色)となり、すべて最大の強度なら白、最低の強度なら黒となる。
色深度とアルファ値
RGBの各色について、その強度を何段階のきめ細かさで区別するかにより、表現できる色の数が決まる。機器やソフトウェア、画像形式などが対応する最大発色数を「色深度」(カラーデプス)と呼び、色情報のビット数を「bpp」(bits per pixel)という単位で表現する。
人間の目から見て自然の光景と遜色ない色表現を実現するには各色8ビット(256段階)、合わせて24bpp(1ピクセルあたり3バイトの色情報)程度の情報量が必要と言われ、これを「フルカラー」(full color)あるいは「トゥルーカラー」(true color)という。
RGBの色情報に透明度(A:Alpha、アルファ値)を追加し、半透明の色を表現する方式もあり、RGBAカラーモデルという。例えば、アルファ値が50%の半透明に指定された画素は、その画素自体のRGB値を50%、背景にある画素のRGB値を50%の割合で合成した色で描画される。
CMYKとの違い
印刷など減法混色の系では「シアン」(Cyan:水色)、「マゼンタ」(Magenta:明るい赤紫色)、「イエロー」(Yellow:黄色)の強度の組み合わせで色を表現するCMY方式が用いられる。光の反射体の色を表す方式であるため日常の色の感覚に近い。
印刷では黒を他の色のインクの混色できれいに表現するのが難しいため、実用上はCMYに黒(K:Key plate)の強度を追加したCMYK方式がよく用いられる。印刷関連のソフトウェアにはRGBとCMYKの相互変換機能が内蔵されていることが多い。
CMYK 【Cyan/Magenta/Yellow/Key plate】 ⭐
色の表現方式の一つで、シアン(水色)、マゼンタ(赤紫色)、イエロー(黄色)、ブラック(黒色)の配合比率を変化させて、すべての色を表現する方式。インクによる印刷など減法混色の系で利用される方式である。
印刷物のような光の反射体の色は、「色の三原色」とも呼ばれるシアン(Cyan)、マゼンタ(Magenta)、イエロー(Yellow)の三つの色(CMY)を様々な強度で組み合わせることにより表現される。
この三色は白色光から光の三原色(赤緑青)のいずれか一つを遮った色で、各色の強度を強めるほど色が濃く、暗くなっていき、黒に近づいていくため「減法混色」(減法混合)と呼ばれる。
理論上はCMYの三色ですべての色を表現できるが、インクのような現実の着色材料でこの三色の混合により黒を表現しようとすると汚い暗灰色になってしまうことが多いため、美しく印刷するために黒だけが独立している。
印刷機において黒インクで画像の輪郭や文字、罫線などを表現する印刷板のことをキープレート(key plate)と呼んでいたことから、黒色の略号に “K” が用いられるようになった。
コンピュータのディスプレイなど発光体を用いる加法混色の系では赤(Red)、緑(Green)、青(Blue)の3色を組み合わせて色を表現する「RGB」が用いられる。印刷関連に用いられる業務用ソフトウェアなどにはRGBとCMYの相互変換機能が内蔵されていることが多い。
CMYK 【Cyan/Magenta/Yellow/Key plate】 ⭐
色の表現方式の一つで、シアン(水色)、マゼンタ(赤紫色)、イエロー(黄色)、ブラック(黒色)の配合比率を変化させて、すべての色を表現する方式。インクによる印刷など減法混色の系で利用される方式である。
印刷物のような光の反射体の色は、「色の三原色」とも呼ばれるシアン(Cyan)、マゼンタ(Magenta)、イエロー(Yellow)の三つの色(CMY)を様々な強度で組み合わせることにより表現される。
この三色は白色光から光の三原色(赤緑青)のいずれか一つを遮った色で、各色の強度を強めるほど色が濃く、暗くなっていき、黒に近づいていくため「減法混色」(減法混合)と呼ばれる。
理論上はCMYの三色ですべての色を表現できるが、インクのような現実の着色材料でこの三色の混合により黒を表現しようとすると汚い暗灰色になってしまうことが多いため、美しく印刷するために黒だけが独立している。
印刷機において黒インクで画像の輪郭や文字、罫線などを表現する印刷板のことをキープレート(key plate)と呼んでいたことから、黒色の略号に “K” が用いられるようになった。
コンピュータのディスプレイなど発光体を用いる加法混色の系では赤(Red)、緑(Green)、青(Blue)の3色を組み合わせて色を表現する「RGB」が用いられる。印刷関連に用いられる業務用ソフトウェアなどにはRGBとCMYKの相互変換機能が内蔵されていることが多い。
光の三原色 ⭐
発光体の色のうち、組み合わせることで様々な色を合成することができる、赤・緑・青の三つの原色のこと。各色の頭文字を取って「RGB」(Red-Green-Blue)という略号で表される。
人間の視覚は主に赤・緑・青の各色の光に強く反応する色覚受容体で構成されているため、この三色の光を様々な強さで組み合わせることで、任意の色を構成することができる。実際には、緑は明るい黄緑に近い色、青はわずかに紫がかった群青に近い色が用いられる。
テレビやディスプレイ装置など発光して像を映し出す装置では、表示面にこの三色に対応する微細な発光素子が敷き詰められており、それぞれの強さを制御して各点の色を表現している。各色の強度を高めるほど色が明るくなっていき、三色とも最大の強度で足し合わせると白色、最低の強度で黒色となる。このような混色系を「加法混色」という。
一方、絵の具や印刷物のインクなど光の反射体の色は、シアン(cyan:濃い水色)、マゼンタ(magenta:薄紫)、イエロー(yellow:黄色)の三色の組み合わせによって表現することができる。この三色を「色の三原色」と呼び、各色の頭文字を取って「CMY」(Cyan-Magenta-Yellow)の略号で表される。
色の三原色 ⭐⭐
印刷物など光の反射体の色のうち、組み合わせることで様々な色を合成することができる、シアン(cyan:濃い水色)、マゼンタ(magenta:薄紫)、イエロー(yellow:黄色)の三色の組み合わせ。各色の頭文字を取って「CMY」(Cyan-Magenta-Yellow)の略号で表される。
人間の視覚は主に赤・緑・青の各色の光に強く反応する色覚受容体で構成されているため、この三色の光を様々な強さで組み合わせることで、任意の色を構成することができる。これを「光の三原色」と呼び、各色の頭文字を合わせて「RGB」(Red-Green-Blue)という。
色の三原色は外光の反射によって色を発する物体における原色で、白色光から光の三原色のいずれか一つを遮った(残りの二色を同強度で混合した)色である。シアンとマゼンタを混ぜると青に、マゼンタとイエローを混ぜると赤に、イエローとシアンを混ぜると緑になるという関係にある。
我々は色の三原色の混合を絵の具の色を混ぜることにより身近に体験している。三色の強度を高めるほど色は暗くなっていき、三色を最大の強度で足し合わせると(理屈の上では)黒色となる。このような混色系を「減法混色」という。
白、黒、灰色といった無彩色は、理論上は三原色を同量ずつ混合することにより作り出すことができる。発光体の制御と異なり着色剤の混合で灰色や黒を作ろうとするとくすんだ汚い色になってしまうため、印刷などの実用上は灰色や黒の着色剤を三色と別に用意することが多い。そのようなカラーモデルを「CMYK」という。「K」は黒色印刷に用いる冶具 “key plate” に由来する。
加法混色 ⭐
光(光源、発光体)で様々な種類の色を表現するときの色の混合方法。最も一般的な方式は、赤(Red)、青(Blue)、緑(Green)のいわゆる「光の三原色」を混合してすべての色を表現する手法で、そのような系を三色の頭文字を取って「RGB」と呼ぶ。
RGBによる加法混色の系では、赤と緑を混ぜると黄色、オレンジ色、茶色を、青と緑を混ぜると水色を、赤と青を混ぜると紫色を、三色を同じ強度で混ぜると黒、灰色、白を、それぞれ表現することができる。
これに対し、光を反射する媒体で色を表現する場合の色の混合方法は「減法混色」という。コンピュータのディスプレイ装置などは加法混色の系で、印刷物などは減法混色の系(CMYやCMYKなど)であるため、コンピュータで作成した文書などを印刷するためには系の変換が必要になる。
減法混色 ⭐
光を反射する媒体で様々な種類の色を表現するときの色の混合方法。最も一般的な方式は、水色(Cyan:シアン)、赤紫色(Magenta:マゼンタ)、黄色(Yellow:イエロー)の三色を原色として、これらの混合によりすべての色を表現する手法で、そのような系を三色の頭文字を取って「CMY」と呼ぶ。
CMYによる減法混色の系では、シアンとマゼンタを混ぜると青を、マゼンタとイエローを混ぜると赤を、イエローとシアンを混ぜると緑を、三色を同じ強度で混ぜると黒、灰色、白を、それぞれ表現することができる。印刷などで用いる場合には、カラーインクの混合でモノトーンを表現するとくすんだ汚い色になりがちなため、灰色や黒のインクを別に用意することが多い。三原色に黒を追加した系を「CMYK」という。
これに対し、光(光源、発光体)で色を表現する場合の色の混合方法は「加法混色」という。コンピュータのディスプレイ装置などは加法混色の系(RGBなど)で、印刷物などは減法混色の系であるため、コンピュータで作成した文書などを印刷するためには系の変換が必要になる。
色相
色を表す要素の一つで、赤、青、緑などといった色合い、色味のこと。可視光線は波長の違いにより人の目にそれぞれ異なった色として映り、この色の違いや種類のことを色相という。
赤、青、緑、黄、橙、紫など、日常的によく用いられる色には名前がついているが、波長は連続量であり中間色は無数にある。色相の全体像は色味が連続的に変化する図で示され、帯状に表したものを「色相スケール」、円環状に表したものを「色相環」という。
色を表す要素には色相のほかに、色の明るさ(明度/輝度)と鮮やかさ(彩度)がある。これらを組み合わせて一つの色を表すことができ、こららを「色の三属性」または「色の三要素」という。例えば、同じ赤の色相でも、明度が低ければ「暗い赤」に、彩度が低ければ「くすんだ赤」になる。
コンピュータの表色系でも色相(H:Hue)を用いるものがあり、彩度(S:Saturation)、輝度(L:LightnessあるいはLuminance)と組み合わせたものを「HSL色空間」あるいは「HLS色空間」、輝度に替えて明度(V:ValueあるいはB:Brightness)を組み合わせたものを「HSV色空間」「あるいは「HSB色空間」という。
明度
色を表す属性の一つで、色の明るさのこと。実際に放たれる光の強さのことではなく、色から受ける印象が明るいか暗いかを表す心理的な尺度である。
人間は色について「明るい色」「暗い色」という感覚を持っており、その度合いを何らかの尺度を用いて表したものを明度という。色合い・色味を表す「色相」(hue)、色の鮮やかさを表す「彩度」(saturation)と合わせて「色の三属性」という。
例えば、無彩色で考えると白が最も明度が高く、黒が最も明度が低い。灰色はその濃さに応じて両者の中間に位置する。彩度の高い色の場合には、明度が高いときに最もくっきりした色合いとなり、明度が0で彩度も色相も失われ黒になる。
色を数値で表す表色系では、黒を0、白を1または100とする尺度で表される。HSV色空間では「V」(Value)が明度を示している。似た表色系のHLS色空間(HSL色空間)などでは、ほぼ同じ概念を「輝度」(L:LightnessあるいはLuminance)と呼んでいる。
彩度
色を表す属性の一つで、色の鮮やかさのこと。白・黒・灰色の無彩色で0となり、純色で最大値となる。彩度を用いる表色系では最大値を100とするパーセンテージで表すことが多い。
表色系によって詳細は異なるが、彩度が高いほど純粋で鮮やか、くっきりした色合いとなる。彩度を下げていくと白・黒・灰色に近づいていき、ぼんやりしたくすんだ色合いになる。一般に多くの種類の色を混ぜるほど彩度は下がっていく。
コンピュータ上の表色系でよく用いられるHLS(HSL)、HSV、HSBなどの色空間では「S」(Saturation)が彩度を表しており、0を最小として1あるいは100を最大とする尺度で表される。これらの体系では残りの二つの属性として、色味を表す「色相」(H:Hue)、明るさを表す「輝度」(L:Lightness)あるいは「明度」(B:Brightness)が用いられる。
ピクセル 【画素】
デジタル画像や画面などを構成する最小単位である、色のついた微細な点のこと。また、その数を表す単位。単位を表す場合は “px” と略記されることもある。
コンピュータは画像をデジタルデータとして扱うため、固有の色情報を持つ点が縦横に規則正しく並んだ集合として表現する。この点のことを画素と呼び、それ以上小さな単位に分割することができない最小の要素となっている。
色深度 (color depth)
一つの画素にどのような色情報を持たせることができるかは画像形式やソフトウェア、表示・印刷媒体によって異なる。一画素を何ビットの色情報で表現するかを「色深度」(color depth)と呼び、「bpp」(bits per pixel:ビット毎ピクセル)という単位で表す。
最も単純で情報量が少ないのは各画素が1ビットの色情報を持つ方式(1bpp)で、各画素は2種類の色(ビットの0と1にそれぞれ対応)のいずれかとなる。通常はこれを白と黒に対応付け、白黒画像(2値画像、モノクロ2値)として扱う。
様々な色を扱う場合は色深度を大きく取り、8ビット(256色)や16ビット(65,536色)、24ビット(約1677万色)などが用いられる。24bppでは光の三原色(RGB:赤緑青)の各色を8ビット(256段階)で表すことができ、人間の目で識別できるほとんどの色を表現できるとされるため、「フルカラー」「トゥルーカラー」などと呼ばれる。
物理媒体におけるピクセルとドット
ディスプレイ装置などによる画面表示やプリンタによる印刷面も、色のついた微細な点を縦横に規則正しく並べた構造となっており、これも画素と呼ぶ。物理的な単位として「ドット」(dot)を用いる場合もある。
特に、プリンタではデジタル画像における一つの画素を複数の微小なインク滴やトナーの集合で表現する場合があり、画素を構成する物理的な最小単位としてドットを用いることがある(ドットを画素と同義とする場合もある)。
物理的な媒体では表示・印刷面における画素の細かさが機器や機種によって異なり、幅1インチあたりに存在する画素の数である「ppi」(pixel per inch:ピクセル毎インチ)や隣り合う画素の中心間の距離である「画素ピッチ」(pixel pitch)などの単位で表す。
サブピクセル (subpixel)
物理媒体上では画素の色を原色の組み合わせで表現するため、ディスプレイなどの発光体では赤・緑・青の光の三原色(RGB)に対応する発光素子を、印刷物などの反射体ではシアン・マゼンタ・イエローの色の三原色(CMY)に対応するインク滴などを隣り合わせて一つの画素を表現する。
人間の目には三色が組み合わさって一つの色に見えるが、拡大すると各画素ごとに三色が規則正しく並んでいる様子が分かる。画素をこれらの三色に分解した構成単位を「サブピクセル」(subpixel:副画素)と呼ぶことがある。
ソフトウェアや機器によっては画像の表現をより精細にするため、サブピクセル単位で表示や印刷を制御する「サブピクセルレンダリング」(subpixel rendering)が行われる場合もある。
解像度 【レゾリューション】 ⭐⭐⭐
機器などの性能の尺度の一つで、対象をどこまで細かく観測あるいは描写できるかを表すもの。ITの分野では、画像や画面、紙面などを構成する画素(ピクセル/ドット)の密度を指すことが多い。
コンピュータは画像を色の付いた微細な点あるいは格子を縦横に規則正しく敷き詰めた集合として取り扱う。この点の細かさ、すなわち、物理的な単位長さあたりの点の数(画素密度)のことを一般に解像度という。
解像度が高いほど点は微細になり、より精細できめの細かい表現が可能となるが、データ量は点の数に比例して増大し、保存や伝送に大きな容量を必要とする。解像度が低くなると次第に個々の点や格子が視認できるようになり、モザイク状のぼやけた表現となる。
ディスプレイやプリンタなどの出力装置の場合には、画面に表示する像や、紙面へ印刷する像の微細さを表す。イメージスキャナやカメラなど画像・映像の入力装置の場合には、取り込んだ光学的な像を画素に分解する細かさ(分解能)を表す。
解像度の単位
単位は一般に幅1インチ(約2.54cm)あたりに並ぶ点の個数である「ピクセル毎インチ」(ppi:pixel per inch)あるいは「ドット毎インチ」(dpi:dot per inch)が用いられる。例えば、100ppiなら1インチを100の点に分解して扱うことを意味し、一つの画素は直径0.254mmの円か幅0.254mmの格子となる。
ppiとdpiはコンピュータ上での画像データの画素と装置の取り扱う微細な点が一対一に対応する場合には同一だが、装置の原理によっては複数のドットの集合によって一つのピクセルを表現する場合もあり、そのような機器では後者の方が数倍から十数倍大きくなる。
ディスプレイの画面解像度
ディスプレイ装置では本来の解像度の意味である画素密度(ppi)の他に、慣用的に画面の構成画素数(総画素数)のことを解像度ということがある。横方向の画素数を縦方向の画素数をかけ合わせたもので、1920×1080といったように記述する。
同じ総画素数の機種同士でも、画面の物理的なサイズが異なれば画素の大きさも異なるため、本来の意味での解像度(画素密度)は異なる。歴史的な経緯から、よく使われる画素数には通称がついており、例えば640×480は「VGA」、1024×768は「XGA」と呼ばれる。
階調 【階調数】
コンピュータが画像を扱う際に、色の濃さや明るさを何段階で表現することができるかを表す数。この数が大きいほど細かな色や明るさの違いを表現できるが、画素あたりのデータ量は増大する。
自然界では色は光の波長によって異なり、連続量の一種だが、コンピュータで画像を扱う際にはこれを離散量(有限桁の数値)に変換する必要がある。その際、ある色の最も明るい(濃い)状態と暗い(薄い)状態の間を何段階で識別・表現することができるかを表す値が階調である。
モノクロの階調
最も単純な階調は白黒画像(モノクロ2階調)であり、すべての画素が真っ白と真っ黒のいずれかで表現される。色は「0」(黒)と「1」(白)の2値で識別され、各画素につき1ビットで表現することができる。
一方、一般に「モノクロ画像」あるいは「グレースケール画像」と呼ばれるものは白と黒の中間に明るさ(濃さ)の異なる複数の灰色を表現することができるものを指すことが多い。よく用いられる256階調(各画素の情報量は8ビット)のモノクロ画像では、白、黒、254段階の灰色の計256色を表現できる。
カラーの階調
カラー画像の場合は色を複数の原色に分解し、各色の階調の組み合わせで表現できる色の数が決まる。コンピュータ上で画像データを扱う際には色を赤(Red:R)・緑(Green:G)、青(Blue:B)の「光の3原色」に分解し、それぞれを同じ階調で表現することが多い。
人間の目にとって自然の光景と区別がつかない表現は、この各色について256段階(8ビット)程度の階調が必要であると言われており、これを「フルカラー」(full color)あるいは「トゥルーカラー」(true color)という。256の3乗で1677万7216色を表現することができる。
通常の用途ではフルカラーで十分なことが多いが、赤外線暗視映像のように特定の色味しか現れない特殊な表現の場合は単色256階調では色の境界が階段状になってしまうなど表現力が不足する場合がある。そのような状況にも対応できるよう、業務用の機器などでは内部的に各色10ビット(1024階調)や12ビット(4096階調)で表現するものもある。
dpi 【ドット毎インチ】 ⭐⭐
主にプリンタやイメージスキャナなどで使われる解像度の単位で、幅1インチ(約2.54cm)を何個の点(ドット)で表現できるかを表す値。この値が高いほど、より精細な印刷や読み取りが可能となる。
例えば300dpiのプリンタは、紙面上の1インチ幅あたりに300個、面積1平方インチあたりに9万個の微細な点を印刷することができ、100dpiの機種に比べ、長さあたりで3倍、面積あたりで9倍の密度で表現することができる。
ディスプレイなどの表示装置では、解像度の単位として幅1インチあたりの画素(ピクセル)数を表す「ppi」(pixels per inch:ピクセル毎インチ)が用いられることがあるが、表示装置ではドットとピクセルも同じであるためdpiとppiも同義である。
プリンタは印刷品質を安定させるため、コンピュータ上の一つの画素(ピクセル)を十数個のインクやトナーの微細な点(ドット)の集まりとして印刷することが多く、その際のdpi値はppi値の数倍となる。
例えば、1600dpiのプリンタが一つのピクセルを縦横4つずつ、16のドットの集まりとして表現する場合、そのピクセル密度はdpi値の1/4の400ppiとなる。イメージスキャナにはこのような事情はないため、ディスプレイなどと同じようにdpiはppiは同義である。
ppi 【ピクセル毎インチ】
主にディスプレイで使われる解像度の単位で、幅1インチ(約2.54cm)あたりに何個の画素(ピクセル)を表示できるかを表す値。この値が高いほど表示面積あたりの画素密度が高く、精細な表示が可能となる。
例えば144ppiの液晶ディスプレイは、表示面の1インチ幅あたりに144個、面積1平方インチあたりに20,736個の画素を表示することができ、72ppiの機種に比べ長さあたりで2倍、面積あたりで4倍の密度で表現することができる。
一方、プリンタなどの装置では解像度の単位として、幅1インチあたりの点(ドット)の数を表す「dpi」(dots per inch:ドット毎インチ)が用いられることがある。
ディスプレイなどの場合はコンピュータ上の画像データの画素と表示装置上の表示素子が一対一に対応するためppi値もdpi値も同じだが、プリンタなどは品質を安定させるため装置が印刷する微細な点をたくさん集めて一つの画素を表現することがあり、ppi値がdpi値の数分の一となる。
例えば、1600dpiのプリンタが一つのピクセルを縦横4つずつ、16のドットの集まりとして表現する場合、その画素密度はdpi値の1/4の400ppiとなる。イメージスキャナにはこのような事情はないため、ディスプレイなどと同じようにdpiはppiは同義である。
ペイントソフト 【ペインティングソフト】
グラフィックスソフトの一種で、紙やキャンバスにペンや絵筆で絵を描くように画像を描画できるソフトウェア。
マウスなどを使ってカーソルをペン先や筆先のように動かし、画面上に絵を描いていくことができる。タッチパネル操作の機種では指や専用のスタイラスペンで画面に直に触れて描くこともできる。できた画像はビットマップ画像として保存される。
筆先の質感やタッチを自由に選択できるほか、画像の一部あるいは全体にぼかしやモザイク、水面の波紋などの特殊効果をかけられるフィルター機能、画像の一部を切り抜いたり変形したりする編集機能、複数の画像を重ね合わせるレイヤー機能などを備えているものが多い。
近年では、アニメーション制作を支援する製品、マンガ原稿の制作を支援する製品、複数人で共同作業できる製品、ペンタブレットでの操作を重視した製品、ネットサービスとしてWebブラウザ上で操作する製品など、様々な特色ある製品が登場している。
描画機能よりも、写真など既存の画像にフィルターや色の調整などの編集を行うことに力点を置いたソフトもあり、「フォトレタッチソフト」(photo editting software)と呼ばれる。また、ペイントソフトとは異なり、点や曲線、領域の塗りつぶしなどを組み合わせて図形やイラストレーションを作成するソフトは「ドローソフト」という。
「ペイントソフト」「ドローソフト」といった呼称は和製英語で、英語ではペイントソフトを “raster graphics editor” (ラスター画像編集ソフト)、ドローソフトを “vector graphics editor” (ベクター画像編集ソフト)といったように編集対象の画像形式によって呼び分けることが多い。
ドローソフト 【ドローイングソフト】
画像の描画や編集を行うソフトウェアの一種で、画像を図形を組み合わせとして構成するベクター形式のイラストやデザインを作成するためのもの。
画面上でマウス操作やペン操作、タッチ操作により位置を指定して図形を描画していくソフトで、点や直線、曲線、多角形、円などの図形、アウトラインフォントの文字などを配置していき、これらに描画色を設定したり、囲まれた領域を塗りつぶすなどの編集を行って画像を作成する。
作成された画像は構成要素の点の座標や曲線方程式のパラメータなどの集合として表されたベクター画像として記述・保存されるため、算術的な変換により容易に変形や拡大・縮小を行うことができる。そのような変形処理によって画質が劣化しないという特徴がある。
1988年に初版が発売された米アドビ(Adobe)社の「Adobe Illustrator」(アドビ・イラストレーター)が本格的なプロ向けのソフトウェアとして広く普及している。他に米コーレル(Corel)社の「CorelDRAW」や、日本ではジャストシステムの「花子」などが有名で、「Inkscape」などのフリーソフトウェアもある。
主にベクター形式の画像を扱うソフトウェアとしては「CAD」(Computer Aided Design)ソフトなどもあるが、こちらは工業製品や建築物の設計図面の作成のための機能が充実しており、主にイラストレーションやグラフィックスの作成、デザインのために用いられるドローソフトとは区別される。
「Microsoft Visio」のようにダイアグラムなどの作図に特化したソフトウェアも、機能的な重複は大きいが主目的が異なるため区別されることが多い。ワープロソフトなどDTPソフトの中にも、線分や多角形、円、吹き出しなどドローソフトに似た簡易な作図機能を有するものは多くあり、この機能を「ドローツール」などと呼ぶこともある。
一方、同じ画像編集ソフトでも、画像を微細な色の付いた点(画素/ピクセル)の集合として取り扱うものを「ペイントソフト」と呼ぶ。絵画のようなきめ細かい描写や、写真の編集、合成などを行うことができるが、拡大や縮小、変形を行うと画質が劣化する。ドローソフトとは必要な画像の種類に応じて使い分ける必要がある。
CG 【Computer Graphics】
コンピュータで作成・加工された画像や動画のこと。工業製品の設計(CAD)やビデオゲーム、映像作品の制作など様々な分野で用いられている。
狭義には、ゼロから完全にコンピュータ上での作画や編集、加工などを経て生成された画像や動画を指し、特に、コンピュータプログラムが人の用意したデータ群を一定の手順で計算、処理して像を描画する手法により作成されたものを意味することが多い。
広義には、元になる写真や図画、映像などにコンピュータで作り出した像を合成したり、元とは大きく異なる態様に処理、加工したものを含む。写真や動画の撮影、編集をデジタル機器やコンピュータで行うのが一般的となったこともあり、撮影した写真や映像の全体的なイメージは変えず、細部の修整や変形、色調の変更などの編集(レタッチ)を施したものはコンピュータグラフィックスと呼ばないことが多い。
イラストやマンガなどでは、人が手でペン型の機材などを操作してコンピュータ上で直接作画する手法が用いられることがあり、以前はそのような作画手法が珍しく、(主に技術的な制約から)紙に手で描いたものとは表現が大きく異なっていたため、一種のコンピュータグラフィックスとみなされていたが、現在では紙に描くのと変わらない表現が可能となり、コンピュータグラフィックスではなく手描きの作画手法の一つと考えられることが多い。
コンピュータグラフィックスの作成手法は大別して、図形や像を平面的に組み合わせたり加工する「2次元コンピュータグラフィックス」(2DCG:2-Dimensional Computer Graphics)と、立体的に処理する「3次元コンピュータグラフィックス」(3DCG:3-Dimensional Computer Graphics)があり、単にコンピュータグラフィックスという場合は3DCGを指すことが多い。これは作成時のデータの取り扱いや計算・描画手法の区別であり、できあがった画像の内容、表現が平面的であるか立体的であるかを表すのではない。
VR 【Virtual Reality】
人間の感覚器官に働きかけ、現実ではないが実質的に現実のように感じられる環境を人工的に作り出す技術。3次元CGで現実のような光景を映し出す技術を指すことが多い。
身体に装着する機器や、コンピュータにより合成した映像・音響などの効果により、3次元空間内に利用者の身体を投影し、空間への没入感(immersion)を生じさせる。空間内では移動や行動が可能で、利用者の動作に応じてリアルタイムに変化や応答が得られる対話性、双方向性(interactivity)を備えている。
感覚器へのフィードバック(sensory feedback)はディスプレイ装置やスピーカー、ヘッドフォンを用いた視聴覚へのものが主になるが、身体に密着する装置で接触や圧迫を行い触覚に働きかけたり、味覚や嗅覚へ人工的に働きかける技術の研究も進められている。
具体的な方式には様々なものが提唱されており、頭部に装着してすっぽりと視界を覆う「ヘッドマウントディスプレイ」(HMD:Head-Mount Display)を用いた手法が特に有名となっているほか、手を包み込んで動きを入力したり力学的なフィードバックを与える手袋型の「データグローブ」(data glove)などの方式が有望と考えられている。
日本語では “virtual reality” の訳語として「仮想現実」という語が定着しているが、「仮想」には「仮に想定した」「偽の」「実際には存在しない」といったニュアンスがある一方、“virtual” は「名目上は異なるが実質的には同じである」という意味であり、訳語として不適切であるとする指摘もある。
様々な人工現実感
狭義の仮想現実は完全に人工的に生成した非現実の空間を用いるものを指すが、広義には現実の光景や音声、過去の映像などをコンピュータに取り込んで、人工的に生成した要素と組み合わせる方式も含まれる。
後者のうち、離れた場所の様子を仮想現実によって再現し、その中に実際にいるような感覚を生じさせるシステムを「テレイグジステンス」(telexistence)あるいは「テレプレゼンス」(telepresence)という。眼前の光景に人工的に生成した映像や情報を付加するシステムを「拡張現実感」(AR:Augmented Reality)あるいは「複合現実感」(MR:Mixed Reality)などと呼ぶ。
近年では、(狭義の)仮想現実やAR、MRなどを含む総称としての広義の人工現実感のことを「XR」(X Reality/Cross Reality/Extended Reality)と呼ぶことが多い。
また、フィクションに登場したり将来開発されることが期待される、現実と区別がつかないほど進歩した仮想現実システムのことは「アーティフィシャルリアリティ」(AR:Artificial Reality)あるいは「シミュレーテッドリアリティ」(Simulated Reality)などと呼ばれることもある。
AR 【Augmented Reality】 ⭐⭐
現実の環境から視覚や聴覚、触覚などの知覚に与えられる情報を、コンピュータによる処理で追加あるいは削減、変化させる技術の総称。
コンピュータがカメラやマイク、GPS、各種のセンサーなどで得たその場所や周囲の状況に関する情報を元に、現実世界から得られた画像や映像、音声などに加工を施して利用者に提供する。データグローブなど身体に装着する機器を用いて触覚に働きかけるシステムも研究されている。
実装例として、スマートフォンのカメラを通じて得た外界の映像に、リアルタイムにキャラクターの画像を重ね、あたかもその場所にキャラクターが出現したかのように演出するビデオゲームなどがある。
また、ゴーグルや眼鏡のように眼前に装着できる透過型のディスプレイに、装着者の見ている対象物に関連する文字や画像、映像などを重ね合わせて表示することで、肉眼では見えない部分を見えるようにしたり、関連情報を提供したりするシステムの研究開発も進んでいる。
こうした専用の装具を用いて、医師が手術の際に患部を見ながら一部分の拡大表示や患者の身体状態などを確認できるようにしたり、軍隊で兵士が装着して戦場の様子やセンサーが捕らえた敵の状態を重ね合わせて表示するといった応用が期待されている。
複合現実 【MR】
現実の環境と、コンピュータによって人工的に作り出された現実感を組み合わせ、複合的な空間知覚を生み出す技術の総称。現実空間と仮想空間の混合。
広義には、何らかの形で現実の情報と人工的な情報を混合する空間構成技術を広く総称し、現実の空間をベースに人工的に作り出された知覚情報を追加する「拡張現実感」(AR:Augmented Reality)と、仮想的な空間をベースに現実世界の情報を追加する「拡張仮想感」(AV:Augmented Virtuality)が含まれる。完全に人工的な情報のみで構成される「仮想現実」(VR:Vitual Reality)と対比される概念である。
狭義には、ARをより発展させ、空間的な広がりを持った仮想物を現実空間の特定の位置にリアルタイムに合成し、手で触れるといった物理的な働きかけにより操作したり介入できるようにする技術を指す。一般的には総称的な用法よりもこのような発展的なAR技術を意味することが多い。
例えば、視界を覆うゴーグル状のヘッドマウントディスプレイ(HMD:Head Mount Display)を装着すると、カメラで撮影された現実の周囲の光景が現れ、そこにコンピュータグラフィックスで合成されたボールの映像が合成されており、近づいて手で触れる動作を行うとカメラやセンサーでそれを検知して映像内のボールを動かすといったシステムが開発されている。
メタバース
3次元コンピュータグラフィックス(3DCG)で構成された仮想空間に複数(多数)の利用者が通信ネットワークを介して同時にアクセスし、コミュニケーションや商取引など何らかの社会的な活動を行うネットサービス。
利用者は仮想空間内で自分の分身として振る舞う「アバター」(avatar)と呼ばれる3Dキャラクターを操作し、空間内を移動したり、他の利用者とアバターを介して交流したり、現実の物品や空間内アイテムの売買などの経済活動を行ったり、会合や催しなどの社会活動に参加することができる。
空間内の「自分」を現実世界の自身の身元や属性と紐づけるか否かはサービスや利用者によって様々で、オンラインゲームや匿名掲示板のように現実とは切り離されたサービス内での人格として他の匿名の利用者と交流する場合と、実名SNSのように現実の「自分」として現実の知り合いなどと交流することが中心となるサービスがある。
VR(Virtual Reality:仮想現実)技術と組み合わせ、ヘッドマウントディスプレイ(HMD)などで視界全体に渡って仮想空間を展開し、体の動きに合わせて視界が移動するなど没入感を伴うシステムも研究されているが、VRや感覚上の没入感をメタバースの要件とすべきかどうかは見解が分かれる。
オンラインゲームとの違い
同一の3D仮想空間に利用者が操作するキャラクターが複数同時に現れ、互いに交流や協力、あるいは対戦したりするオンラインゲームはMMORPGなどの形ですでに普及しているが、これをメタバースの類型の一つに含めるか異なるものとするかは論者によって異なる。
ゲームとは異なるとする立場でよく挙げられる相違点としては、あらかじめ用意された目的や活動(敵キャラクターを倒す等)が決まっていないか少なくとも中心的な要素ではない点、舞台が完結した架空世界ではなく現実世界と地続き(現実の企業がイベントを開催する等)である点、利用者側で空間や物体などを(ある程度)創作・編集できる点などがある。
歴史
“metaverse” という語は、英語で「超~」「高次~」などの意味を持つ接頭辞 “meta-” に、「宇宙」「全世界」などを意味する “universe” を組み合わせた造語である。1992年に米作家ニール・スティーブンソン(Neal Stephenson)が発表したサイバーパンク小説 “Snow Crash” (邦題スノウ・クラッシュ)に登場する架空の仮想世界の名称が初出とされる。
メタバース的なサービスの先駆けとして知られるのは多人数参加型オンラインゲームのMMORPGで、1997年開始の「Ultima Online」(ウルティマオンライン)を皮切りに多数のサービスが提供され、オンラインゲームの一大ジャンルとして広く定着している。
一方、ゲームとは異なる3DCGによる仮想空間を提供するサービスとして初めて注目を集めたのは2006年開始の「Second Life」(セカンドライフ)で、当時100万人以上の利用者を集め企業がプロモーションに活用するなどブームとなったが、当時は単に「仮想空間」「仮想世界」、英語圏では “virtual world” 等と呼ばれ、メタバースという用語はまだ使われていなかった。
用語として「メタバース」が注目されるようになったのは2021年のことで、大手SNSの「Facebook」「Instagram」で知られる米フェイスブック(Facebook)社が「Meta」に社名を変更し、メタバース事業を今後の柱とする方針を示したことでメタバースブームへの期待が高まった。
しかし、何が「メタバース」なのかについて広く合意された明確な定義はなく、技術要件などの標準化も行われていない中で期待感だけが先行・過熱しており、注目を集めたい企業などが宣伝文句として「メタバース」を乱用する状況が生じている。実体が不明瞭なまま言葉が独り歩きする「バズワード」として消費されつつある。
3DCG 【3次元コンピュータグラフィックス】
コンピュータグラフィックス(CG)の表現手法の一つで、3次元空間に存在する立体の様子を平面に投影して描画したもの。映画やアニメーションなどの映像作品、ビデオゲーム、工業製品の設計、シミュレーションなど様々な分野で利用される。
コンピュータ内に数値的な3次元空間を用意して様々な色や形の立体図形を配置し、それらがある投影面上に映る様子を数値計算によって求め、画像として描画する。空間内の立体を任意に移動、変形、生成、除去して再計算することで異なる画像を得ることができ、単に「立体的に見えるように描かれた画像」とは異なる。
立体は頂点を結ぶ座標やそれらを結ぶ線分や曲線、線によって囲まれた多角形(ポリゴン)やその他の平面図形によって表現される。立体をどのような存在として構成するかによって、いくつかのモデリング方式が使い分けられている。
主なモデリング方式として、点を結ぶ骨組みのみでできた「ワイヤーフレームモデル」(wire frame model)、多角形の面で覆われたハリボテ(内部は空洞)として表す「サーフェスモデル」(surface model)、中身の詰まった物体として表す「ソリッドモデル」(solid model)がある。三角形を組み合わせたサーフェスモデルがよく用いられる。
3DCGの作成は、立体の形状データの入力や編集(モデリング)、空間内での配置や光源、視点などの設定(シーンレイアウト)、投影面に映る像を数値計算によって求める描画(レンダリング)などの工程からなる。
映画などの場合は製作時にレンダリングを行い固定的な映像データを得る「プリレンダリング」(prerendering)が、コンピュータゲームなどの場合は利用者側の操作に応じてシーンレイアウトとレンダリングを高速に何度も繰り返す「リアルタイムレンダリング」(real-time rendering)が行われる。
コンピュータの性能や記憶容量が低かった頃は「赤い立方体」といったような単純な幾何学図形のようなものしか表示できなかったが、性能向上に従い一つの立体を多数の図形に分割できるようになり、複雑な形状や滑らかな曲面のように見える構造を形作れるようになった。
また、表面も単色の塗りつぶしだけでなく任意の画像を面に貼り付ける「テクスチャマッピング」(texture mapping)や、微細な凹凸を設定できる「バンプマッピング」(bump mapping)などの手法が考案され、現実の物体や空想上の物体をリアルな表現で再現できるようになった。
シミュレータ 【シミュレーター】
現実の現象や物体などを模擬的に再現する機能を持った装置やソフトウェア、システムなどのこと。機械操作の訓練、現象の予測や機序の解明などのために用いられている。
対象から特徴的な要素を抽出して模型やデータ構造などの形でモデル化し、実験装置やコンピュータなどを使って模擬的に再現したもので、実物を使わずに様々な条件下での実験や訓練などを行なう。そのような模擬的な再現のことを「シミュレーション」(simulation)という。
実物での検証に大きなコストや時間がかかる工業製品の研究開発・設計や、いきなり実物を扱うと危険を伴うことがある機械の操作や乗り物の操縦の訓練、実地や現物での実験や観察が困難あるいは不可能な物理現象の研究などでよく用いられる。
4K解像度 【4K2K】
画面や画像、動画などの表示・構成画素数の通称の一つで、横4000ピクセル前後の画素数のこと。「K」は1000倍を意味する単位の接頭辞「キロ」(Kilo)の頭文字。
現在よく知られる具体的な画素数の規格は二つあり、映画などの映像に用いられる横4096×縦2160ピクセルの大きさを「DCI 4K」、デジタルテレビ放送などで用いられる横3840×縦2160ピクセルを「4K UHD」(Ultra-HD)あるいは「4K UHDTV」という。
フルHD(1920×1080)など2K(幅2000ピクセル前後)解像度の縦横をそれぞれ2倍、画素数で4倍に拡張したもので、2010年代前半からコンピュータ用ディスプレイやテレビ受像機に4K対応の機種が現れ始めた。日本では一部の衛星放送などで2014年に試験放送が開始され、2018年末に主要BS局が本放送を開始した。
8K解像度 【8K/4K】
画面や画像、動画などの表示・構成画素数の通称の一つで、横8000ピクセル前後の画素数のこと。「K」は1000倍を意味する単位の接頭辞「キロ」(Kilo)の頭文字。
一般には横7680×縦4320ピクセルのいわゆる「8K UHDTV」仕様のことを指し、総画素数は3317万7600画素、アスペクト比(縦横比)は16:9である。「4K」(4K UHDTV)比では縦横それぞれ2倍、画素数は4倍であり、現在広く普及しているフルHD(1920×1080)比では4倍、16倍となる。
NHKでは「スーパーハイビジョン」の名称で推進しており、2016年にはBSで試験放送を開始し、2018年末からは時間を区切って限定的ながら本放送を行なっている。視聴には8Kの表示に対応したテレビ受像機などが必要だが、画素数が多く製造コストが高いため高級機種に限られている。