文字コード 【character code】 キャラクターコード
コンピュータはすべての情報を「0」と「1」のを組み合わせたデジタルデータとして取り扱う。数値は2進数を用いることで容易に表現できるが、文字は字形そのものを画像や図形としてデータ化したものはデータ量が多く、これをそのまま繰り返し並べて文字データとすることは無駄が大きい。このため、各文字に短い識別番号(正確には0と1の並び:ビット列)を与えて数字の列として文字列を表現するようになった。この数字と文字の対応関係を定めた規約が文字コードである。
最も普及しているASCII文字コードは英数字や制御文字、記号などを収録した7ビット(7桁のビット列、十進数では0~127)のコード体系であり、例えばアルファベットの大文字の「A」は65番(ビット列で1000001)、小文字の「z」は122番(同1111010)などと定められている。あるデータ列がASCII文字列であることが分かっていれば、番号との対応関係を元に文字の並びを知ることができる。
文字集合と符号化方式
文字コードを定義するには、どの言語を対象にどの文字を収録するかを決めなければならず、まず収録する文字(の字形)を特定して列挙した文字集合(文字セット)を定める。その際、番号などは与えずにただ収録する文字群を定義したものをレパートリ、各文字に一意の番号を与えたものを符号化文字集合(CCS:Coded Character Set)という。
欧米圏の8ビット文字コード規格のように、符号化文字集合をそのまま文字コードとして利用することも多いが、漢字圏など収録文字数の多い言語では各文字に割り当てられた符号をどのようなビット列で表現するかについて、いくつかの異なる方式を定めている場合があり、これを文字符号化方式(CES:Character Encoding Scheme/文字エンコーディング)という。
例えば、代表的な日本語の符号化文字集合の一つであるJIS X 0208規格に定められた符号をそのまま文字コードとしたものを区点コードというが、この文字集合を対象とする符号化方式としてJISコードやShift JISコード、日本語EUC(EUC-JP)などが定められており、同じ文字でも符号化方式によってそれぞれ異なったビット列で表現される。世界中の文字を収録したUnicodeでも、同じ文字集合に対してUTF-8、UTF-16、UTF-32など複数の異なる符号化方式が定義されている。
関連用語
文字コード用語辞典
- ⊖記号文字
- 括弧
- 鉤括弧
- 丸括弧
- 中括弧
- 大括弧
- 山括弧
- 隅付き括弧
- ギュメ
- 三点リーダー
- 中黒
- ビュレット
- 長音記号
- 波線
- ダッシュ
- エンダッシュ
- エムダッシュ
- 度記号
- プライム記号
- ダブルプライム
- 丸数字
- スペース
- NBSP
- 矢印
- 星印
- 丸印
- 三角記号
- 四角記号
- 等号
- ニアリーイコール
- ノットイコール
- 不等号
- 大なり記号
- 大なりイコール
- 小なり記号
- 小なりイコール
- プラス記号
- マイナス記号
- ハイフン
- ハイフンマイナス
- ドルマーク
- セント記号
- ユーロ記号
- 円マーク
- カンマ
- ピリオド
- コロン
- セミコロン
- スラッシュ
- アスタリスク
- アンパサンド
- アットマーク
- チルダ
- キャレット
- サーカムフレックス
- アンダーライン
- オーバーライン
- バーティカルバー
- アポストロフィ
- バックスラッシュ
- ナンバーサイン
- パーセント記号
- エクスクラメーションマーク
- クエスチョンマーク
- クォーテーションマーク
- シングルクォーテーション
- ダブルクォーテーション
- バッククォート
- ダイアクリティカルマーク
- 米印
- 組文字
- ダガー記号
- ダブルダガー記号
- 改行記号
- 段落記号
- 節記号
- 下駄記号
- 囲み文字
- 枡記号