2002.10.2更新

UTF-8 【8-bit UCS Transformation Format】


読み方  
ユーティーエフエイト
分野  
文字コード / ソフトウェア

UCS-2UCS-4(Unicode)で定義される文字集合を用いて記述された文字列をバイト列(数値の列)に変換する方式の一つ。UTF-8では1文字を1〜6バイトの可変長の数値(バイト列)に変換するようになっているが、現在定義されているUnicode文字をUTF-8で表現した場合、最長で4バイトバイト列に変換される。

UTF-8では、Unicodeの最初の128文字(UCS-2でいうU+0000からU+007F)を変換した結果がASCIIとまったく同じになるため、従来の処理システムとの親和性が高いという特長がある。一方、日本語などの文字は元々2バイトだったものが3バイトや4バイトで表現されてしまうため、UTF-16と比べてデータサイズが大きくなってしまうという欠点がある。

ちなみに、UTF-16ではUCS-4を完全に表現することはできないが、理論上はUTF-8はUCS-4を完全に表現できる。


印刷用ページこのページを追加 / リストを消去
他の辞書・事典を検索
20100902
IT用語辞典 e-Words
トップページへ

さくいん
分野別辞典
パソコン
ディスプレイ
半導体
マイクロプロセッサ
x86プロセッサ
ストレージ
ハードディスク
家電
ソフトウェア
OS
Windows
ビジネスソフト
プログラミング
システム開発
情報システム
サーバ
ネットワーク
LAN
インターネット
Web
Web制作
Webサーバ
通信サービス
通信
携帯電話
携帯情報端末
セキュリティ
情報科学・工学

Copyright 1997- Incept Inc. All rights reserved.