チャンク【chunk】

チャンクとは?

「塊」「断片」という意味の英単語で、大きなデータを分割して制御情報を付加したひとまとまりの断片のこと。データの保存や通信、処理などの際に長いデータを短い単位に区切ったものを指す。
チャンクのイメージ画像

一つのチャンクは、データ本体の先頭に、そのデータに関する情報(データ長や種類、識別子など)を付加した構造になっている。長大なデータや終わりの決まっていない連続したデータを、先頭から一定の長さや内容上の区切りに従ってチャンクに分割し、順番に処理する。画像や音声、動画などサイズの大きいバイナリデータの保存や送受信でよく用いられる形式である。

ファイル形式においてもチャンク単位で記録するものがある。画像形式のPNG、音声形式のWAVなどのフォーマットでは、ヘッダ情報データ本体、付帯情報などがそれぞれ独立したチャンクとして格納されており、ソフトウェアは必要なチャンクだけを選んで読み取ることができる。未知の形式のチャンクは読み飛ばすだけで処理を続けられるため、フォーマットの拡張にも対応しやすい。

通信では、データをチャンクに分割して順に送受信し、受信側で元のデータに組み立て直す方式が使われる。通信が途中で途切れても失敗したチャンクだけを再送すればよく、最初からやり直す必要がない。動画ストリーミングでは映像データをチャンク単位で受信しながら再生するため、全体のダウンロードを待たずに視聴を始められる。HTTPのチャンク転送方式のように、データサイズを事前に確定できない状況に対応するために用いられることもある。

プログラミングでは、大量のデータをチャンク単位で逐次読み込む手法がメモリ節約のために採用される。AI機械学習の分野では、処理できるトークン数に上限がある言語モデルへの入力のため、長い文書を適切な長さのチャンクに分割する操作が必要になる。大量の文書をチャンク単位で保存しておき、質問に関連する部分だけを取り出してモデルに渡す技術(RAG:Retrieval Augmented Generation)も普及している。

他の辞典等による「チャンク」の解説 (外部サイト)

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。