チャンク【chunk】

一つのチャンクは、データ本体の先頭に、そのデータに関する情報(データ長や種類、識別子など)を付加した構造になっている。長大なデータや終わりの決まっていない連続したデータを、先頭から一定の長さや内容上の区切りに従ってチャンクに分割し、順番に処理する。画像や音声、動画などサイズの大きいバイナリデータの保存や送受信でよく用いられる形式である。
ファイル形式においてもチャンク単位で記録するものがある。画像形式のPNG、音声形式のWAVなどのフォーマットでは、ヘッダ情報、データ本体、付帯情報などがそれぞれ独立したチャンクとして格納されており、ソフトウェアは必要なチャンクだけを選んで読み取ることができる。未知の形式のチャンクは読み飛ばすだけで処理を続けられるため、フォーマットの拡張にも対応しやすい。
通信では、データをチャンクに分割して順に送受信し、受信側で元のデータに組み立て直す方式が使われる。通信が途中で途切れても失敗したチャンクだけを再送すればよく、最初からやり直す必要がない。動画ストリーミングでは映像データをチャンク単位で受信しながら再生するため、全体のダウンロードを待たずに視聴を始められる。HTTPのチャンク転送方式のように、データサイズを事前に確定できない状況に対応するために用いられることもある。
プログラミングでは、大量のデータをチャンク単位で逐次読み込む手法がメモリ節約のために採用される。AI・機械学習の分野では、処理できるトークン数に上限がある言語モデルへの入力のため、長い文書を適切な長さのチャンクに分割する操作が必要になる。大量の文書をチャンク単位で保存しておき、質問に関連する部分だけを取り出してモデルに渡す技術(RAG:Retrieval Augmented Generation)も普及している。