読み方 : けいれつデータ

系列データ【sequence data】シーケンスデータ

系列データとは?

複数の要素が特定の順序で一列に並んだデータ列のこと。個々の要素の値だけでなく、要素が並ぶ順序や前後の関係にも意味があり、順番を入れ替えるとデータが持つ意味や文脈が失われる。文章、音声、動画などのデータが該当する。
系列データのイメージ画像

代表的な例として自然言語の文章がある。文章は単語が特定の順序で並ぶことで意味をなしており、語順を変えると意味が変わったり、文として成立しなくなる。音声データや動画データも時間の経過に沿って連続的に変化する系列データである。企業の売上推移、株価の変動、気温の観測値など、一定の時間間隔で記録された数値の集まりである時系列データも該当する。

文脈によっては時系列データを意味することもあるが、時系列データが時刻を軸とする系列に限定されるのに対し、系列データは時間軸を持たない順序付きデータも含む、より広い概念である。例えば、自然言語の文章やプログラミング言語で書かれたプログラムコード、DNSの塩基配列、タンパク質のアミノ酸配列などは時間経過に依存しない系列データである。

系列データでは要素間に依存関係があるため、前後の文脈を考慮した処理が求められる。ニューラルネットワークで扱う場合、一般的な構造のネットワークでは各データが独立して入力されることを前提としており、前後の関係を考慮することが難しい。このため、過去の入力を記憶して次の処理に反映できる「リカレントニューラルネットワーク」(RNN)や、系列内の離れた位置にある要素間の関連性を捉えられる「Transformer」といった構造が考案され、解析や予測の精度が大きく向上した。

これらの技術を基盤として、大量のテキストデータを学習して様々な自然言語処理を扱うことができる「大規模言語モデル」(LLM)、ある言語から別の言語へ変換するニューラル機械翻訳、音声を文字に起こす音声認識、過去の推移から将来の数値を予測する需要予測など、様々な用途で系列データの処理技術が実用化されている。

この記事の著者 : (株)インセプト IT用語辞典 e-Words 編集部
1997年8月より「IT用語辞典 e-Words」を執筆・編集しています。累計公開記事数は1万ページ以上、累計サイト訪問者数は1億人以上です。学術論文や官公庁の資料などへも多数の記事が引用・参照されています。