読み方 : けいれつデータ
系列データ【sequence data】シーケンスデータ
系列データとは?

代表的な例として自然言語の文章がある。文章は単語が特定の順序で並ぶことで意味をなしており、語順を変えると意味が変わったり、文として成立しなくなる。音声データや動画データも時間の経過に沿って連続的に変化する系列データである。企業の売上推移、株価の変動、気温の観測値など、一定の時間間隔で記録された数値の集まりである時系列データも該当する。
文脈によっては時系列データを意味することもあるが、時系列データが時刻を軸とする系列に限定されるのに対し、系列データは時間軸を持たない順序付きデータも含む、より広い概念である。例えば、自然言語の文章やプログラミング言語で書かれたプログラムコード、DNSの塩基配列、タンパク質のアミノ酸配列などは時間経過に依存しない系列データである。
系列データでは要素間に依存関係があるため、前後の文脈を考慮した処理が求められる。ニューラルネットワークで扱う場合、一般的な構造のネットワークでは各データが独立して入力されることを前提としており、前後の関係を考慮することが難しい。このため、過去の入力を記憶して次の処理に反映できる「リカレントニューラルネットワーク」(RNN)や、系列内の離れた位置にある要素間の関連性を捉えられる「Transformer」といった構造が考案され、解析や予測の精度が大きく向上した。
これらの技術を基盤として、大量のテキストデータを学習して様々な自然言語処理を扱うことができる「大規模言語モデル」(LLM)、ある言語から別の言語へ変換するニューラル機械翻訳、音声を文字に起こす音声認識、過去の推移から将来の数値を予測する需要予測など、様々な用途で系列データの処理技術が実用化されている。