読み方 : エルエスティーエム
LSTM【Long Short Term Memory】長・短期記憶
概要

RNNには、出力を次の入力へフィードバックするループ構造が組み込まれており、単語が順番に入力されてくる文章のような系列データ、時間経過に従って少しずつ変化する音声や動画のような時系列データを扱う際に、現在の入力だけでなく直前の状態や文脈を反映した処理が可能となる。
しかし、初期のRNNは同じノードを通過する時系列のデータが同じ重みを共有するため、系列が長いと過去に遡るにつれて重みの更新に用いられる誤差の微分値(勾配)が減衰してしまう勾配消失問題が起きやすい。また、過去のデータの現在の重要性と将来の重要性が異なる場合に重みを決定できない「重み衝突」という時系列データ固有の問題も生じる。
LSTMでは、この問題に対処するため回帰結合層をLSTMユニットと呼ばれる単位で構成する。これは記憶セル、入力ゲート、出力ゲート、忘却ゲートという4つの要素を組み合わせた構造で、セルに記憶された情報、過去の出力からのフィードバック(隠れ状態)、現在の入力の3つの値から出力を計算する。セルへの情報の記録は入力ゲートが、情報の読み出しは出力ゲートが、消去は忘却ゲートがそれぞれ制御する。
各ゲートとセルの入力にはそれぞれ重みが設定されており、学習を通じて、いつ何を記憶し、いつ忘れるべきかを適切に制御するようになる。長期的な文脈を保持できるようになり、長い文章などを扱っても離れた位置にある単語同士の関係性を適切に判断できる。ただし、通常のノードの何倍もパラメータが多く学習コストが高いため、構造を簡略化した「GRU」(Gated Recurrent Unit)などの手法も開発されている。
(2025.12.9更新)