読み方 : シークツーシーク
Seq2Seq
概要

多くのモデルに共通する基本的な構造として、「エンコーダ」と「デコーダ」という二つのリカレントニューラルネットワーク(RNN)を組み合わせた構成となっている。エンコーダは入力系列を順に処理し、系列全体の情報を内部状態として表現する。デコーダはその内部状態を受け取り、出力系列を一要素ずつ生成する。
例えば、日本語を英語に翻訳するモデルでは、エンコーダが日本語の意味を理解してベクトル化し、デコーダがそのベクトルから対応する英語の単語を順次生成することで、文全体を翻訳することができる。このような仕組みは、入力と出力が共に系列データである対話生成(問いや依頼→応答)、文章要約(長文→要約文)、音声認識(音声データ→発話文)など様々なタスクに適用することができる。
初期の単純なSeq2Seqでは、入力系列が長くなると情報が内部状態に圧縮されすぎ、性能が低下するという課題があった。この問題に対処するために導入されたのが「Attention」(注意機構)である。これはデコーダが出力を生成する各時点で、入力系列のどの部分に注目すべきかを重みとして計算する仕組みで、長い系列であっても必要な情報を直接参照でき、翻訳品質や生成精度が大きく向上した。