読み方 : マンバ
Mamba
Mambaとは?
2023年にアルバート・グー(Albert Gu)とトリ・ダオ(Tri Dao)によって提案された深層学習のアーキテクチャ。文章や音声、時系列データといった連続するデータを効率よく処理することを目的としており、従来の主流技術であるTransformerの計算上の制約を克服する手法として注目を集めている。

AIが文章を解釈あるいは生成する際には、前後の文脈をどう保持するかが課題になる。Transformerはこれを「アテンション機構」によって解決してきたが、入力が長くなるほど計算量がその長さの2乗に比例して増大するため、長文処理が苦手である。メモリ消費量も大きく、計算資源が限られた環境では扱いにくいという難点がある。
Mambaはこの制約を克服するため、制御工学や信号処理の分野で以前から用いられてきた「状態空間モデル」(SSM:State-Space Model)を基盤に採用した。このモデルは、過去の入力情報を「状態」として保持しながら、新しい入力を受け取るたびにその状態を更新して出力を生成する仕組みになっている。計算量は系列の長さにほぼ線形で収まるため、長い入力でも処理しやすい。
Mambaが従来の状態空間モデルと異なる点は、「選択的状態空間」(Selective SSM)という機構にある。従来の状態空間モデルでは保持する情報のパターンが固定されていたが、Mambaでは入力の内容に応じて動的に変化する。重要な情報は長く保持し、不要な情報は早めに手放すという柔軟な処理により、Transformerのアテンション機構に近い精度を計算効率よく実現している。
実装面では、学習時には並列処理で速度を稼ぎ、推論時には状態をコンパクトに保ちながら逐次的に出力するという二面的な設計が採られている。この構造が、学習効率と実行時の低遅延を両立させている。自然言語処理だけでなく、音声認識、ゲノム解析、医療画像解析、時系列予測など、連続するデータを扱う多様な領域で応用されている。計算資源の節約と処理能力の向上を求める場面に適した手法である。