ChatGPTの基盤技術Transformerを処理性能で5倍上回る、AIアルゴリズム「Mamba」

新たなAIアルゴリズム「Mamba」の開発成果とされる論文が、2023年12月1日、プレプリントサーバー「arXiv」に掲載された。論文は、Mambaの性能について、ChatGPTを駆動するLLM（大規模言語モデル）の「Transformer」より5倍高速だと主張している。

Transformerは、生成AIチャットボットの基盤技術であり、用途の広い深層学習モデルだ。ただし、Transformerには、入力データ（シーケンス）が長い場合に計算の効率が低下するという弱点があった。

Mambaの技術的な特徴は、構造化された状態空間モデル（SSM）を改良したことで、モデルのパラメータを、入力データに合わせて動的に調整する能力だ。これにより、データの重要な部分の処理に集中し、不要な情報は無視できる。

論文は、Mambaのスループット（推論速度）が、Transformerより5倍高速だと説明している。処理時間でいえば、入力データの長さに比例するリニアスケーリングを達成しており、非常に長い入力に対しても、現実的な時間内に処理を完了する。実際、最大100万トークンのシーケンスを持つ実データで、性能の向上が確認された。

Mambaは、言語、音声、ゲノム解析など、様々なモダリティ（情報種別）に対して、最先端の性能を達成していると著者らは主張している。

「Mamba-3B」モデルは事前学習と下流評価の双方において、2倍の規模のTransformerの性能に匹敵すると、論文は説明している。

ChatGPTの基盤技術Transformerを処理性能で5倍上回る、AIアルゴリズム「Mamba」