ChatGPTの基盤技術Transformerを処理性能で5倍上回る、AIアルゴリズム「Mamba」

新たなAIアルゴリズム「Mamba」の開発成果とされる論文が、2023年12月1日、プレプリントサーバー「arXiv」に掲載された。論文は、Mambaの性能について、ChatGPTを駆動するLLM(大規模言語モデル)の「Transformer」より5倍高速だと主張している。

Transformerは、生成AIチャットボットの基盤技術であり、用途の広い深層学習モデルだ。ただし、Transformerには、入力データ(シーケンス)が長い場合に計算の効率が低下するという弱点があった。

Mambaの技術的な特徴は、構造化された状態空間モデル(SSM)を改良したことで、モデルのパラメータを、入力データに合わせて動的に調整する能力だ。これにより、データの重要な部分の処理に集中し、不要な情報は無視できる。

論文は、Mambaのスループット(推論速度)が、Transformerより5倍高速だと説明している。処理時間でいえば、入力データの長さに比例するリニアスケーリングを達成しており、非常に長い入力に対しても、現実的な時間内に処理を完了する。実際、最大100万トークンのシーケンスを持つ実データで、性能の向上が確認された。

Mambaは、言語、音声、ゲノム解析など、様々なモダリティ(情報種別)に対して、最先端の性能を達成していると著者らは主張している。

「Mamba-3B」モデルは事前学習と下流評価の双方において、2倍の規模のTransformerの性能に匹敵すると、論文は説明している。

関連情報

Mamba: Linear-Time Sequence Modeling with Selective State Spaces
GitHub – state-spaces/mamba

関連記事

アーカイブ

fabcross
meitec
next
メルマガ登録
ページ上部へ戻る