10万時間のデータを学習し、10億パラメータを持つ音声合成モデル「BASE TTS」を構築米Amazon

イメージ画像

米Amazonは、テキストデータを読み上げるための音声合成技術、「text-to-speech（TTS）」の分野で、新しいモデルを発表した。この技術を同社は「BASE TTS：Big Adaptive Streamable TTS with Emergent abilities」と呼び、2024年2月12日にプレプリントサーバー『arXiv』に論文が掲載された。

論文のアブストラクトでは、BASE TTSの特徴について、10万時間に及ぶパブリックドメインの音声データを学習した、過去最大のTTSモデルだと説明している。また、音声の自然さは最先端のレベルだと主張している。

BASE TTSの機能は、テキストを「スピーチコード（speechcodes）」という離散的コードに変換するための、10億パラメータをもつ「自己回帰Transformer」と、スピーチコードを逐次的なストリーミング処理によって音声波形に変換する、「畳み込みデコーダ」で構成する。

このスピーチコードの生成には、新しい「音声トークン化技術」を使用している。このしくみは、話者を識別するIDの切り離しと、バイトペアエンコーディング（Byte-pair encoding）による圧縮が特徴だ。

近年のAI分野の研究では、大規模言語モデルを大量のデータで学習させた結果、訓練データに明示されていない新たなタスクや問題解決能力が形成される現象があり、これが「創発的能力（emergent abilities）」として知られている。

この現象に関連して、同論文の研究者らは、BASE TTSについても1万時間以上をかけて5億（500M）以上のパラメータで構築した結果、複雑なテキスト文に対して自然な韻律を示していると主張している。

10万時間のデータを学習し、10億パラメータを持つ音声合成モデル「BASE TTS」を構築　米Amazon