米マイクロソフト、3秒で声を真似できる音声合成AI「VALL-E」を発表

米マイクロソフトは2023年1月5日、3秒の音声データから話し手の声を学習し、その声でテキストを読み上げることができる言語モデル「VALL-E」をgithubで発表した。

従来の音声合成では、音素からメルスペクトログラム、そして音声波形、というステップを踏んでいた。それに対しVALL-Eでは、音素から離散コード、そして音声波形という流れになっている。音素と音響コードプロンプトに基づいて、対象となるコンテンツと話者の声に一致する離散音声コーデックコードを生成する。

VALL-Eでは、テキスト音声合成(TTS: Text to Speach)を従来のような連続信号回帰ではなく、条件付きの言語モデリングタスクとして捉える点が特徴だ。また、既存のシステムの数百倍にあたる6万時間もの英語音声を学習データとしている。

その結果、最先端のゼロショット(機械学習で、学習していないものを識別あるいは予想などすること)TTSシステムと比較しても、話し方が自然で、話者と非常によく似た声が生成できる。また、話者の感情や音響プロンプトの環境も保持して合成が可能だ。

VALL-Eは、ゼロショットTTS、音声編集、GPT-3などの他のジェネレ―ティブAIモデルと組み合わせたコンテンツ作成など、さまざまな音声合成アプリケーションを可能にする。

研究チームは、VALL-Eの性能の高さゆえに、音声識別を騙したり、特定の話者になりすますなど、モデルの悪用による潜在的なリスクがあることにも触れている。「実世界の見知らぬ話者に対してモデルを一般化するのであれば、話者が自分の音声と合成音声検出モデルの利用に同意することを保証するためのプロトコルが必要だ」という。

関連情報

VALL-E

関連記事

アーカイブ

fabcross
meitec
next
メルマガ登録
ページ上部へ戻る