21言語のニューラル音声合成技術を開発――オフラインのスマートフォンでも高速動作が可能情報通信研究機構

情報通信研究機構（NICT）は2024年6月25日、21言語のニューラル音声合成技術を開発したと発表した。オフラインのスマートフォン上でも高速動作できる。

テキスト音声合成の音質は、ニューラルネット技術により近年飛躍的に向上しており、肉声に匹敵するレベルに到達しつつある。

一方で、音声合成技術では膨大な計算量が必要となるため、オフラインのスマートフォンでは使用できない点が課題となっていた。

また、同時通訳では話者の発話が終わる前に翻訳音声を出力する必要がある。このため、音声認識や機械翻訳と同じく、テキスト音声合成の高速化が求められていた。

今回NICTが開発したテキスト音声合成モデルは、入力テキストを中間特徴量に変換する「音響モデル」と、中間特徴量を音声波形に変換する「波形生成モデル」で構成される。

今回開発したニューラル音声合成モデルの模式図

音響モデルには、ConvNeXt型エンコーダーおよびConvNeXt型デコーダーを用いたニューラルネットを導入。同発表によると、既存の方式と比べて同品質で3倍高速化したという。

また、波形生成モデルには、NICTが2023年に開発した「MS-FC-HiFi-GAN」を用いた。肉声に匹敵する音声を合成できる既存の波形生成モデル「HiFi-GAN」と比べて、同品質での合成速度が4倍に達している。

これらの技術を採用したことにより、単一のCPUコアで1秒の音声を0.1秒で合成可能となった。同発表によると、従来のモデルの約8倍の速さだという。

さらに、波形生成モデルのみを逐次合成する方式を実装。オフラインのミドルレンジスマートフォン上で、テキスト入力から0.5秒での生成が可能となった。

ミドルレンジスマートフォンに実装した音声合成モデル

サーバーを介した合成が不要となるため、スマートフォンやPCなどにおいて、通信コストを抑えたニューラル音声合成が可能となる。

また、逐次合成処理により、多言語同時通訳において即座に翻訳テキストの合成が可能となった。

同モデルは、NICTが運用しているスマートフォン向けの多言語音声翻訳アプリ「VoiceTra」に2024年3月より実装され、一般公開されている。

NICTは今後、商用ライセンスを通じて、多言語音声翻訳やカーナビといったスマートフォンアプリなどへの実装を図る。

21言語のニューラル音声合成技術を開発――オフラインのスマートフォンでも高速動作が可能　情報通信研究機構