OpenAI 、15秒の音声サンプルから音声を生成できる新技術「Voice Engine」を発表

OpenAIは2024年3月29日、テキスト入力と15秒の音声サンプルから、サンプルの話者によく似た自然な音声を生成できる、音声生成AIモデル「Voice Engine」を発表した。

OpenAIは2022年後半からVoice Engineを開発し、2023年末から少人数のパートナーたちと非公開でテストを開始した。初期の例として、本を読まない人たちや子供たち向けの読書支援、動画やポッドキャストといったコンテンツの多言語翻訳が挙げられている。これらはデジタル教育教材を作成しているAge of Learningと、動画生成AIツールのHeyGenでの導入事例だ。

必要なサービスが行き届かないアフリカ東部などの遠隔地向けのツールもある。Dimagiは、地域保健ワーカー向けに、授乳中の母親へのカウンセリングといったさまざまな必須のサービスを提供するツールを構築した。

さらに、発話に影響を与える疾患を持つ人向けの治療アプリケーションや、学習ニーズのある人向けの教育の強化など、言語を話すことができない人々のサポートにもVoice Engineは利用されている。突発性または退行性の音声障害に苦しむ患者の声の回復を支援する、臨床現場での試験も行われた。

一方で、OpenAIは合成音声が悪用されるリスクがあることについても言及している。現在Voice Engineをテストしているパートナーは、同意または法的権利なしに他の個人、または組織になりすますことを禁止する使用ポリシーに同意しているという。また、視聴者に対し、音声がAIによって生成されたものだと明確に開示しなければならない。

OpenAIは、Voice Engineによって生成されたすべての音声の出所を追跡するための電子透かしや、どのように音声が使用されているかの積極的監視など、安全対策を実装している。また、現時点ではこの技術を広く公開はしないとし、ソーシャルレジリエンス（社会的回復力）を高める必要性にも言及した。

OpenAI 、15秒の音声サンプルから音声を生成できる新技術「Voice Engine」を発表