有望技術紹介

109 スマホ上でも高速動作する高品質ニューラル音声合成技術

情報通信研究機構(NICT):
CPUコアひとつで1秒の音声を0.1秒で高速合成するニューラル音声合成技術を開発した。既存モデルの約8倍の速度になる。

【本技術の概要】

 国立研究開発法人情報通信研究機構(NICT)のユニバーサルコミュニケーション研究所において、高品質かつ高速に動作する21言語のニューラル音声合成技術の開発に成功した。本技術は、CPUコアひとつで1秒の音声をわずか0.1秒で高速合成(既存モデルの約8倍の速さ)することが可能となった。また、ネットワークに接続されていないスマートフォン端末でも、テキスト入力からわずか0.5秒の高速生成が可能となった。
 開発した21言語の音声合成モデルは、NICTが運用しているスマートフォン用の多言語音声翻訳アプリVoiceTraのサーバに搭載され、一般公開されている。今後は、商用ライセンス等を通じて多言語音声翻訳やカーナビなどの音声アプリケーションへの導入が期待される。
 なお、本成果は、2024年9月に、International Speech Communication Association (ISCA)が主催する国際会議INTERSPEECH 2024のShow & Tellにて発表された。

【技術成果】
 テキスト音声合成モデルは、入力テキストを中間特徴量へと変換する「音響モデル」と、中間特徴量を音声波形へと変換する「波形生成モデル」から構成される。ニューラル音声合成の「音響モデル」では、機械翻訳の分野や、音声認識やChatGPT を始めとする大規模言語モデル等にも幅広く使われているニューラルネット(Transformer 型エンコーダ+Transformer 型デコーダ)が主流だったが、近年画像識別の分野で使われ始めた高速・高性能なニューラルネット(ConvNeXt 型エンコーダ+ConvNeXt 型デコーダ)を音響モデルに導入し、従来方式と比較して、品質を損なわず3倍の高速化を達成した。また、肉声に匹敵する音声を合成可能な従来の「波形生成モデル」(HiFi-GAN)を発展させる形で、信号処理方式を学習可能なニューラルネットとして表現するモデル(MS-HiFi-GAN)を2021 年に導入し、合成品質を損なわず合成速度を2倍にすることに成功した
 そして、2023 年には同モデル(MS-HiFi-GAN)を更に高速化するモデル(MS-FC-HiFi-GAN)の開発に成功し、従来方式(HiFi-GAN)と比較して、品質を損なわず合成速度を4倍にすることを実現した。
 これらの成果の集大成として、上記で開発した「音響モデル(Transformer 型エンコーダ+ConvNeXt 型デコーダ)」と「波形生成モデル(MS-FC-HiFi-GAN)」を用いた新しい高速・高品質なニューラル音声合成モデルを開発した。これにより、CPUコアひとつで1秒の音声をわずか0.1 秒で高速合成することが可能となった。これは、既存モデルの約8倍の速さである。

Screenshot

 さらに、「波形生成モデル」のみを逐次合成する方式を実装することで、合成品質を損ねることなく、ネットワークに接続されていないミドルレンジスマートフォン端末上でも、テキスト入力からわずか0.5秒の高速生成が可能となった。これにより、これまでのサーバ経由での合成が不要となり、インターネット通信を必要とせず、通信コストを抑えたスマートフォンやPC等での高品質ニューラル音声合成が可能となる。また、逐次合成処理により、多言語同時通訳においても翻訳テキストを即座に合成することが可能となった。2024年3月から、VoiceTraの21 言語の音声には、この音声合成技術が用いられ、一般公開されている。

Screenshot

【今後の展開】
 今後は、商用ライセンスを通して、多言語音声翻訳やカーナビゲーションを始めとするスマートフォンアプリケーション等への社会実装を行う。


PDFのダウンロード(詳細説明と問合せ先)

関連記事

TOP