アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

DNN以上の高品質音声合成!?新技術NESを利用したClova Voiceの破壊力!

目次

 

LINEの親会社、NAVERがこれまた凄い音声合成システムが発表しました

その名も「NES(Natural End-to-End Speech Synthesis)」です!

(日本語に翻訳するなら「端から端まで自然な発話合成」)

取り敢えず、早速どういう感じの音声なのか聞いてみましょう

※Clova Voiceにより出力

 

どうでしょう!?後半の韓国語は「意味ワカンネ」って感じだとは思いますが、前半の日本語は「韓国語訛りの日本語が波形に破綻なく合成できてる」感じがしませんか?

それだけではなく「普通」「喜び」「悲しみ」といった3つの音色を利用できます!

Clova Voiceの凄いところ

①サンプル時間がものすごく短い!

品質だけを比較するならば、Wavenetや機械学習系の発話合成の方が細かい部分は勝ってるかもしれません(特にClova Voiceは悲しみの息成分が微妙)

ただ、Clova Voiceは「ネイバー独自のspeaker adaptation(話者適応)技法を使用して、約40分レベルの音声録音だけで、高品質の音声合成製作が可能」とのことです。

※話者適応……多人数の収録を基に「平均声」を作成し、目標とする声質に寄せていくタイプの音声合成

そう、40分程度の収録でここまでのクォリティが出せるのです!

②新技術!「NES

実のところ、NAVERはDNN(深層学習)には昔から手を出しています

例えば、LINEの「クローバースマートスピーカー」などに使われているのは「HDTS(High-quality DNN Text-to-Speech)」というDNNの発展版らしいです。

これは公式サイトによると「特定の分野に必要な声の特性を生かし、最高品質の
合成音を作る技法」と書かれており、恐らく「スマートスピーカー」としての機能が生かせる範囲で重点的な収録を行ったものと思われます。

 

一方で「NES」は「分野での制約なしに短い録音時間で人に近い自然な声を製作し、提供することができます」とあります。

それ以外にも、「リアルタイムの音声生成が可能なNeural Vocoder」や、Clovaの技術を利用した「感情を反映した音声合成機」などの技術を組み合わせてあの様なリアルな音声を生み出しているようです。

③様々なスタイルの音声が利用可能!

このサイトで一般ユーザーが使えるのは「喜び」「悲しみ」を含めた3種類の声質ですが、それ以外にも

  • 「寝る前の読み聞かせに最適な優しい声」
  • 「ニュースの読み上げに最適な硬い声」
  • 「砕けた友達の声」
  • 「淡白な一般人の声」

などが提供される予定とのことです!(※有償サービス版)

④有償サービス版がめっちゃ安い!

有償版は非ログイン型でのAPIを提供していて、動画ダビング、朗読、音声案内、ニュースサービス...etcでの「高音質の音声が必要な事例全般」での使用を想定しているそうです。

今の所提供が可能なのは韓国語の女性のみ&1回毎200文字が上限ですが、1回/5ウォン(訳0.5円)とめちゃくちゃ安いです!

ちなみに、様々なオプションをつけることも、アプリ毎に1日最大500万回まで呼び出し上限を設けることができるそうです。(500万回以上については別途相談可能)

⑤ウェブでのデモ音声は無料で使用可能!

なんとこの音声、無料で利用できちゃいます!

(韓国語訛りの日本語読み上げ音声の使い道があるかは置いとくとして)

  • Clova Voiceの合成音は、個人的なコンテンツ制作の目的に限って無料使用が可能です。企業や団体での使用のためには、アフィリエイト提案申し込みにお問合せください。
  • Clova Voiceの合成音の使用時にクレジット(Clova Voice)の明記が求められます。
  • Clova Voiceを使用して、違法な内容または反社会的な内容(名誉毀損的内容、わいせつな内容、悪口などの暴力的な内容、性差別的な内容など)の合成音を生成をしてはならず、そのように使用したことが確認された場合、今後の利用に制裁を受けることがあります。

というわけで、ルールを守って楽しく使いましょうね!

 

Clova Voiceに対するQ&A


클로바 보이스 | NES 제작기 (full ver.)

①Q:どうしてClova Voiceを作ったの?

A:病院や地下鉄などで色んな音声が使われているがその利用には費用と時間がかかる。

音声合成用のデータを作成するとしても既存技術では40~100時間の収録が必要だったのでそれを減らすための技術を開発したかった

②Q:NESの定義は?

A:Natural End-to-End Speech Synthesisの略。

40分で400の文章を読み上げることで肉声に一番近い音声を生成できます。

この技術で時間と費用を画期的に減らした、音声サービス開発やビジネスの大きな助けになった。

③Q:これからの目標は?

今は400文を読み上げないといけないけど、これから先は100文、最終的に1文で済ませられる音声合成器を作るのが目標。

英語や中国語などの言語拡張も行って行く予定。

あと、短い録音で自分だけの「ボイスフォント」を作れるようになると思う。

 

今後のビジネスについて

Clova Voiceは今ビジネスパートナーを募集しており、ソリューション、技術購入のお問い合わせや、これを活用した新しいビジネスサービスの提供を待っているとのことです。

今の段階で日本語や英語の音声合成をやってくれるかはわかりませんが、NESを使った音声合成に興味がある企業さんがいたら問い合わせてみるのも悪くないかもしれません。

 

余談ですが、Clova Voiceの使用例には以下のようなものが挙げられています

f:id:crimsonbutterfly0zero0:20191125230226p:plain

  • 企業の声:その会社だけの特色のある声で会社紹介、広告、売り場案内など、様々に活用してみてください
  • 音声予約サービス:反復的で即時的な顧客対応が必要な場面にて、自然で親切丁寧な音声を活用してみてください
  • オーディオコンテンツ:自然な音声で、人間が録音するのよりも簡単にオーディオコンテンツを制作してみて下さい
  • 音声チャットボット
  • 外国語辞書
  • 朗読
  • 動画の吹き替え
  • ゲームキャラの音声(!?)
  • 美術館オーディオガイド

 

感想

日本語でイケボの男性Clova Voice出ないかなぁ~