アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

SynthV AI 第3世代の問題点

タイトルだけ見ると、なんだかものすごいSynthVに問題があるような印象を受けますが、SynthVは歌声合成ソフトの中では(AI系に限定したとしても)非常に優秀な部類に入ると思います。

私としてはSynthVのファンですので、これはあくまでアンチではなくて問題提起の1つだと思ってもらえれば幸いです。

 

SynthV AI 第3世代の威力

もう既にご存じの方もいらっしゃると思いますが、第3世代のデモ動画を貼っておきますので、一度ご覧いただけると幸いです。

基本的には「非常に素晴らしい」の一言に尽きます。

youtu.be

何が問題なのか?

問題その1

お聴きいただければ分かると思いますが、動画でも出ているように高域の解像度が上がっています。(26秒あたり)

逆にそのせいで第2世代では分かりづらかった「高域のチリチリノイズ感」が出てしまっています。

先程ちょうど第3世代の弦巻マキさんの動画を出してきたのですが、高域のチリチリ感の処理をどうするか頭を悩ませていました。

(息成分の分離を試しては見ましたが、それらを合わせると結局チリチリ感が向上してしまったり……)

問題その2

SynthV AIの出力音声はピッチ情報を取り込み、そしてそれを参照して音声をAIで合成します。(SinsyやCeVIO AIはノート依存)

逆に言うと、声質が完全にピッチ依存になってしまいます。

これの何が悪いか説明するために、とりあえずこちらをお聴きください。

youtu.be

ピッチの描き方で完全に声質が変化しているのが分かると思います。

つまり……

ダイナミックなピッチを描く→強い声質

平坦なピッチを描く→弱い声質

という現象が発生しています。

 

第2世代までは比較的シンプルで、音高が高いと強く低いと弱くなる傾向がありました。なのでパラメータで高くて強い音をテンションで弱くしたり、低い音をトーンシフトで上げて強くしたり、色々と方法があったわけです。

 

第3世代の一番の問題点は「自動ピッチ調整機能がダイナミックなピッチを描くことが殆どないので調整なしではAI音源は基本的に弱い声質になってしまう。」という点です。

今までのSynthVは調声しなくとも結構良い感じの歌声が出力できたという点ですが、第3世代はそういう人にとってはやや微妙のアップデートになったかもしれません。

 

自分の思い描いた完成図がある場合、それに限りなく近づけるようになったかもしれませんが、個人的には70点を90/100点に近づける構図から60点を90/500点に近づけるような感じになった気がします。

解決策

解像度を上げたことによるチリチリノイズ感はDreamtonicsさんがなんとかしてくれると思うのでとりあえず保留にします。

ピッチに関する解決策は、ピッチ調整をそのキャラクター固有のもの以外にも「ポップス」「バラード」「ロック」みたいなジャンルごとにピッチモデルを作成すればいいと思います。

ポップスやロックは強い歌い方をする場合が多いので、ピッチを良い感じに描いてくれる可能性が高いです。

あるいは、楽曲の中で「激しい/普通/優しい」歌い方をするパートごとに分けてそれぞれを個別で学習すれば「ここ強く歌って欲しいな」と思ったときに「スタイル:激しい」を適応することで良い感じに歌ってくれるようになると思います。

 

感想

第3世代がめっちゃ早く出てきたんだし、第4世代もそのうち出てきそう。