アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

【新規歌声合成エンジン】マイクロソフトがまさかのAIシンガーに参入!?

 

まさかの新しい歌声合成エンジン!?

NEUTRINO, NT, SynthV R2, CeVIO Pro……大体の歌声合成の足並みが揃いかけたところで、また新しい歌声合成システムが発表されてしまいました!

 現在、新しい音声合成エンジンはリリースされていませんが、現在している歌手にはMicrosoft xiaoiceがいます。
一部のベータユーザーは作品をアップロードしています。こちらから視聴可能です。

f:id:crimsonbutterfly0zero0:20200603193830j:plain

な、なんだってー!?

 というか一部一般ユーザーが使ってるってどゆこと!?!?!?!?!?!

マイクロソフトの歌声合成

f:id:crimsonbutterfly0zero0:20200603193757p:plain

Xiaoice(シャオアイス/小氷)は、簡単に言うと「りんな」の中国語バージョンです。

 

仕組みはそこまで詳しく分かっていませんが、マイクロソフトの歌声合成のベースはHTSを使用しているので、この新規エンジンもベースはHTSを利用してると思われます。

※HTSは名古屋工業大学で開発している機械学習型の発話、歌声合成のベース。

SinsyやCeVIOの根幹技術にも使われている。

 

聞いてみた感想

今回新規で制作(?)された、何畅(HeChang/ホチャン)Xiaoice(シャオアイス/小氷)と違って可愛さより、歌い上げたときの凛々しさが際立っていると思います。

どっちかと言うとある程度歌が上手く、アーティストのような歌い方をするりんなのような雰囲気ですね。

 あと、ベースがHTSなのもあってCeVIOみが結構ある音声なのも特徴ですね、音色はどっちかというとCeVIO Proに近い気がします。

機能

現在、このソフトはピッチベンドなどのパラメータ実装されていないので、このデモはほぼ自動です。

どうやらソフトウェアのようですが、ピッチは実装されていないようです。

予想(妄想)

りんなに関しては歌声を合成する際、楽譜情報が必要無いらしいのですが、このエンジンはエディタ画面が無いのでどういった入力インターフェイスを備えているのかすごく気になります!

あとは、クラウドベースの合成になるのか、それともGPUを積んだパソコンで動くのかか……。

それ以外にも音素のタイミングなど入力機能は実装されるか……りんなで実験的に行っていた「歌に感情を適応する」仕組みはあるのか……謎は深まるばかり。

 

感想

マイクロソフトがAIシンガーに取り組んでるのは周知の事実でしたが、もしかしたらこれが一般人にも使えるかもしれない……と思うと非常にワクワクしますね!

あと男声音源があるのかも気になります!