新しいAIきりたん!?NNSVSをちょっとだけ試してみた
NETRINOの衝撃からはや2ヶ月くらい、今度は山本りゅういちさんがディープラーニングベースの歌声合成の仕組みを作ってました
ちなみにNNSVSは「Neural Network-based Singing Voice Synthesis/ニューラルネットワーク基盤の歌声合成」の略です
I have created a simple demo for singing voice synthesis (Japanese).
— 山本りゅういち / Ryuichi Yamamoto (@r9y9) 2020年5月3日
Pre-rendered notebook: https://t.co/E5gfG0t5UY
Google colab: https://t.co/LBE8VFZLvq
Enjoy 😊
Who is 山本りゅういち?
LINEのヤバい人です
主にやったことは、
・Paralel WaveGANという仕組みを使ってWavenetと同等、それ以上の品質を叩き出しながらWavenetより高品質
・NVIDIAのWaveGlow論文内で「オープンソースで習得できるWavenetで1番品質高いのは山本りゅういちさん」と言及した
Mean Opinion Scores show that it delivers audio quality as good as the best publicly available WaveNet implementation
平均オピニオンスコアは、一般に公開されている最高のWaveNet実装と同等の音質を実現していることを示しています。
nnmnkwii(ななみんカワイイ)の方
(こう見ると凄い🤔🤔🤔🤔って顔になるが、DNN音声合成用のプロトタイピングに物凄く使いやすい、HTSやMerinに似た仕組みとのこと)
・(恐らく)LINEのGatebox, Line Clovaの開発をあれこれやってる
使い方?
目次より「Synthesis」の次の「musicxmlを選ぶなんとか」みたいな項目をクリックしします
上のランタイムから、「より前のセルを実行」をクリックします。
ここのmusicxml/xx.xmlの数値をいじってどのXMLを使用するか決めます
※1きりたんの歌声DBに存在するXMLのみ使用可能です
※2自作のXMLを使用することは現時点では不可です
ランタイムから「以降のセルを実行」をクリックします
しばらくしたら一番下に合成結果が出てきます
感想
「なんか音程ガタガタしてない……?」って思いますけど、今までずっと話声合成やってて、急に歌声合成に手を出し始めたからというのはあると思います。
例えるなら、硬式テニスの天才が軟式テニスをやると最初のうちはあんまり上手くないみたいな……。
とはいえ、細かい所にきりたんの生声みが出てたり、音程以外に大きな破綻がないのでここから大きく化けそうです。
というわけで、今後の発展に期待です!🤗🤗🤗🤗