アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

新しいAIきりたん!?NNSVSをちょっとだけ試してみた

NETRINOの衝撃からはや2ヶ月くらい、今度は山本りゅういちさんがディープラーニングベースの歌声合成の仕組みを作ってました

 Who is 山本りゅういち?

LINEのヤバい人です

主にやったことは、

・Paralel WaveGANという仕組みを使ってWavenetと同等、それ以上の品質を叩き出しながらWavenetより高品質

NVIDIAのWaveGlow論文内で「オープンソースで習得できるWavenetで1番品質高いのは山本りゅういちさん」と言及した

Mean Opinion Scores show that it delivers audio quality as good as the best publicly available WaveNet implementation

平均オピニオンスコアは、一般に公開されている最高のWaveNet実装と同等の音質を実現していることを示しています。

¥¥

nnmnkwii(ななみんカワイイ)の方

(こう見ると凄い🤔🤔🤔🤔って顔になるが、DNN音声合成用のプロトタイピングに物凄く使いやすい、HTSやMerinに似た仕組みとのこと)

 

・(恐らく)LINEのGatebox, Line Clovaの開発をあれこれやってる

 

使い方?

目次より「Synthesis」の次の「musicxmlを選ぶなんとか」みたいな項目をクリックしします

f:id:crimsonbutterfly0zero0:20200503125034j:plain

上のランタイムから、「より前のセルを実行」をクリックします。

f:id:crimsonbutterfly0zero0:20200503125212j:plain

ここのmusicxml/xx.xmlの数値をいじってどのXMLを使用するか決めます

※1きりたんの歌声DBに存在するXMLのみ使用可能です

※2自作のXMLを使用することは現時点では不可です

f:id:crimsonbutterfly0zero0:20200503125243j:plain

ランタイムから「以降のセルを実行」をクリックします

f:id:crimsonbutterfly0zero0:20200503125539j:plain

しばらくしたら一番下に合成結果が出てきます

f:id:crimsonbutterfly0zero0:20200503125605j:plain

感想

「なんか音程ガタガタしてない……?」って思いますけど、今までずっと話声合成やってて、急に歌声合成に手を出し始めたからというのはあると思います。

例えるなら、硬式テニスの天才が軟式テニスをやると最初のうちはあんまり上手くないみたいな感じです。

細かい所にきりたんの生声みが出てたり、音程以外に大きな破綻がないのでここから大きく化けそうです。

というわけで、今後の発展に期待したいところです!🤗🤗🤗🤗