2020-06-04

「初音ミクNT」の機能・仕様を解説してみる

クリプトンNT

１パラメータ編
NT Parameters
２UI編
３挙動編
４おまけ
- VOCALOIDトラック
感想

f:id:crimsonbutterfly0zero0:20200604205800p:plain

１パラメータ編

NT Parameters

NTにて新規実装されたパラメータです。

Note Gain

ノートごとのゲイン(≒音量)を増減できるパラメータです。

f:id:crimsonbutterfly0zero0:20200605150131g:plain

0%にした場合、前後の音のフェードイン/アウトはそのままで、該当する音の音量が限りなく0に近くなります

(語頭だと稀に子音が残る)

f:id:crimsonbutterfly0zero0:20200604210641p:plain

Note Gainについては音質にそこまで関与しないように思われます。

f:id:crimsonbutterfly0zero0:20200605192218p:plain

Consonant Rate

子音の長さを調整する値です。

本来の子音の長さの0.1~3倍の範囲で伸縮できます。

f:id:crimsonbutterfly0zero0:20200605150826g:plain

子音の長さが長すぎると前のノートの母音を侵食します。

なお、波形が表示される部分の緑色のバーはおおまかに「子音の開始位置」を表しています。(厳密に言うとAttack Speedが100の時のみ)

f:id:crimsonbutterfly0zero0:20200604211150p:plain

このバーに関しては、波形のレンダリング(後述)をオフにしても表示され続けるので、子音の大まかな位置が分かりやすく表示されます。

Attack Speed

母音のアタックスピードを調整できるパラメータです。

(厳密に言うとVCやVV接続部分の遷移時間を変更させてる可能性？)

「fast」に寄せると立ち上がりが早く、「slow」で遅くなります。

①語頭・語中の場合

f:id:crimsonbutterfly0zero0:20200605151621g:plain

②母音を連続した場合

f:id:crimsonbutterfly0zero0:20200605152504g:plain

③語尾の場合

f:id:crimsonbutterfly0zero0:20200605153209g:plain

特に、「3.」については「立ち上がりが早いと語尾のフェードが早く、遅いと逆に語尾まで音量が均一」という現象が確認されています。

Dynamics

ダイナミクスを調整できるパラメータです。

f:id:crimsonbutterfly0zero0:20200604213327p:plain

調査の結果、単にボリュームを調整できるパラメータであることが判明しました。(ゲイン調整済み)

f:id:crimsonbutterfly0zero0:20200605192941p:plain

Breathiness

息成分を調整できるパラメータです……と言いたいところですが、このパラメータを中途半端に(20〜90%辺り)掛けると音色が微妙になるので100%掛けて息成分だけにしない限り、余り使えません。

(EQでハイパスフィルタ掛けたっぽい感じになる)

f:id:crimsonbutterfly0zero0:20200604213632j:plain

調査の結果、「声から有声音を抜いている」訳ではなく、スペクトログラムに応じて「息成分をシミュレートしている」ように思われます。

f:id:crimsonbutterfly0zero0:20200605193344p:plain

Super Formant Shifter

声のトーンを変更できるパラメータです。

「cute」に寄せると可愛らしく、「cool」に寄せると張った声になります。

VOCALOIDに比べると、フォルマントの変化が緩やかになっているので、ある程度扱いやすくなりました。

f:id:crimsonbutterfly0zero0:20200604213855j:plain

Voice Voltage

声のハリを変更するパラメータです。

100%に寄せると明るく、-100%に寄せると暗くなります。

-100%は声質が良い感じに弱くなるので使いやすいのですが、100%に関しては(個人的に)聴覚上音量が大きく感じしかしないので、今のところは-100%ほど出番は無いように思われます。

f:id:crimsonbutterfly0zero0:20200604214144j:plain

調査の結果、高域と低域のどちらにパワーを偏らせるか調整できるパラメータであると思わしき結果が出力されました。(ゲイン調整済み)

f:id:crimsonbutterfly0zero0:20200605193920p:plain

Pitch Control

後述の「ピッチカーブを編集」モードで弄ったラインを眺めることができます。

ここからは特に弄れる要素はなく、単に「どれほどピッチが離れているか」を眺められる欄のようです。

f:id:crimsonbutterfly0zero0:20200604214701j:plain

Voice Drive

唸り声, グロウル効果を付与できるパラメータです。

使う際は、【Voice Drive】左隣の電源ボタンをクリックして青く点灯したことを確認しましょう。

【-+スライダー】にて初期値を変更できます。(左端に寄せて初期値を【0】にすることを推奨)

f:id:crimsonbutterfly0zero0:20200604215109p:plain

Rough Voice……軽く唸りながらやや喉声っぽい感じ(+が増えると強くなる)
Pop Growl………喉声が入っていないクリーンな唸り(3になるほど強くなる)
Growl……スクリーモとかで使うデスボイス
Grunt……Growlよりもやや喉を下げたデスボイス
Guttural……思いっきり喉を下げたデスボイス

２UI編

新しい描画ツール

Piapro Studioに存在した既存のツール以外に、ピークを描けるツールが増えました

使い道は……クレッシェンドとかを手軽に描けるのではないでしょうか……。

f:id:crimsonbutterfly0zero0:20200604220143j:plain

ピッチカーブを編集

ペンツール、ラインツール、カーブツール、ピークツールを使ってピッチをピアノロール上に描くことができます。

f:id:crimsonbutterfly0zero0:20200604215831j:plain

このモードに入る場合は「ノート」の該当箇所、ショートカットキーの「tab」

f:id:crimsonbutterfly0zero0:20200604221034p:plain

右上の「PITCH」と書かれているボタンをクリックする必要があります。
f:id:crimsonbutterfly0zero0:20200604220300j:plain

ピッチを編集している間はノートが弄れませんので要注意。

※1初音ミクNTではビブラートを付与するUIをクリックするとpiapro studioが落ちるので手書きビブラートがほぼ必須になります。

※2アップデートで改善される模様

バックグラウンドレンダリング

波形をリアルタイムで表示してくれます。

NTパラメータを編集すると、その度に波形をレンダリングし直して表示してくれます。

(Voice Driveは後から処理するタイプのエフェクトなので更新されない)

f:id:crimsonbutterfly0zero0:20200604220602j:plain

重い場合もあるので、オフにする場合はトラックのこの部分や

f:id:crimsonbutterfly0zero0:20200604220801p:plain

波形が表示される部分にある青い波形マークをクリックすることで止めることができます。

オートエンベロープ

ある程度、発音を自動調整してくれる機能です

プロト版では子音とノート先頭部分を明瞭化してくれるみたいです(20%くらい)

f:id:crimsonbutterfly0zero0:20200605145435g:plain

３挙動編

まさかの単音階音源！？

色んな音階にノートを設置した後、ピッチでC4に全部持っていくと全て同じ波形になりました。

※追記　実際のところ5音階音源らしいのですが、急激なピッチシフトが行われたときに一番近いサンプルで合成されるようになってるみたいです！

f:id:crimsonbutterfly0zero0:20200605195142p:plain

歌詞の表示方式

f:id:crimsonbutterfly0zero0:20200604222811j:plain

歌詞と発音記号の表示が別々になってしまったので編集する際はどちらか片方のみの表示になりました。

(もしかしたらヤマハの特許の可能性？)

発音記号

発音記号に関してはVOCALOIDに引き続き、X-SAMPAを採用。

ただ、いくつかの発音記号などが使用不可に。

【Sil】……使用可能(小さい「っ」など)

【br1~5】……使用可能

【Asp】……使用可能(ノートにピッチが引っ張られる)

【?】……使用不可(実質意味のない歌詞を入力したときと同じ挙動になる)

【_0】……使用不可(代用するならBreathinessが妥当？)

無声化？

前のノートの長さが短い場合、Consonant Rate(子音速度)をLongにすることで無声化っぽい感じになる時があります。

f:id:crimsonbutterfly0zero0:20200604221300j:plain

子音単体ノート

s, S, hなどは使用可能。

それ以外はノートの最後にほんの少し音が鳴る程度。

f:id:crimsonbutterfly0zero0:20200604222603j:plain

語尾に「g」を置いたからといって、軟口蓋を閉鎖してくれたりはしないので、そういった音が欲しい場合はノートを置く→要らない音を後から削るという方法を使うしかなさそうです。(今のところは)

発音記号の編集

１つのノートに2つ以上の発音記号を入力すると大体の場合反応しなくなります。

発音記号に【母音+子音】(例：【a s】)と入力すると、ノートの開始位置から鳴るのが子音、それ以前が母音になります。

f:id:crimsonbutterfly0zero0:20200604223608j:plain

Consonant RateやAttack Speedで各種タイミングを調整することも可能です

※【a g】などと配置しても母音の閉じ方は変わってくれないので、基本的にはノート単体入力を推奨

４おまけ

VOCALOIDトラック

もしかしたら、クリプトンのVOCALOIDがNTエディタで使用可能になるかも知れませんね……！

f:id:crimsonbutterfly0zero0:20200604223857p:plain

NTエンジンかVOCALOID4エンジンか、サードパーティのボカロも使えるのかは不明ですが。

感想

重いのだけなんとかすれば結構使えると思う。

2020-06-03

【新規歌声合成エンジン】マイクロソフトがまさかのAIシンガーに参入！？

AIシンガー

まさかの新しい歌声合成エンジン！？
マイクロソフトの歌声合成
聞いてみた感想
機能
予想(妄想)
感想

まさかの新しい歌声合成エンジン！？

NEUTRINO, NT, SynthV R2, CeVIO Pro……大体の歌声合成の足並みが揃いかけたところで、また新しい歌声合成システムが発表されてしまいました！

現在、新しい音声合成エンジンはリリースされていませんが、現在している歌手にはMicrosoft xiaoiceがいます。
一部のトライアルユーザーは作品をアップロードしています。こちらから視聴可能です。link:https://t.co/FB2SXQaz3j pic.twitter.com/2EQd7oXlUs
— 黒木先生 (@Kuro_kitu) 2020年6月3日

現在、新しい音声合成エンジンはリリースされていませんが、現在している歌手にはMicrosoft xiaoiceがいます。
一部のベータユーザーは作品をアップロードしています。こちらから視聴可能です。

f:id:crimsonbutterfly0zero0:20200603193830j:plain

な、なんだってー！？

というか一部一般ユーザーが使ってるってどゆこと！？！？！？！？！？！

マイクロソフトの歌声合成

f:id:crimsonbutterfly0zero0:20200603193757p:plain

Xiaoice(シャオアイス/小氷)は、簡単に言うと「りんな」の中国語バージョンです。

仕組みはそこまで詳しく分かっていませんが、マイクロソフトの歌声合成のベースはHTSを使用しているので、この新規エンジンもベースはHTSを利用してると思われます。

※HTSは名古屋工業大学で開発している機械学習型の発話、歌声合成のベース。

SinsyやCeVIOの根幹技術にも使われている。

聞いてみた感想

今回新規で制作（？）された、何畅(HeChang/ホチャン)はXiaoice(シャオアイス/小氷)と違って可愛さより、歌い上げたときの凛々しさが際立っていると思います。

どっちかと言うとある程度歌が上手く、アーティストのような歌い方をするりんなのような雰囲気ですね。

あと、ベースがHTSなのもあってCeVIOみが結構ある音声なのも特徴ですね、音色はどっちかというとCeVIO Proに近い気がします。

機能

At present, this software does not have anything like pit, so all currently released demos are automatic https://t.co/mX1XkKl2Fa
— 黒木先生 (@Kuro_kitu) 2020年6月3日

現在、このソフトはピッチベンドなどのパラメータ実装されていないので、このデモはほぼ自動です。

どうやらソフトウェアのようですが、ピッチは実装されていないようです。

予想(妄想)

りんなに関しては歌声を合成する際、楽譜情報が必要無いらしいのですが、このエンジンはエディタ画面が無いのでどういった入力インターフェイスを備えているのかすごく気になります！

あとは、クラウドベースの合成になるのか、それともGPUを積んだパソコンで動くのかか……。

それ以外にも音素のタイミングなど入力機能は実装されるか……りんなで実験的に行っていた「歌に感情を適応する」仕組みはあるのか……謎は深まるばかり。

感想

マイクロソフトがAIシンガーに取り組んでるのは周知の事実でしたが、もしかしたらこれが一般人にも使えるかもしれない……と思うと非常にワクワクしますね！

あと男声音源があるのかも気になります！

2020-06-02

新規歌声DBを制作した「おふとんP」さんにアレコレ聞いてみた【インタビュー】

歌声データベース

NEUTRINOから始まった、AIシンガーブーム。

元になった東北きりたんデータベースを真似して歌声DBを作り始めた人が続々と現れました。

今回は、第二の男声音源DBを作成した「おふとんP」さんに話を伺いました！

f:id:crimsonbutterfly0zero0:20200601010928p:plain

本日はよろしくお願いします。では、軽い自己紹介をお願いできますか？

おふとんP：おふとんPと申します。

UTAUメインで活動しておりまして「薪宮風季」という男声音源を制作・配布しております。

直近だと、演歌・フォークソング向けの音源を制作しました。

薪宮風季　開発コード「enka_proto3」
精霊流しを少しだけ歌ってもらった
昭和歌謡を歌うために作ったけど開発コードは演歌だし歌ってる曲はフォーク pic.twitter.com/kksV1AjuVr
— おふとんP (@joumonsugi) 2019年11月4日

またボイスコーポレーターなど、声の依頼なども受け持っています。

フリーゲーム「Astraea」紹介PV：怪物役

それ以外にも「棋譜読みちゃん」という将棋の棋譜を読み上げるソフト用の音源を作成しました。

棋譜読みちゃんで喋らせたみた自分の音源。
こんな感じで読み上げます。 pic.twitter.com/UFxbxzXk4h
— おふとんP (@joumonsugi) 2019年8月6日

歌声合成以外にも様々な声に関する活動もなさっているんですね。

さて、早速ですがおふとんPさんはどうして歌声DBを作成されたんですか？

おふとんP：実のところ、知り合いの伝手で歌声DBを作成する機会を頂けたので、歌声DBがどういうものかは未だによく分かっていません（汗）

言うなれば「歌声DBを作りたい！」というよりは「新しいことに興味があった」という側面のほうが大きかったです。

なるほど、特に歌声DBをどうするか具体的な考えはなかったものの、丁度いい機会だったのでチャレンジした……という感じなのですね。

ではここで歌声DBについて軽い解説をしますね。

歌声DBとは、「機械学習用の歌声データベース」です。

大体50曲(約１時間)歌った音源をラベリング(≒原音設定)し、それにMusicXMLやMIDIなどの楽譜ファイルを同梱することで、大体の機械学習に使用することができるようになります。

一般公開されている機械学習系の歌声合成には、現在「Sinsy」「CeVIO」「NEUTRINO」「AISingers」などがあります。

（歌声DBの詳しい経緯などはこちらから↑）

おふとんPさんの歌声DBはどういった内容になっているんですか？

おふとんP：仕様は以下の通りになっています。

歌った原曲の数：46曲

WAV形式：96kHz/24bit

テンポ：原則BPM100統一

歌った曲：著作権切れの童謡中心

キー変更：原曲キー、オクターブ下げが中心

歌詞：原曲の歌詞+呪文歌詞

ありがとうございます。この「呪文歌詞」というのはどういうものですか？

おふとんP：原曲通りの歌詞で歌うのではなく、音素のバランスを重視して「無意味なひらがなの羅列」で歌う……といった方法です。

UTAU式に言うと「かんかかき……」という収録リストという方が馴染み深いと思います。

なるほど、これはUTAUやってる人には親しみやすい（？）形式ですよね。

この「呪文歌詞」で収録するに当たって苦労した点はありますか？

おふとんP：UTAUの収録で何度もやっていることなので抵抗はないのですが、難読部分があったのでそういった部分を正確に歌い切るのが難しかったですね。

普通の曲を歌うときは数回のリテイクで済むのですが、呪文歌詞についてはその３～４倍のリテイクをしてようやく大丈夫なものが収録できました。

体感としては、替え歌と連続音収録の延長線上にあるといった感じです。

あらら……本当にお疲れさまです。

それ以外に苦労した点はありますでしょうか？

おふとんP：制作で苦労したのはまず、ソフトや機材です。

今回は96kHz, 24bitで収録したのですが手持ちのソフトではこの形式で収録できず、普段使わない新しいソフトを使用しました。

MIDIの音やメトロノームを聞きながら歌う場合、DAWが限られてくるのが痛いですね。

その他にも、歌を歌うときにも「表現として成立したもの」を学習させたほうが良いと思い、呪文に気を遣いすぎて歌としてのっぺりしないように、それと同時に呪文としても成り立つように歌い上げました。

色々とこだわってらしたんですね。

それでは、「こういう事をやってきたから楽だった」という点はありますか？

おふとんP：今まで発声練習とUTAUの収録をやってきたので、そこまで大幅なリテイクをせずに済みました。

それに加え、音響・Mix関係の知識があったので収録がスムーズに進んだのも大きかったです。
特に、収録に際してDAWが使えるか否かでプロジェクトの初動速度が結構変わってくると思います。

初動速度といえば制作期間が結構掛かったと思うのですが、どういったスケジュールで進行していったんですか？

おふとんP：基本的にはMIDIを制作、そのMIDIをもとに歌う、そのデータをラベリング……という風にベルトコンベア式に進行していきました。

・制作期間
発足：３月
完成：５月半ば

録音：土日中心でゴールデンウィーク辺りに完成
ラベリング：配分と分担を決めて進める(４人)
MIDI：配分を決めて５０曲弱を２人で制作
収録用の呪文：ちていこさん

ところで、男声DBに関しては既に「夏目悠李DB」があるのですが、これとどうやって差別化を図ったのですか？

おふとんP：はい、夏目DBと差別化を図るために「フォークソング向けの渋めの声」で収録し、歌い方もそちらに寄せました。

なので、バリトンの高さは綺麗に出るのではないか……と思います。

おぉ～、いい感じにフォークソングを歌ってくれる声、楽しみですね。

もしこれで新しいAIシンガーを制作した場合は、また新しい薪宮風季くん……みたいな感じになるんですか？

おふとんP：いいえ。UTAU用の収録と歌の収録で結構声が変わってくると思うので、今のところは既存のキャラクターを付けるか、新規でキャラクターを付けるかは保留しています。

確かに、喋り声と歌声で結構声質とか変わってきますしね。

もし、仮にこのDBでおふとんPさんそっくりの歌声が作られたらどう思いますか？

おふとんP：自分の下手なところまで再現されそうで怖いです（笑）
それ以上に、こんな未熟な音源を使ってくれるなんて申し訳ないという気持ちですね。

もっと上手ければ、もっと良いものが作れるのでしょうけど。

今のところはまだ活用できてませんが、もし将来的に使えるようになって、出音を気に入って使っていただけるのであれば嬉しいです。

なるほど、私も男声は大好きなので楽しみですね。

ところで、このDBを使う際の規約に関して個人的な注意点はありますか？

おふとんP：はい、夏目悠李DBの規約を流用する許可をもらった上でそちらの禁止事項をやや細かめにしました。

ただ、個人の利用は商用以外制限してないのは夏目DBと同様です。

了解です。では規約に関してや、DBの中身に関して問い合わせたい場合はどちらに連絡すればいいですか？

おふとんP：基本的にはおふとんP宛でお願いします。

ホームページのコンタクトから繋がります。技術的なことに関してはそこから別の担当者さんに回します。

それでは最後に、宣伝・今後の活動予定などを教えていただければ。

おふとんP：UTAUに関しては、プラグインあるいは補助ツールを制作する予定です。

それ以外には、声に関する依頼を積極的に受けて行こうと思っています。

ナレーション、台詞など幅広く受け付けています。

SKIMAからも気軽に依頼できるので、何かご入り用であれば是非よろしくお願いします。

サンプルボイス

ナレーション

やんちゃな青年

いかつい男性

それ以外には、UTAUで喋らせる「HANASU」のやり方を解説した本があります。

紙の本は売り切れたのですが、電子版はまだ販売中ですので、UTAUで喋らせてみたい子がいるなら是非！

はい。それでは、本日はありがとうございました。

どういったプラグインを開発するか、声あての仕事など、活躍を楽しみにしてますね。

おふとんP：こちらこそ、ありがとうございました。

2020-05-03

男声歌声データベース制作の経緯

歌声データベース

きっかけ
発端
構想
収録者の決定まで
データベース作成の効率化模索
本格的な制作協議
制作終了まで
配布までの期間
配布後
感想
謝辞

きっかけ

NEUTRINOがリリースされたとき、私は考えました

「これ、東北きりたんDBの真似すればNEUTRINOのデータベース作ってもらえるのでは？」

今考えてみると凄い……突拍子もない考えですね、はい。

発端

個人的な研究用に明治大学の東北きりたんDBの中身を再び見たら……

「ん？これ私にも作れるんじゃね？？？」

という意味の分からないことを思い付いてしまいました。

midi, wavはもちろん、mono_labelもテキストエディタで開いたらめちゃくちゃ単純な仕組みだったので、これは普通に作れるぞと。

問題はこれを作ったところで誰かが使ってくれる保証があまりにも少ないので、一旦保留ということにしました。

構想

女声はきりたんがいるので、競合がまだいない男声データベースを作ることにしました。(私の好み的な意味のほうが大きい)

私自身は歌うのが嫌いではなのですが、収録が物凄い面倒というか疲れるタイプの人間なので誰か音源提供者がいないか身の回りで探すことにしました。

収録者の決定まで

候補は３人いました。

３人とも相互さんで、歌がある程度上手な男性さんです。

Oさんはスタジオに通う必要がありそうなので一旦保留、

Aさんはテストで1曲分試作することになり、

今回の収録者は環境が揃ってるけど一旦保留ということで。

テストにAさんでデータベースを1曲分作成し、明治大学の森勢さんにチェックを貰って本格的に進めていくことにしました。

データベース作成の効率化模索

森勢さんに教えてもらったところ、ラベリングにはWaveSurferというものが使われていることが判明しました。(あと、別の人にPraatというのも教えてもらいました)

でも、ぶっちゃけこのWaveSurferでラベリングするの……

すっごい面倒くさい

というわけで、なにか良い方法がないか考えました。

歌詞付きMIDIを利用して、これをoto.ini経由でlabファイルに変換できれば

歌詞付きMIDIからMIDI, MusicXMLファイルの生成が可能
WAVに合わせてMIDIを作り、そこからラベルを生成すれば後は微調整のみでOK

という風にめっちゃ効率化できると思い、プログラマさん(ちていこさん、CrazYさん)に助けを求めました。

これがoto2labの開発(していただいた)経緯です。

本格的な制作協議

ある程度制作に必要なベースが整ったので、男声DBを作ることにしました。

あと、「成功するかどうか分からない中、歌を延々と収録するのは流石に酷だ！」と思ったので、収録者のモチベ意地のためにある程度の報酬を渡すことにしました。

※終わりが見えない戦いである場合、報酬は非常に大事です

それに加え、もし歌声DBを公開しても利用されなかったら悲しすぎるので利用してくれそうな方をリストアップしました。

Mさん、Hさん、Nさん、D社、A社……そこまで大勢いる訳ではないですし、からといって扱ってくれる保証も無いですが営業は大事なので、念のために準備しました。

制作終了まで

4月から(ルイナの翻訳で)色々と忙しくなる予定だったので、4月までに制作するのを目標としていました。

結果、ベースはギリッギリ作れました。冗談抜きで死ぬかと思いました😇😇😇

配布までの期間

翻訳作業が物凄く忙しくなり、配布形態や規約整備の時間があんまり取れなかったので、各所に営業をすることにしました。

その結果、D社と黒木先生さんがデータベースを利用してくれることになりました。

そのあと、配布直前期にCHI-TAさんにもデータベースを扱って貰えることになりまして、フィードバックもいただきました。

配布後

最終的にいろいろと落ち着いた4月末になっての配布となりました。

早い段階で山本りゅういちさんに反応貰って「ｱﾋｪｯﾖｳ！！！」って感じになりましたし、それから機械学習ガチ勢の方にも広がったので、物凄い「ｱｯﾋｪﾋｬﾎｳｱｴｲ！！！」ってなりました。

あと、龍馬さんにも早い段階でフィードバックを頂きました。

感想

次はもうちょっとユルユルしたスピードで、英語DBとか韓国語DBとか作ってみたいな～と思いました(懲りない)(多分ArpabetとX-SAMPAでいいのかな？)

謝辞

最後に、歌声DBを制作するにあたってお世話になった方に感謝の言葉を申し上げたいと思います。

DB構築に必要なプログラムを作っていただいたCrazYさん、ちていこさん。

超絶スケジュールに付き合ってくれた収録者さん。

早い段階でデータベースを使って頂いてフィードバックをくれたCHI-TAさん、黒木先生さん、龍馬さん。

初期段階で色々と問い合わせに快く応じて頂いた森勢さん。

歌声DBの直接的な開発動機になったNEUTRINOを制作したSHACHIさん。

本当にありがとうございました！

2020-05-03

新しいAIきりたん！？NNSVSをちょっとだけ試してみた

AIシンガー

NETRINOの衝撃からはや2ヶ月くらい、今度は山本りゅういちさんがディープラーニングベースの歌声合成の仕組みを作ってました

ちなみにNNSVSは「Neural Network-based Singing Voice Synthesis/ニューラルネットワーク基盤の歌声合成」の略です

I have created a simple demo for singing voice synthesis (Japanese).
Pre-rendered notebook: https://t.co/E5gfG0t5UY
Google colab: https://t.co/LBE8VFZLvq
Enjoy 😊
— 山本りゅういち / Ryuichi Yamamoto (@r9y9) 2020年5月3日

Who is 山本りゅういち？

LINEのヤバい人です

主にやったことは、

・Paralel WaveGANという仕組みを使ってWavenetと同等、それ以上の品質を叩き出しながらWavenetより高品質

・NVIDIAのWaveGlow論文内で「オープンソースで習得できるWavenetで１番品質高いのは山本りゅういちさん」と言及した

Mean Opinion Scores show that it delivers audio quality as good as the best publicly available WaveNet implementation

平均オピニオンスコアは、一般に公開されている最高のWaveNet実装と同等の音質を実現していることを示しています。

￥￥

nnmnkwii(ななみんカワイイ)の方

(こう見ると凄い🤔🤔🤔🤔って顔になるが、DNN音声合成用のプロトタイピングに物凄く使いやすい、HTSやMerinに似た仕組みとのこと)

・(恐らく)LINEのGatebox, Line Clovaの開発をあれこれやってる