新しいAIきりたん!?NNSVSをちょっとだけ試してみた
NETRINOの衝撃からはや2ヶ月くらい、今度は山本りゅういちさんがディープラーニングベースの歌声合成の仕組みを作ってました
ちなみにNNSVSは「Neural Network-based Singing Voice Synthesis/ニューラルネットワーク基盤の歌声合成」の略です
I have created a simple demo for singing voice synthesis (Japanese).
— 山本りゅういち / Ryuichi Yamamoto (@r9y9) 2020年5月3日
Pre-rendered notebook: https://t.co/E5gfG0t5UY
Google colab: https://t.co/LBE8VFZLvq
Enjoy 😊
Who is 山本りゅういち?
LINEのヤバい人です
主にやったことは、
・Paralel WaveGANという仕組みを使ってWavenetと同等、それ以上の品質を叩き出しながらWavenetより高品質
・NVIDIAのWaveGlow論文内で「オープンソースで習得できるWavenetで1番品質高いのは山本りゅういちさん」と言及した
Mean Opinion Scores show that it delivers audio quality as good as the best publicly available WaveNet implementation
平均オピニオンスコアは、一般に公開されている最高のWaveNet実装と同等の音質を実現していることを示しています。
nnmnkwii(ななみんカワイイ)の方
(こう見ると凄い🤔🤔🤔🤔って顔になるが、DNN音声合成用のプロトタイピングに物凄く使いやすい、HTSやMerinに似た仕組みとのこと)
・(恐らく)LINEのGatebox, Line Clovaの開発をあれこれやってる
使い方?
目次より「Synthesis」の次の「musicxmlを選ぶなんとか」みたいな項目をクリックしします
上のランタイムから、「より前のセルを実行」をクリックします。
ここのmusicxml/xx.xmlの数値をいじってどのXMLを使用するか決めます
※1きりたんの歌声DBに存在するXMLのみ使用可能です
※2自作のXMLを使用することは現時点では不可です
ランタイムから「以降のセルを実行」をクリックします
しばらくしたら一番下に合成結果が出てきます
感想
「なんか音程ガタガタしてない……?」って思いますけど、今までずっと話声合成やってて、急に歌声合成に手を出し始めたからというのはあると思います。
例えるなら、硬式テニスの天才が軟式テニスをやると最初のうちはあんまり上手くないみたいな……。
とはいえ、細かい所にきりたんの生声みが出てたり、音程以外に大きな破綻がないのでここから大きく化けそうです。
というわけで、今後の発展に期待です!🤗🤗🤗🤗
中国のAI歌声合成「AISingers」で自音源が制作できるようになってた件について
いつの間にか音源制作の申込みが……
ふと、AISingersの公式ページを見たら「音源制作可能」のところになんか怪しげボタンがありました
なにこれ……ポチッとな
……!?
こ、これは……!音源制作申請フォームが出来てるではありませんか……!?
※この申し込みページを閲覧するには会員登録が必要です
詳細はこちらから↓
という訳で、以下項目の解説です
・AIシンガーの名前(暫定)
・AIシンガーの性別(男/女/その他)
・AIシンガー制作元(個人/非営利団体/営利団体/一般企業/国営企業)
・著作権者(個人名/団体名/会社名)
・申し込み内容(個人、団体、会社の軽い説明、デジタルシンガー制作経験の有無、既存作品、メンバー、プロモーション方法など1000字以内で)
・AIシンガーのプラットフォーム(AISingers以外の音声合成ソフトには使わない予定。/既に他の音声合成ソフトで使用中、AISingersに移植予定/今のところはAISingersのみだが、他の音声合成ソフトに移植する可能性あり)
・収録設備(スタジオ/1.5万以上の設備+静かな収録環境/スマホ収録などorz.....)
・追加情報(連絡先/意見/提案/その他質問事項,)
この前、ベータ版テスターの知り合いに聞いたところ「日本語の対応はまだ」とのことですので、もし中国語の発音が得意かつ歌もある程度歌える人がいるなら申請するのもありかもしれません。
男女新規音源追加!
お~、これは正統派シンガーっぽいビジュアルですね!
聞いた感じ、優しくて可愛らしい声質のシンガーでした。
可愛らしいの方向性が、「ナチュラルな可愛さ」ではなく「声道が未発達で狭くなった感じの幼い可愛さ」という感じなので既存音源との差別化も出来てる感じがします。
こ、これは……頭に2対の羽が付いてる時点で随分とファンタジックな見た目してますね………。
既に音声のみは公開済みの男性音源と違い、閉じた感じのトーンで、優しさがもうちょっと全面に出た感じの音源になってますね。
こちらも用途の差別化ができそうなので楽しみにですね!
AISingersの新シンガー「琉璃liliko」公開!新規企業参入も!?
AISingersの新規音源「琉璃liliko」
この前話題になった中国のAISingersですが、シルエットになっていた新規音源が1人開放されました!
「琉璃liliko」ちゃんです!
では早速声を聞いてみましょう!
【AISingers】中国語AIシンガーに無理やり日本語で歌ってもらった【琉璃liliko】
可愛らしいながら落ち着いた声質です
推奨音域は【#F3 ~ E5】と、ギリギリ2オクターブに収まらないくらいです。
琉璃lilikoちゃんはMUTAの時代からいましたが、プロフィールはすべて謎、持ち物はガラス玉(本体?)
ビリビリ動画の生放送で24時間歌生をやってる以外、変わったプロフィールもない(一応)VTuberらしいです
AISingers新音源!?
それとは別に「R社」という団体が新しい音源を製作中らしく、キャラクターのシルエットが増えていました!
うーん、なかなかすごいシルエットですね……。
公式サイトのデモを聴く限り、少々声質が太めの現実的な(アニメ的ではない)女性音源でした。
次にどんな音源が追加されるか楽しみですね!
自音源も作れる!?中国のAISingers(無料)を使ってみた!
導入
世間がAI東北きりたんWith NEUTRINOでヤバいことになっておりますが、それ以外にそこそこやばいやつを見つけてしまった気がします。
その名も「AISingers」!(安直なネーミングなのがなんとも)
AISingersとは?
AISingersは、ディープニューラルネットワーク(DNN)に基づいた国内の大手音楽AIチームによって開発された歌声合成プラットフォームです。
AISingersは、音声と歌の合成だけでなく、パラメータベースの感情合成もサポートしています。
AISingersは、仮想アイドルIPサウンドライブラリの生産標準とソリューションの完全なセットを提供します。
そう!なんとこのサービス、歌声のみならず、喜びや悲しみなどの感情を込めた音声、ラップも合成できるのです!
AISingersのデモ
では、早速どんな感じか聞いてみましょう!
前半のがっつり調整してる部分はマイクロソフトのりんなのような感じ、後半の無調整部分はSinsyやCeVIOのような印象を受けます
こちらはMUTAとAISingersの両方で音源が出た嫣汐ちゃんのデモです
【AISingers】中国のAIシンガーに初嵐を歌ってもらった【嫣汐+MUTA】
MUTAはキャラぽい可愛らしさが出てるのに比べ、AISingersは生歌感が出てる気がします
AISingersの機能
でも、このサービスの真骨頂はこれではないんです、なんと!
右側に「音源自制」とあるように、自音源が制作できるんです!
制作方法やライセンスなどはまだ不明ですが、どういう形態に落ち着くか楽しみですね!
しかし残念なことに関係者からの情報によると日本語には対応する予定がないとのことです。
これは中国語の歌をめっちゃ歌わないといけないといけないのか……?
開発元・使用可能なシンガー
どうやら開発してるのは「DSoundFont」というところらしいです。
ここは歌声合成ソフト「NIAONIAO(ニャオニャオ)」「MUTA(ミュータ)」などを開発してたところで、現状ではNIAINIAOから余袅袅(ユ・ニャオニャオ)ちゃん、MUTAから嫣汐(イェンシー)ちゃんが移植され、利用することができます。
あとはまだ非公開ですが、シルエットから察するにMUTAから琉璃(リウリ/リリコ)、NIAONIAO慕瑶(ムヤオ)、あとは男女1名ずつシンガーが公開されるみたいです。
AISingersの使い方
こちらからどうぞ~
AISingersの応用
なお、MUTA出身の琉璃と嫣汐に関しては、この技術を利用し、ビリビリ動画で24時間歌配信をやっています。
え……なにそのSF?
中国のポップスのみならず、中国のボカロ、日本の有名なアニソンやニコニコで有名な曲などを中国語で歌い上げるという中々ヤバいことをやっています。
鬼畜曲(MADで有名な曲)にサカナクションの「新宝島」があったのには笑いました
琉璃の解説はこちらから!
感想
AIシンガーの黎明期に差し掛かった今、AISingersやそれ以外の歌声合成がどうなっていくか楽しみですね。
中国のAI歌声合成「AISingers」の使い方
但し書き
下準備の段階での電話番号確保、AISingersの規約確認などは自己責任でお願いします。
下準備
中国の電話番号確保
何故か中国の電話番号でしか登録を受け付けないので、どうにか中国の電話番号を確保します。
私はここで確保しました。
- 大雑把な流れを言うと
- Paypalで10ドル払う
- Serch Projectを押してから「AISingers」を検索し選択
- Number TypeをNon-Virtualに設定してGet Numberを押す
- 登録欄に電話番号を入力して認証コードを得る
って感じです。
※元々このサービスは「AISingers」の登録には対応してなかったのですが、私が連絡したら作ってくれたので、上手くいかないなら運営の方にメールするのもありだと思います。
あるいは、(私は試していませんが)WeChat経由でeSenderでSMSを受け取るのもいいかもしれません。
こちらはバスポートが必要になることもあるらしいです。
会員登録
一番右上の「登録」っぽいボタンを押して、右の欄に上から
- ユーザー名
- パスワード
- 先ほど確保した電話番号
それぞれ入力し、青いボタンを押します
先程のサービス経由でコードが届いたら最後の欄に認証番号を入力し、「規約に同意」のチェックボックスをオンにして登録します。
本番
①公式ページから「NIAONiao_for_AISingers」をダウンロードして解凍します。
②右上のひよこのアイコンをダブルクリックしてシンガーを選択します
私はニャオニャオちゃんになってますが、ここからです
多分文字化けしていますが、「NIAONiao_for_AISingers_v2.2.02_beta\src\モ瑶チ」を選んでください。
※もし認識しない場合、src内のファイル名「余袅袅/モ瑶チ」を「NiaoNiao」などに変更してください
※シンガーアイコンが出ない場合、ここから出してください。
③譜面データを読み込みます
MIDI,VSQx,USTに対応しています
④ピッチを弄ります
とりあえず、ここの「自動調教☆」を押すとすべてのノートのピッチを緩やかに繋いでくれます
そしたら赤い丸のボタンをクリックすると、ピアノロール上にピッチが描けます。
NIAONIAOでの合成結果とAISingersでの合成結果はそれぞれ違うので、大まかな表情付けでいいと思います。
⑤保存してAISingersにアップする
ここを押して、名前を付けて保存します。
上部アイコンの「AI」と書かれてるボタンを押して公式サイトに飛んで、先程保存した.nnファイルをアップロードします。
先に緑色のボタンをクリックしてnnファイルをアップロードした後、オレンジ色のボタンでアップロードします。
⑥シンガーの選択
各シンガーの得意音域、得意音域からはみ出たノートの数が表示されます。
それを考慮して適当に選択してしばらく待てば合成してくれます。
その他
オケ読み込みたい
この部分をダブルクリックするとオケが読み込めます(mp3,Wav)
スライダーで音量が調整できます。
この部分が出てこない場合、これをクリックして表示させてください。
なんかラップっぽい
もしかしてノート配置によってはラップっぽくなる可能性があるので、設定から
「禁用Rap功能」(ラップ機能の禁止)をオンにするといいかもしれません。
(一番左の「确认」ボタンで確定します)
東北きりたん歌声DBの制作者さんにアレコレ聞いてみた【インタビュー】
歌声合成界隈に革命を起こしたAIベースの歌声合成ソフト「NEUTRINO」
特に、東北きりたん(CV:茜屋日海夏)のリアルな歌声を合成できることが非常に大きな話題を呼びました
でも、どうして急に東北きりたんの歌唱AIがリリースされたのでしょうか?
というわけで、今回は「東北きりたん歌唱データベース」を制作した明治大学の准教授、森勢将雅先生にお話を伺ってみました。
本日はよろしくお願いします。
早速ですが、森勢先生はNEUTRINOの開発者ですか?
森勢:いいえ。開発者ではありませんが、これがきっかけで新しいソフトウェアの開発が進んだり、オペレーションや調音(調声,調教...etc)の必要性を再認識して頂ければ嬉しいです。
それに関連して、私の方で研究・開発しているエディタはNEUTRINOや関連する技術で作られた歌声を出発点として、調音作業の手間を削減することを目的にしています。
「誰でも同じく,高いクオリティでの歌声合成の実現」ではなく、人間に近い歌声に対し利用者個々人の思い描く個性が自然な形で反映されるエディタを目指しています.
クリプトン社様が新技術を出してきたので,こちらも現在開発中のもの(6月学会発表予定)でひっそり対抗してみるw pic.twitter.com/lPF5BmLkQT
— M. Morise (忍者系研究者) (@m_morise) 2019年3月6日
なるほど。調節が必要ない「完璧な歌声」ではなく、個人が細かい部分をカスタマイズできるコンセプトをベースに開発をなさってるのですね。
ところで、今回の「東北きりたん歌声DB」はどのようにして実現したのですか?
森勢:歌声データベースを構築することは2018年9月時点で決まっておりました。
直接的なきっかけは私のTwitterでの一言です。そこに東北ずん子公式アカウント様からメンションを頂き、具体的に話を進めていくことになりました。
プロの方にお願いできたのは大変ありがたいです.
今回の歌声データベース作成の下敷きには東北ずん子さんの「新しいものには何でも挑んでいく精神」があってこそ、というのもあった訳ですね。
今ふと思ったんだけど,東北ずん子のUTAU音源があるんだったら,統計的歌声合成用の歌唱データセットの収録ってやらせてもらえないかしら.費用はこっち持ちで.
— M. Morise (忍者系研究者) (@m_morise) 2018年10月1日
ずん子はボカロのみなので、イタコ姉さま、きりたん、他のキャラならぜひやって欲しいです♬♬٩(๑❛▽❛๑)۶♡https://t.co/fPWaTca9kz
— 東北ずん子(公式)💚2/13 きりたん誕生日(🔪・ω・)🔪きり!(🗡・ω・)🗡たんー! (@t_zunko) 2018年10月1日
では、歌声データベースについてです。今回の「NEUTRINO」の反響を見ると「きりたっぽくない」「茜屋日海夏さんっぽい」という意見が多いのですが、なぜでしょうか?
森勢:ハッキリとしたことは言えませんが「歌い方」が茜屋様のスタイルだからだと思われます。
歌唱DBの収録では、「きりたんの声真似」で収録をお願いしました。
歌い方については「どういう指示をすべきかが分からなかった」ため、指示していません。ボカロ的に歌う等の依頼は無理だと思います。
なので、声質に注目するときりたんっぽく、歌い方に注目すると茜屋様っぽく聞こえるのではないかと思います。
確かに、声質だけを聞くと「きりたんっぽさ」が部分的に出現していますが、歌い方は声優さんに引っ張られてるから……というのもありそうですね。
(NEUTRINOで出力した東北きりたんのスペクトログラム)
「きりたんの歌声」というよりかは「声優の茜屋日海夏さん」の歌い方を再現した感じになっていますが、声優さんの仕事と競合しないんですか?
森勢:ここは結構悩んだのですが、今回のDBに関しては「東北きりたん」の再現を目指しており、数ある声優の演技の引き出しのうちの1つを肩代わりできるようにしたという判断です。
どちらかと言うと、クリプトンの「キャラクター・ボーカル・シリーズ」と似通ったコンセプトという訳ですね。あちらは「声質と歌い方のデフォルメ」という路線ですが、こちらはキャラクター性を保った上で「きりたんの歌」として十分使えるものを構築したのですね。
(クリプトン・フューチャー・メディアの公式サイトより)
きりたんの歌声DBをベースに、既存のUTAU音源などから声質データを抽出し、より「きりたんらしい歌声モデル」も作れるのでしょうか?
森勢:理論上は可能だと思います。UTAUで出てきた結果のF0(ピッチ)をNEUTRINOで出力したF0に置き換えることで実現できます。
ただし、どのような音質になるかまではやってみないとわからないです。音素の時間的なズレがあるので劣化しやすく、微調整は必須だと思われます。
ということは、キャラの演技に集中した音声素材を利用して、「キャラの個性を更に際立たせたリアルな合成音声」という表現ができる可能性もあるわけですね。
(AHS公式サイトより)
※歌うVOICEROIDという喋らせるソフトに歌わせるという手法も存在しており、こちらは喋り声のコーパス式データベースを用いて歌わせるので既存の歌声合成よりも「よりキャラらしい」ことになる場合が多い
ところで、UTAUのきりたんは(音質はともかく)超高音も歌わせられるのにAIきりたんではなぜ高音がかすれるのでしょうか?
森勢:これは、合成方法による差です。
UTAUでは元となる歌声の高さを信号処理で調整します。高さの調整に対する破綻が少ない方法を使っていますので品質は落ちにくいです。
一方、NEUTRINOのようなニューラルネットワークベースでは、該当する高さの歌声が存在しない場合の挙動が予測できません。「必ず失敗する」ではなく「予測できない」だけなので、上手に歌える場合もあれば破綻する場合もあります。今回は、それが「かすれてしまう」という形で現れたのだと解釈しています。
なるほど。機械学習がベースになると、人間に「出せる音域」があるのと同じで「使用できる音域を考慮して曲を作る」のも必要になってきますね。
歌わせる音域ですが,A4~D5くらいまではそこそこ歌えると思います.C4~C5くらいはデータ量が安定しています.BPMが140~180がボリュームゾーンでロングトーンは少な目のほうが歌わせやすいです(多分
— M. Morise (忍者系研究者) (@m_morise) 2020年2月22日
音域が狭くなってしまうのは、「東北きりたん」というキャラクターの声質を真似る都合上、声質を維持したまま高域と低域を出しにくいことが原因です。高さの範囲を広げつつ声真似する、というのはかなり難しいと思われます。
キャラらしさといえば、マクネナナのV3も「マクネナナらしさが出るのはC#3~C#4の範囲」ということで得意音域を1オクターブに指定したことで、あちこちでツッコミがあったのを思い出しました。
では、今度は少々マニアックなことをお聞きしますね。
歌声データベース制作に各工程どれくらい時間がかかりましたか?
森勢:収録は5日間に分けて,1回約4時間で実施しました。
収録楽曲は元々i☆Risとしてリリースしたものなので、覚えるための専用の時間は少なく済んだと思います。
MIDIデータの作成は1名が主担当で約1か月、ラベリングはMIDIデータ担当とは異なる1名を主担当としました。
他の仕事もありますので音素ラベリング自体にかかった具体的な時間までは分かりませんが、作業開始から公開まで概ね4か月くらいはかかっています。
だいぶ長期間制作してきたんですね……!
(東北きりたんDB付属の使用曲リスト:計50曲)
50曲収録したとは聞いたのですが、具体的には何分くらいですか?あと、50曲分収録する基準はありますか?
森勢:ラベルデータから計算した音声の存在する区間は約57分です。※readmeでは58分とありますが,こちらは音声分析ソフトで有声区間を算出しているため若干差があります
合成歌唱の品質は傾向としてDBの量に比例しますが、どの程度の量であれば十分であるかは一概に言えません。学習方法等のアルゴリズム、DBの音素・音高の収録バランスに依存するためです。
1つの目安として、NPSS(Neural parametric singing synthesizer)という方法では約31分のデータから高品質な歌声を生成しています。
(NPSSのデモ音声:Sinsyの謡子のデモソングもある)
その他の方法でも独自のデータセットを用意し、限られた楽曲を生成して評価しています。
音源が公開されていないので,妥当な量の計測は簡単ではありません。
むしろ、きりたん歌唱DBが、その妥当性を評価するためのベースラインになり、今後どの程度の量が必要であるかの目安を作れればと思っています。
量が明らかに少ない場合、出現頻度の低い音高や音素等を歌わせた場合分かりやすく破綻します。あらゆる音高・音素等の情報を網羅できていることが1つの目安とは言えそうです。
なお、きりたん歌唱DBでは既存の楽曲をそのまま歌っているので、特に音素の出現バランスはかなり偏っています。
ところで、きりたんの学習曲は著作権の切れていない「i☆Ris」の曲がメインですが、著作権などの権利は大丈夫ですか?
森勢:著作権法が改訂され、新30条の4では「その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合」に限り利用できることとなりました。
きりたん歌唱DBに収録された歌を聴くことはアウトですが、学習用として聴かずに利用することは問題ないと解釈しています。
ただし,この改訂は2019年にされたばかりです。前例がないので、上記は我々の見解であることに注意が必要です.
(著作権関連参考記事)
今回はリスクを最小限にするため、キャラクターの利用についてSSS合同会社様と相談し、キャラクター物真似で収録する契約を81プロデュース様と契約しました。
(81プロデュース公式サイトより)
81プロデュースは合成音声の導入に積極的な事務所で、結構前の日経インタビューや「発声権」について話題になっていたところですね。
森勢:声優事務所と契約以外で権利上の問題が生じるとすれば、楽曲制作者側からのクレームです。具体的には管理をJASRACに委託しているでしょうから、JASRACと我々との30条の4の解釈の相違が問題になりかねません。
ここでもめた際のリスク回避として、Facebookによるログインを必須にしました。
森勢:今回の場合は,突き詰めると「インタラクティブ配信にあたるかどうか」だと考えており、JASRAC側の主張が認められた場合は配信料が必要になります。そこで「何名がダウンロードしたか」を管理しておくことで、支払うべき金額を確実に計算できるようにしています。
万が一のトラブルに備えてDL人数を割り出し、穏便な手段で解決できるようにしたのがFaceBookでのログインというわけですね。
データベースの利用に関しては問題ないとして、それを利用した合成結果の利用に関してはどうなりますか?
森勢:データベース制作側が関知するのはデータベースの配布と利用に関するところまでで、DBを利用して作られたソフトウェアが出力した結果については、そのソフトウェアの規約に従って頂くことになります。
ただし、ソフトウェアの利用規約には、常にDBの利用規約が包含するようにして頂いています。そうしないと、収録音声を抜き出して出力するだけのソフトウェアを作ることで、間接的に商用利用ができるようになってしまうからです
ということは、ボーカロイドでも度々話題になる「出力音声で音源作っていいか問題」に対して認可はしつつ、商業利用は禁止というスタンスになりますね。
森勢:また、利用する楽曲によっては著作権の問題が出てきます。
それに関しては、ニコニコ動画やYouTube等の公開先で定められた規約に従う必要があります。
今回のNEURINOに関しては、本体の規約以外に「データベースの利用規約の範囲でご利用ください。」とあるので、同梱されてるSinsy謡子の規約ときりたんの規約に従う感じですね。きりたんの出力音声に関しては商業利用できないんですか?
森勢:はい。こちらはVOICEROIDやリアチェンVoiceと同じで東北企業でも商用利用は不可能です。
では、クリエイターの非商用利用に関してはどうなりますか?(原価回収の同人利用も含む)
森勢:本データベースは研究用に構築したものですので、現状は非商用利用に限定させて頂いております。販売したいという方が増えた場合は何かしら対策を考えたいと思います。
2020年2月26日追記:条件付きで同人利用が可能になりました!
【告知・拡散歓迎】NEUTRINO(AIきりたん)で生成した歌声については,東北ずん子のガイドラインに沿ってご利用頂けることになりました!動画共有サイトへの投稿や同人イベントでのCD販売は,東北ずん子ライセンスでは無償で可能です!
— M. Morise (忍者系研究者) (@m_morise) 2020年2月25日
【告知続き】同人イベント以外でCDなどを販売をする場合,1曲1,000円とキャラクターライセンス料(https://t.co/c328ViB5SS)でのライセンス販売とさせて頂きます.登録用サイトは現在制作中ですので,完成し次第追って報告致します.
— M. Morise (忍者系研究者) (@m_morise) 2020年2月25日
TTS分野での商業利用では、既存のソフト買いきり+商業利用ライセンス有償発行(VOICEROIDなど)以外にも色々路線がありますよね
では最後に。
技術者向けに、今後歌声DBの開発者向けの技術的な情報をまとめて公開される予定はありますか?
森勢:はい、今後そういった情報をWebページなどで公開していく予定です。
何か不明な点がある場合は直接問い合わせしても全然OKです。
質問が増えてきたら、Webにて類似質問と回答をまとめる等いたします。
どういう情報が公開されるのか気になりますね……!
今後の歌声合成の発展や森勢先生開発のエディタなど楽しみにしております。
本日はどうもありがとうございました。
UTAUを経由して手軽にNEUTRINO(AIきりたん)を使う方法
いや~ついに出ましたね、一般ユーザーでも使えるDNN歌声合成ソフト
とはいえ、エディターとか無いのでどうやって簡単に歌声を合成するか解説したいと思います
準備するもの
①何かしら打ち込み済みのデータ(VSQx,UST,CCS,VPR,MIDIなど)
②UTAU
③UtaFormatix
④このUTAUプラグイン
※アップローダーがaxfcなので、場合によってはアンチウィルスソフトなどでブロックされます。別のブラウザを使ったり、一時的にオフにすればダウンロードできる可能性があります
⑤こちらのソフト
やり方
下ごしらえ
①もし、打ち込み済みのデータがUSTではない場合はUTAFormatixを利用してUSTに変換して下さい(MIDIを除く)
もし、歌詞がローマ字の場合は以下のように修正して下さい
②UTAUの「plugins」フォルダに、解凍したSinsy補助プラグインのファイルを入れて下さい
本番
手っ取り早い方法
USTファイルをutau2sinsyにドラッグ・アンド・ドロップしてxmlファイルを作成する
ある程度掛かるけど打ち込みデータの微調整などができる方法
①UTAUにUSTを読み込む
多分こんな感じになります
1※MIDIの場合は左上の「ファイル」→「インポート」から読み込んで下さい
2※その場合、歌詞が入力されていない場合が多いのでツールバーの「Lylic」欄に歌詞を入力し、ノートを範囲選択した後「+R」の2つ左隣のボタンを押して歌詞を入れて下さい
3※歌詞は単独音にして下さい
Ctrl+Aですべてのノートを選択し、「ツール」→「プラグイン」から「HNA_Sinsy補助」をクリックします。
その後、適当な名前で保存します
NEUTRINO側の作業
③XMLを読み込ませる
NEUTRINOの「score」→「musicxml」フォルダに先程出力したXMLファイルをいれます。
この際、先程書き出したxmlの拡張子を「.musicxml」に変更します
④Run.batを書き換える
Run.batをメモ帳などで開いて「set BASENAME=」の先をmusicxmlの名前に書き換えます(拡張子はいらない)
※保存をお忘れなく!
もし、きりたんではなく謡子に歌わせたい場合は13行目の「KIRITAN」を「YOKO」にすればおkです
⑤Run.batを実行する
そしたらNEUTRINOのフォルダを開いて、上のフォルダ名とか書かれてる欄に「cmd」と入力し、エンターキーを押します
そしたらなんか黒い変なのが出てくるので「Run.bat」と入力し、エンターキーを押します
⑥待つ
ちょっと時間かかるのと、結構PCが重くなるので放置しましょう。
そしたらNEUTRINOのoutputってフォルダにいつの間にかレンダリングされた歌声wavが生成されます