新規歌声DBを制作した「おふとんP」さんにアレコレ聞いてみた【インタビュー】
NEUTRINOから始まった、AIシンガーブーム。
元になった東北きりたんデータベースを真似して歌声DBを作り始めた人が続々と現れました。
今回は、第二の男声音源DBを作成した「おふとんP」さんに話を伺いました!
本日はよろしくお願いします。では、軽い自己紹介をお願いできますか?
おふとんP:おふとんPと申します。
UTAUメインで活動しておりまして「薪宮風季」という男声音源を制作・配布しております。
直近だと、演歌・フォークソング向けの音源を制作しました。
薪宮風季 開発コード「enka_proto3」
— おふとんP (@joumonsugi) 2019年11月4日
精霊流しを少しだけ歌ってもらった
昭和歌謡を歌うために作ったけど開発コードは演歌だし歌ってる曲はフォーク pic.twitter.com/kksV1AjuVr
またボイスコーポレーターなど、声の依頼なども受け持っています。
フリーゲーム「Astraea」紹介PV:怪物役
それ以外にも「棋譜読みちゃん」という将棋の棋譜を読み上げるソフト用の音源を作成しました。
棋譜読みちゃんで喋らせたみた自分の音源。
— おふとんP (@joumonsugi) 2019年8月6日
こんな感じで読み上げます。 pic.twitter.com/UFxbxzXk4h
歌声合成以外にも様々な声に関する活動もなさっているんですね。
さて、早速ですがおふとんPさんはどうして歌声DBを作成されたんですか?
おふとんP:実のところ、知り合いの伝手で歌声DBを作成する機会を頂けたので、歌声DBがどういうものかは未だによく分かっていません(汗)
言うなれば「歌声DBを作りたい!」というよりは「新しいことに興味があった」という側面のほうが大きかったです。
なるほど、特に歌声DBをどうするか具体的な考えはなかったものの、丁度いい機会だったのでチャレンジした……という感じなのですね。
ではここで歌声DBについて軽い解説をしますね。
歌声DBとは、「機械学習用の歌声データベース」です。
大体50曲(約1時間)歌った音源をラベリング(≒原音設定)し、それにMusicXMLやMIDIなどの楽譜ファイルを同梱することで、大体の機械学習に使用することができるようになります。
一般公開されている機械学習系の歌声合成には、現在「Sinsy」「CeVIO」「NEUTRINO」「AISingers」などがあります。
(歌声DBの詳しい経緯などはこちらから↑)
おふとんPさんの歌声DBはどういった内容になっているんですか?
おふとんP:仕様は以下の通りになっています。
歌った原曲の数:46曲
WAV形式:96kHz/24bit
テンポ:原則BPM100統一
歌った曲:著作権切れの童謡中心
キー変更:原曲キー、オクターブ下げが中心
歌詞:原曲の歌詞+呪文歌詞
ありがとうございます。この「呪文歌詞」というのはどういうものですか?
おふとんP:原曲通りの歌詞で歌うのではなく、音素のバランスを重視して「無意味なひらがなの羅列」で歌う……といった方法です。
UTAU式に言うと「かんかかき……」という収録リストという方が馴染み深いと思います。
なるほど、これはUTAUやってる人には親しみやすい(?)形式ですよね。
この「呪文歌詞」で収録するに当たって苦労した点はありますか?
おふとんP:UTAUの収録で何度もやっていることなので抵抗はないのですが、難読部分があったのでそういった部分を正確に歌い切るのが難しかったですね。
普通の曲を歌うときは数回のリテイクで済むのですが、呪文歌詞についてはその3~4倍のリテイクをしてようやく大丈夫なものが収録できました。
体感としては、替え歌と連続音収録の延長線上にあるといった感じです。
あらら……本当にお疲れさまです。
それ以外に苦労した点はありますでしょうか?
おふとんP:制作で苦労したのはまず、ソフトや機材です。
今回は96kHz, 24bitで収録したのですが手持ちのソフトではこの形式で収録できず、普段使わない新しいソフトを使用しました。
MIDIの音やメトロノームを聞きながら歌う場合、DAWが限られてくるのが痛いですね。
その他にも、歌を歌うときにも「表現として成立したもの」を学習させたほうが良いと思い、呪文に気を遣いすぎて歌としてのっぺりしないように、それと同時に呪文としても成り立つように歌い上げました。
色々とこだわってらしたんですね。
それでは、「こういう事をやってきたから楽だった」という点はありますか?
おふとんP:今まで発声練習とUTAUの収録をやってきたので、そこまで大幅なリテイクをせずに済みました。
それに加え、音響・Mix関係の知識があったので収録がスムーズに進んだのも大きかったです。
特に、収録に際してDAWが使えるか否かでプロジェクトの初動速度が結構変わってくると思います。
初動速度といえば制作期間が結構掛かったと思うのですが、どういったスケジュールで進行していったんですか?
おふとんP:基本的にはMIDIを制作、そのMIDIをもとに歌う、そのデータをラベリング……という風にベルトコンベア式に進行していきました。
・制作期間
発足:3月
完成:5月半ば録音:土日中心でゴールデンウィーク辺りに完成
ラベリング:配分と分担を決めて進める(4人)
MIDI:配分を決めて50曲弱を2人で制作
収録用の呪文:ちていこさん
ところで、男声DBに関しては既に「夏目悠李DB」があるのですが、これとどうやって差別化を図ったのですか?
おふとんP:はい、夏目DBと差別化を図るために「フォークソング向けの渋めの声」で収録し、歌い方もそちらに寄せました。
なので、バリトンの高さは綺麗に出るのではないか……と思います。
おぉ~、いい感じにフォークソングを歌ってくれる声、楽しみですね。
もしこれで新しいAIシンガーを制作した場合は、また新しい薪宮風季くん……みたいな感じになるんですか?
おふとんP:いいえ。UTAU用の収録と歌の収録で結構声が変わってくると思うので、今のところは既存のキャラクターを付けるか、新規でキャラクターを付けるかは保留しています。
確かに、喋り声と歌声で結構声質とか変わってきますしね。
もし、仮にこのDBでおふとんPさんそっくりの歌声が作られたらどう思いますか?
おふとんP:自分の下手なところまで再現されそうで怖いです(笑)
それ以上に、こんな未熟な音源を使ってくれるなんて申し訳ないという気持ちですね。
もっと上手ければ、もっと良いものが作れるのでしょうけど。
今のところはまだ活用できてませんが、もし将来的に使えるようになって、出音を気に入って使っていただけるのであれば嬉しいです。
なるほど、私も男声は大好きなので楽しみですね。
ところで、このDBを使う際の規約に関して個人的な注意点はありますか?
おふとんP:はい、夏目悠李DBの規約を流用する許可をもらった上でそちらの禁止事項をやや細かめにしました。
ただ、個人の利用は商用以外制限してないのは夏目DBと同様です。
了解です。では規約に関してや、DBの中身に関して問い合わせたい場合はどちらに連絡すればいいですか?
おふとんP:基本的にはおふとんP宛でお願いします。
ホームページのコンタクトから繋がります。技術的なことに関してはそこから別の担当者さんに回します。
それでは最後に、宣伝・今後の活動予定などを教えていただければ。
おふとんP:UTAUに関しては、プラグインあるいは補助ツールを制作する予定です。
それ以外には、声に関する依頼を積極的に受けて行こうと思っています。
ナレーション、台詞など幅広く受け付けています。
SKIMAからも気軽に依頼できるので、何かご入り用であれば是非よろしくお願いします。
サンプルボイス
ナレーション
やんちゃな青年
いかつい男性
それ以外には、UTAUで喋らせる「HANASU」のやり方を解説した本があります。
紙の本は売り切れたのですが、電子版はまだ販売中ですので、UTAUで喋らせてみたい子がいるなら是非!
はい。それでは、本日はありがとうございました。
どういったプラグインを開発するか、声あての仕事など、活躍を楽しみにしてますね。
おふとんP:こちらこそ、ありがとうございました。
男声歌声データベース制作の経緯
きっかけ
NEUTRINOがリリースされたとき、私は考えました
「これ、東北きりたんDBの真似すればNEUTRINOのデータベース作ってもらえるのでは?」
今考えてみると凄い……突拍子もない考えですね、はい。
発端
個人的な研究用に明治大学の東北きりたんDBの中身を再び見たら……
「ん?これ私にも作れるんじゃね???」
という意味の分からないことを思い付いてしまいました。
midi, wavはもちろん、mono_labelもテキストエディタで開いたらめちゃくちゃ単純な仕組みだったので、これは普通に作れるぞと。
問題はこれを作ったところで誰かが使ってくれる保証があまりにも少ないので、一旦保留ということにしました。
構想
女声はきりたんがいるので、競合がまだいない男声データベースを作ることにしました。(私の好み的な意味のほうが大きい)
私自身は歌うのが嫌いではなのですが、収録が物凄い面倒というか疲れるタイプの人間なので誰か音源提供者がいないか身の回りで探すことにしました。
収録者の決定まで
候補は3人いました。
3人とも相互さんで、歌がある程度上手な男性さんです。
Oさんはスタジオに通う必要がありそうなので一旦保留、
Aさんはテストで1曲分試作することになり、
今回の収録者は環境が揃ってるけど一旦保留ということで。
テストにAさんでデータベースを1曲分作成し、明治大学の森勢さんにチェックを貰って本格的に進めていくことにしました。
データベース作成の効率化模索
森勢さんに教えてもらったところ、ラベリングにはWaveSurferというものが使われていることが判明しました。(あと、別の人にPraatというのも教えてもらいました)
でも、ぶっちゃけこのWaveSurferでラベリングするの……
すっごい面倒くさい
というわけで、なにか良い方法がないか考えました。
歌詞付きMIDIを利用して、これをoto.ini経由でlabファイルに変換できれば
という風にめっちゃ効率化できると思い、プログラマさん(ちていこさん、CrazYさん)に助けを求めました。
これがoto2labの開発(していただいた)経緯です。
本格的な制作協議
ある程度制作に必要なベースが整ったので、男声DBを作ることにしました。
あと、「成功するかどうか分からない中、歌を延々と収録するのは流石に酷だ!」と思ったので、収録者のモチベ意地のためにある程度の報酬を渡すことにしました。
※終わりが見えない戦いである場合、報酬は非常に大事です
それに加え、もし歌声DBを公開しても利用されなかったら悲しすぎるので利用してくれそうな方をリストアップしました。
Mさん、Hさん、Nさん、D社、A社……そこまで大勢いる訳ではないですし、からといって扱ってくれる保証も無いですが営業は大事なので、念のために準備しました。
制作終了まで
4月から(ルイナの翻訳で)色々と忙しくなる予定だったので、4月までに制作するのを目標としていました。
結果、ベースはギリッギリ作れました。冗談抜きで死ぬかと思いました😇😇😇
配布までの期間
翻訳作業が物凄く忙しくなり、配布形態や規約整備の時間があんまり取れなかったので、各所に営業をすることにしました。
その結果、D社と黒木先生さんがデータベースを利用してくれることになりました。
そのあと、配布直前期にCHI-TAさんにもデータベースを扱って貰えることになりまして、フィードバックもいただきました。
配布後
最終的にいろいろと落ち着いた4月末になっての配布となりました。
早い段階で山本りゅういちさんに反応貰って「アヒェッヨウ!!!」って感じになりましたし、それから機械学習ガチ勢の方にも広がったので、物凄い「アッヒェヒャホウアエイ!!!」ってなりました。
あと、龍馬さんにも早い段階でフィードバックを頂きました。
感想
次はもうちょっとユルユルしたスピードで、英語DBとか韓国語DBとか作ってみたいな~と思いました(懲りない)(多分ArpabetとX-SAMPAでいいのかな?)
謝辞
最後に、歌声DBを制作するにあたってお世話になった方に感謝の言葉を申し上げたいと思います。
DB構築に必要なプログラムを作っていただいたCrazYさん、ちていこさん。
超絶スケジュールに付き合ってくれた収録者さん。
早い段階でデータベースを使って頂いてフィードバックをくれたCHI-TAさん、黒木先生さん、龍馬さん。
初期段階で色々と問い合わせに快く応じて頂いた森勢さん。
歌声DBの直接的な開発動機になったNEUTRINOを制作したSHACHIさん。
本当にありがとうございました!
新しいAIきりたん!?NNSVSをちょっとだけ試してみた
NETRINOの衝撃からはや2ヶ月くらい、今度は山本りゅういちさんがディープラーニングベースの歌声合成の仕組みを作ってました
ちなみにNNSVSは「Neural Network-based Singing Voice Synthesis/ニューラルネットワーク基盤の歌声合成」の略です
I have created a simple demo for singing voice synthesis (Japanese).
— 山本りゅういち / Ryuichi Yamamoto (@r9y9) 2020年5月3日
Pre-rendered notebook: https://t.co/E5gfG0t5UY
Google colab: https://t.co/LBE8VFZLvq
Enjoy 😊
Who is 山本りゅういち?
LINEのヤバい人です
主にやったことは、
・Paralel WaveGANという仕組みを使ってWavenetと同等、それ以上の品質を叩き出しながらWavenetより高品質
・NVIDIAのWaveGlow論文内で「オープンソースで習得できるWavenetで1番品質高いのは山本りゅういちさん」と言及した
Mean Opinion Scores show that it delivers audio quality as good as the best publicly available WaveNet implementation
平均オピニオンスコアは、一般に公開されている最高のWaveNet実装と同等の音質を実現していることを示しています。
nnmnkwii(ななみんカワイイ)の方
(こう見ると凄い🤔🤔🤔🤔って顔になるが、DNN音声合成用のプロトタイピングに物凄く使いやすい、HTSやMerinに似た仕組みとのこと)
・(恐らく)LINEのGatebox, Line Clovaの開発をあれこれやってる
使い方?
目次より「Synthesis」の次の「musicxmlを選ぶなんとか」みたいな項目をクリックしします
上のランタイムから、「より前のセルを実行」をクリックします。
ここのmusicxml/xx.xmlの数値をいじってどのXMLを使用するか決めます
※1きりたんの歌声DBに存在するXMLのみ使用可能です
※2自作のXMLを使用することは現時点では不可です
ランタイムから「以降のセルを実行」をクリックします
しばらくしたら一番下に合成結果が出てきます
感想
「なんか音程ガタガタしてない……?」って思いますけど、今までずっと話声合成やってて、急に歌声合成に手を出し始めたからというのはあると思います。
例えるなら、硬式テニスの天才が軟式テニスをやると最初のうちはあんまり上手くないみたいな……。
とはいえ、細かい所にきりたんの生声みが出てたり、音程以外に大きな破綻がないのでここから大きく化けそうです。
というわけで、今後の発展に期待です!🤗🤗🤗🤗
中国のAI歌声合成「AISingers」で自音源が制作できるようになってた件について
いつの間にか音源制作の申込みが……
ふと、AISingersの公式ページを見たら「音源制作可能」のところになんか怪しげボタンがありました
なにこれ……ポチッとな
……!?
こ、これは……!音源制作申請フォームが出来てるではありませんか……!?
※この申し込みページを閲覧するには会員登録が必要です
詳細はこちらから↓
という訳で、以下項目の解説です
・AIシンガーの名前(暫定)
・AIシンガーの性別(男/女/その他)
・AIシンガー制作元(個人/非営利団体/営利団体/一般企業/国営企業)
・著作権者(個人名/団体名/会社名)
・申し込み内容(個人、団体、会社の軽い説明、デジタルシンガー制作経験の有無、既存作品、メンバー、プロモーション方法など1000字以内で)
・AIシンガーのプラットフォーム(AISingers以外の音声合成ソフトには使わない予定。/既に他の音声合成ソフトで使用中、AISingersに移植予定/今のところはAISingersのみだが、他の音声合成ソフトに移植する可能性あり)
・収録設備(スタジオ/1.5万以上の設備+静かな収録環境/スマホ収録などorz.....)
・追加情報(連絡先/意見/提案/その他質問事項,)
この前、ベータ版テスターの知り合いに聞いたところ「日本語の対応はまだ」とのことですので、もし中国語の発音が得意かつ歌もある程度歌える人がいるなら申請するのもありかもしれません。
男女新規音源追加!
お~、これは正統派シンガーっぽいビジュアルですね!
聞いた感じ、優しくて可愛らしい声質のシンガーでした。
可愛らしいの方向性が、「ナチュラルな可愛さ」ではなく「声道が未発達で狭くなった感じの幼い可愛さ」という感じなので既存音源との差別化も出来てる感じがします。
こ、これは……頭に2対の羽が付いてる時点で随分とファンタジックな見た目してますね………。
既に音声のみは公開済みの男性音源と違い、閉じた感じのトーンで、優しさがもうちょっと全面に出た感じの音源になってますね。
こちらも用途の差別化ができそうなので楽しみにですね!
AISingersの新シンガー「琉璃liliko」公開!新規企業参入も!?
AISingersの新規音源「琉璃liliko」
この前話題になった中国のAISingersですが、シルエットになっていた新規音源が1人開放されました!
「琉璃liliko」ちゃんです!
では早速声を聞いてみましょう!
【AISingers】中国語AIシンガーに無理やり日本語で歌ってもらった【琉璃liliko】
可愛らしいながら落ち着いた声質です
推奨音域は【#F3 ~ E5】と、ギリギリ2オクターブに収まらないくらいです。
琉璃lilikoちゃんはMUTAの時代からいましたが、プロフィールはすべて謎、持ち物はガラス玉(本体?)
ビリビリ動画の生放送で24時間歌生をやってる以外、変わったプロフィールもない(一応)VTuberらしいです
AISingers新音源!?
それとは別に「R社」という団体が新しい音源を製作中らしく、キャラクターのシルエットが増えていました!
うーん、なかなかすごいシルエットですね……。
公式サイトのデモを聴く限り、少々声質が太めの現実的な(アニメ的ではない)女性音源でした。
次にどんな音源が追加されるか楽しみですね!
自音源も作れる!?中国のAISingers(無料)を使ってみた!
導入
世間がAI東北きりたんWith NEUTRINOでヤバいことになっておりますが、それ以外にそこそこやばいやつを見つけてしまった気がします。
その名も「AISingers」!(安直なネーミングなのがなんとも)
AISingersとは?
AISingersは、ディープニューラルネットワーク(DNN)に基づいた国内の大手音楽AIチームによって開発された歌声合成プラットフォームです。
AISingersは、音声と歌の合成だけでなく、パラメータベースの感情合成もサポートしています。
AISingersは、仮想アイドルIPサウンドライブラリの生産標準とソリューションの完全なセットを提供します。
そう!なんとこのサービス、歌声のみならず、喜びや悲しみなどの感情を込めた音声、ラップも合成できるのです!
AISingersのデモ
では、早速どんな感じか聞いてみましょう!
前半のがっつり調整してる部分はマイクロソフトのりんなのような感じ、後半の無調整部分はSinsyやCeVIOのような印象を受けます
こちらはMUTAとAISingersの両方で音源が出た嫣汐ちゃんのデモです
【AISingers】中国のAIシンガーに初嵐を歌ってもらった【嫣汐+MUTA】
MUTAはキャラぽい可愛らしさが出てるのに比べ、AISingersは生歌感が出てる気がします
AISingersの機能
でも、このサービスの真骨頂はこれではないんです、なんと!
右側に「音源自制」とあるように、自音源が制作できるんです!
制作方法やライセンスなどはまだ不明ですが、どういう形態に落ち着くか楽しみですね!
しかし残念なことに関係者からの情報によると日本語には対応する予定がないとのことです。
これは中国語の歌をめっちゃ歌わないといけないといけないのか……?
開発元・使用可能なシンガー
どうやら開発してるのは「DSoundFont」というところらしいです。
ここは歌声合成ソフト「NIAONIAO(ニャオニャオ)」「MUTA(ミュータ)」などを開発してたところで、現状ではNIAINIAOから余袅袅(ユ・ニャオニャオ)ちゃん、MUTAから嫣汐(イェンシー)ちゃんが移植され、利用することができます。
あとはまだ非公開ですが、シルエットから察するにMUTAから琉璃(リウリ/リリコ)、NIAONIAO慕瑶(ムヤオ)、あとは男女1名ずつシンガーが公開されるみたいです。
AISingersの使い方
こちらからどうぞ~
AISingersの応用
なお、MUTA出身の琉璃と嫣汐に関しては、この技術を利用し、ビリビリ動画で24時間歌配信をやっています。
え……なにそのSF?
中国のポップスのみならず、中国のボカロ、日本の有名なアニソンやニコニコで有名な曲などを中国語で歌い上げるという中々ヤバいことをやっています。
鬼畜曲(MADで有名な曲)にサカナクションの「新宝島」があったのには笑いました
琉璃の解説はこちらから!
感想
AIシンガーの黎明期に差し掛かった今、AISingersやそれ以外の歌声合成がどうなっていくか楽しみですね。
中国のAI歌声合成「AISingers」の使い方
但し書き
下準備の段階での電話番号確保、AISingersの規約確認などは自己責任でお願いします。
下準備
中国の電話番号確保
何故か中国の電話番号でしか登録を受け付けないので、どうにか中国の電話番号を確保します。
私はここで確保しました。
- 大雑把な流れを言うと
- Paypalで10ドル払う
- Serch Projectを押してから「AISingers」を検索し選択
- Number TypeをNon-Virtualに設定してGet Numberを押す
- 登録欄に電話番号を入力して認証コードを得る
って感じです。
※元々このサービスは「AISingers」の登録には対応してなかったのですが、私が連絡したら作ってくれたので、上手くいかないなら運営の方にメールするのもありだと思います。
あるいは、(私は試していませんが)WeChat経由でeSenderでSMSを受け取るのもいいかもしれません。
こちらはバスポートが必要になることもあるらしいです。
会員登録
一番右上の「登録」っぽいボタンを押して、右の欄に上から
- ユーザー名
- パスワード
- 先ほど確保した電話番号
それぞれ入力し、青いボタンを押します
先程のサービス経由でコードが届いたら最後の欄に認証番号を入力し、「規約に同意」のチェックボックスをオンにして登録します。
本番
①公式ページから「NIAONiao_for_AISingers」をダウンロードして解凍します。
②右上のひよこのアイコンをダブルクリックしてシンガーを選択します
私はニャオニャオちゃんになってますが、ここからです
多分文字化けしていますが、「NIAONiao_for_AISingers_v2.2.02_beta\src\モ瑶チ」を選んでください。
※もし認識しない場合、src内のファイル名「余袅袅/モ瑶チ」を「NiaoNiao」などに変更してください
※シンガーアイコンが出ない場合、ここから出してください。
③譜面データを読み込みます
MIDI,VSQx,USTに対応しています
④ピッチを弄ります
とりあえず、ここの「自動調教☆」を押すとすべてのノートのピッチを緩やかに繋いでくれます
そしたら赤い丸のボタンをクリックすると、ピアノロール上にピッチが描けます。
NIAONIAOでの合成結果とAISingersでの合成結果はそれぞれ違うので、大まかな表情付けでいいと思います。
⑤保存してAISingersにアップする
ここを押して、名前を付けて保存します。
上部アイコンの「AI」と書かれてるボタンを押して公式サイトに飛んで、先程保存した.nnファイルをアップロードします。
先に緑色のボタンをクリックしてnnファイルをアップロードした後、オレンジ色のボタンでアップロードします。
⑥シンガーの選択
各シンガーの得意音域、得意音域からはみ出たノートの数が表示されます。
それを考慮して適当に選択してしばらく待てば合成してくれます。
その他
オケ読み込みたい
この部分をダブルクリックするとオケが読み込めます(mp3,Wav)
スライダーで音量が調整できます。
この部分が出てこない場合、これをクリックして表示させてください。
なんかラップっぽい
もしかしてノート配置によってはラップっぽくなる可能性があるので、設定から
「禁用Rap功能」(ラップ機能の禁止)をオンにするといいかもしれません。
(一番左の「确认」ボタンで確定します)