東北きりたん歌声DBの制作者さんにアレコレ聞いてみた【インタビュー】
歌声合成界隈に革命を起こしたAIベースの歌声合成ソフト「NEUTRINO」
特に、東北きりたん(CV:茜屋日海夏)のリアルな歌声を合成できることが非常に大きな話題を呼びました
でも、どうして急に東北きりたんの歌唱AIがリリースされたのでしょうか?
というわけで、今回は「東北きりたん歌唱データベース」を制作した明治大学の准教授、森勢将雅先生にお話を伺ってみました。
本日はよろしくお願いします。
早速ですが、森勢先生はNEUTRINOの開発者ですか?
森勢:いいえ。開発者ではありませんが、これがきっかけで新しいソフトウェアの開発が進んだり、オペレーションや調音(調声,調教...etc)の必要性を再認識して頂ければ嬉しいです。
それに関連して、私の方で研究・開発しているエディタはNEUTRINOや関連する技術で作られた歌声を出発点として、調音作業の手間を削減することを目的にしています。
「誰でも同じく,高いクオリティでの歌声合成の実現」ではなく、人間に近い歌声に対し利用者個々人の思い描く個性が自然な形で反映されるエディタを目指しています.
クリプトン社様が新技術を出してきたので,こちらも現在開発中のもの(6月学会発表予定)でひっそり対抗してみるw pic.twitter.com/lPF5BmLkQT
— M. Morise (忍者系研究者) (@m_morise) 2019年3月6日
なるほど。調節が必要ない「完璧な歌声」ではなく、個人が細かい部分をカスタマイズできるコンセプトをベースに開発をなさってるのですね。
ところで、今回の「東北きりたん歌声DB」はどのようにして実現したのですか?
森勢:歌声データベースを構築することは2018年9月時点で決まっておりました。
直接的なきっかけは私のTwitterでの一言です。そこに東北ずん子公式アカウント様からメンションを頂き、具体的に話を進めていくことになりました。
プロの方にお願いできたのは大変ありがたいです.
今回の歌声データベース作成の下敷きには東北ずん子さんの「新しいものには何でも挑んでいく精神」があってこそ、というのもあった訳ですね。
今ふと思ったんだけど,東北ずん子のUTAU音源があるんだったら,統計的歌声合成用の歌唱データセットの収録ってやらせてもらえないかしら.費用はこっち持ちで.
— M. Morise (忍者系研究者) (@m_morise) 2018年10月1日
ずん子はボカロのみなので、イタコ姉さま、きりたん、他のキャラならぜひやって欲しいです♬♬٩(๑❛▽❛๑)۶♡https://t.co/fPWaTca9kz
— 東北ずん子(公式)💚2/13 きりたん誕生日(🔪・ω・)🔪きり!(🗡・ω・)🗡たんー! (@t_zunko) 2018年10月1日
では、歌声データベースについてです。今回の「NEUTRINO」の反響を見ると「きりたっぽくない」「茜屋日海夏さんっぽい」という意見が多いのですが、なぜでしょうか?
森勢:ハッキリとしたことは言えませんが「歌い方」が茜屋様のスタイルだからだと思われます。
歌唱DBの収録では、「きりたんの声真似」で収録をお願いしました。
歌い方については「どういう指示をすべきかが分からなかった」ため、指示していません。ボカロ的に歌う等の依頼は無理だと思います。
なので、声質に注目するときりたんっぽく、歌い方に注目すると茜屋様っぽく聞こえるのではないかと思います。
確かに、声質だけを聞くと「きりたんっぽさ」が部分的に出現していますが、歌い方は声優さんに引っ張られてるから……というのもありそうですね。
(NEUTRINOで出力した東北きりたんのスペクトログラム)
「きりたんの歌声」というよりかは「声優の茜屋日海夏さん」の歌い方を再現した感じになっていますが、声優さんの仕事と競合しないんですか?
森勢:ここは結構悩んだのですが、今回のDBに関しては「東北きりたん」の再現を目指しており、数ある声優の演技の引き出しのうちの1つを肩代わりできるようにしたという判断です。
どちらかと言うと、クリプトンの「キャラクター・ボーカル・シリーズ」と似通ったコンセプトという訳ですね。あちらは「声質と歌い方のデフォルメ」という路線ですが、こちらはキャラクター性を保った上で「きりたんの歌」として十分使えるものを構築したのですね。
(クリプトン・フューチャー・メディアの公式サイトより)
きりたんの歌声DBをベースに、既存のUTAU音源などから声質データを抽出し、より「きりたんらしい歌声モデル」も作れるのでしょうか?
森勢:理論上は可能だと思います。UTAUで出てきた結果のF0(ピッチ)をNEUTRINOで出力したF0に置き換えることで実現できます。
ただし、どのような音質になるかまではやってみないとわからないです。音素の時間的なズレがあるので劣化しやすく、微調整は必須だと思われます。
ということは、キャラの演技に集中した音声素材を利用して、「キャラの個性を更に際立たせたリアルな合成音声」という表現ができる可能性もあるわけですね。
(AHS公式サイトより)
※歌うVOICEROIDという喋らせるソフトに歌わせるという手法も存在しており、こちらは喋り声のコーパス式データベースを用いて歌わせるので既存の歌声合成よりも「よりキャラらしい」ことになる場合が多い
ところで、UTAUのきりたんは(音質はともかく)超高音も歌わせられるのにAIきりたんではなぜ高音がかすれるのでしょうか?
森勢:これは、合成方法による差です。
UTAUでは元となる歌声の高さを信号処理で調整します。高さの調整に対する破綻が少ない方法を使っていますので品質は落ちにくいです。
一方、NEUTRINOのようなニューラルネットワークベースでは、該当する高さの歌声が存在しない場合の挙動が予測できません。「必ず失敗する」ではなく「予測できない」だけなので、上手に歌える場合もあれば破綻する場合もあります。今回は、それが「かすれてしまう」という形で現れたのだと解釈しています。
なるほど。機械学習がベースになると、人間に「出せる音域」があるのと同じで「使用できる音域を考慮して曲を作る」のも必要になってきますね。
歌わせる音域ですが,A4~D5くらいまではそこそこ歌えると思います.C4~C5くらいはデータ量が安定しています.BPMが140~180がボリュームゾーンでロングトーンは少な目のほうが歌わせやすいです(多分
— M. Morise (忍者系研究者) (@m_morise) 2020年2月22日
音域が狭くなってしまうのは、「東北きりたん」というキャラクターの声質を真似る都合上、声質を維持したまま高域と低域を出しにくいことが原因です。高さの範囲を広げつつ声真似する、というのはかなり難しいと思われます。
キャラらしさといえば、マクネナナのV3も「マクネナナらしさが出るのはC#3~C#4の範囲」ということで得意音域を1オクターブに指定したことで、あちこちでツッコミがあったのを思い出しました。
では、今度は少々マニアックなことをお聞きしますね。
歌声データベース制作に各工程どれくらい時間がかかりましたか?
森勢:収録は5日間に分けて,1回約4時間で実施しました。
収録楽曲は元々i☆Risとしてリリースしたものなので、覚えるための専用の時間は少なく済んだと思います。
MIDIデータの作成は1名が主担当で約1か月、ラベリングはMIDIデータ担当とは異なる1名を主担当としました。
他の仕事もありますので音素ラベリング自体にかかった具体的な時間までは分かりませんが、作業開始から公開まで概ね4か月くらいはかかっています。
だいぶ長期間制作してきたんですね……!
(東北きりたんDB付属の使用曲リスト:計50曲)
50曲収録したとは聞いたのですが、具体的には何分くらいですか?あと、50曲分収録する基準はありますか?
森勢:ラベルデータから計算した音声の存在する区間は約57分です。※readmeでは58分とありますが,こちらは音声分析ソフトで有声区間を算出しているため若干差があります
合成歌唱の品質は傾向としてDBの量に比例しますが、どの程度の量であれば十分であるかは一概に言えません。学習方法等のアルゴリズム、DBの音素・音高の収録バランスに依存するためです。
1つの目安として、NPSS(Neural parametric singing synthesizer)という方法では約31分のデータから高品質な歌声を生成しています。
(NPSSのデモ音声:Sinsyの謡子のデモソングもある)
その他の方法でも独自のデータセットを用意し、限られた楽曲を生成して評価しています。
音源が公開されていないので,妥当な量の計測は簡単ではありません。
むしろ、きりたん歌唱DBが、その妥当性を評価するためのベースラインになり、今後どの程度の量が必要であるかの目安を作れればと思っています。
量が明らかに少ない場合、出現頻度の低い音高や音素等を歌わせた場合分かりやすく破綻します。あらゆる音高・音素等の情報を網羅できていることが1つの目安とは言えそうです。
なお、きりたん歌唱DBでは既存の楽曲をそのまま歌っているので、特に音素の出現バランスはかなり偏っています。
ところで、きりたんの学習曲は著作権の切れていない「i☆Ris」の曲がメインですが、著作権などの権利は大丈夫ですか?
森勢:著作権法が改訂され、新30条の4では「その他の当該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合」に限り利用できることとなりました。
きりたん歌唱DBに収録された歌を聴くことはアウトですが、学習用として聴かずに利用することは問題ないと解釈しています。
ただし,この改訂は2019年にされたばかりです。前例がないので、上記は我々の見解であることに注意が必要です.
(著作権関連参考記事)
今回はリスクを最小限にするため、キャラクターの利用についてSSS合同会社様と相談し、キャラクター物真似で収録する契約を81プロデュース様と契約しました。
(81プロデュース公式サイトより)
81プロデュースは合成音声の導入に積極的な事務所で、結構前の日経インタビューや「発声権」について話題になっていたところですね。
森勢:声優事務所と契約以外で権利上の問題が生じるとすれば、楽曲制作者側からのクレームです。具体的には管理をJASRACに委託しているでしょうから、JASRACと我々との30条の4の解釈の相違が問題になりかねません。
ここでもめた際のリスク回避として、Facebookによるログインを必須にしました。
森勢:今回の場合は,突き詰めると「インタラクティブ配信にあたるかどうか」だと考えており、JASRAC側の主張が認められた場合は配信料が必要になります。そこで「何名がダウンロードしたか」を管理しておくことで、支払うべき金額を確実に計算できるようにしています。
万が一のトラブルに備えてDL人数を割り出し、穏便な手段で解決できるようにしたのがFaceBookでのログインというわけですね。
データベースの利用に関しては問題ないとして、それを利用した合成結果の利用に関してはどうなりますか?
森勢:データベース制作側が関知するのはデータベースの配布と利用に関するところまでで、DBを利用して作られたソフトウェアが出力した結果については、そのソフトウェアの規約に従って頂くことになります。
ただし、ソフトウェアの利用規約には、常にDBの利用規約が包含するようにして頂いています。そうしないと、収録音声を抜き出して出力するだけのソフトウェアを作ることで、間接的に商用利用ができるようになってしまうからです
ということは、ボーカロイドでも度々話題になる「出力音声で音源作っていいか問題」に対して認可はしつつ、商業利用は禁止というスタンスになりますね。
森勢:また、利用する楽曲によっては著作権の問題が出てきます。
それに関しては、ニコニコ動画やYouTube等の公開先で定められた規約に従う必要があります。
今回のNEURINOに関しては、本体の規約以外に「データベースの利用規約の範囲でご利用ください。」とあるので、同梱されてるSinsy謡子の規約ときりたんの規約に従う感じですね。きりたんの出力音声に関しては商業利用できないんですか?
森勢:はい。こちらはVOICEROIDやリアチェンVoiceと同じで東北企業でも商用利用は不可能です。
では、クリエイターの非商用利用に関してはどうなりますか?(原価回収の同人利用も含む)
森勢:本データベースは研究用に構築したものですので、現状は非商用利用に限定させて頂いております。販売したいという方が増えた場合は何かしら対策を考えたいと思います。
2020年2月26日追記:条件付きで同人利用が可能になりました!
【告知・拡散歓迎】NEUTRINO(AIきりたん)で生成した歌声については,東北ずん子のガイドラインに沿ってご利用頂けることになりました!動画共有サイトへの投稿や同人イベントでのCD販売は,東北ずん子ライセンスでは無償で可能です!
— M. Morise (忍者系研究者) (@m_morise) 2020年2月25日
【告知続き】同人イベント以外でCDなどを販売をする場合,1曲1,000円とキャラクターライセンス料(https://t.co/c328ViB5SS)でのライセンス販売とさせて頂きます.登録用サイトは現在制作中ですので,完成し次第追って報告致します.
— M. Morise (忍者系研究者) (@m_morise) 2020年2月25日
TTS分野での商業利用では、既存のソフト買いきり+商業利用ライセンス有償発行(VOICEROIDなど)以外にも色々路線がありますよね
では最後に。
技術者向けに、今後歌声DBの開発者向けの技術的な情報をまとめて公開される予定はありますか?
森勢:はい、今後そういった情報をWebページなどで公開していく予定です。
何か不明な点がある場合は直接問い合わせしても全然OKです。
質問が増えてきたら、Webにて類似質問と回答をまとめる等いたします。
どういう情報が公開されるのか気になりますね……!
今後の歌声合成の発展や森勢先生開発のエディタなど楽しみにしております。
本日はどうもありがとうございました。