新規歌声DBを制作した「おふとんP」さんにアレコレ聞いてみた【インタビュー】

NEUTRINOから始まった、AIシンガーブーム。

元になった東北きりたんデータベースを真似して歌声DBを作り始めた人が続々と現れました。

今回は、第二の男声音源DBを作成した「おふとんP」さんに話を伺いました！

f:id:crimsonbutterfly0zero0:20200601010928p:plain

本日はよろしくお願いします。では、軽い自己紹介をお願いできますか？

おふとんP：おふとんPと申します。

UTAUメインで活動しておりまして「薪宮風季」という男声音源を制作・配布しております。

直近だと、演歌・フォークソング向けの音源を制作しました。

薪宮風季　開発コード「enka_proto3」
精霊流しを少しだけ歌ってもらった
昭和歌謡を歌うために作ったけど開発コードは演歌だし歌ってる曲はフォーク pic.twitter.com/kksV1AjuVr
— おふとんP (@joumonsugi) 2019年11月4日

またボイスコーポレーターなど、声の依頼なども受け持っています。

フリーゲーム「Astraea」紹介PV：怪物役

それ以外にも「棋譜読みちゃん」という将棋の棋譜を読み上げるソフト用の音源を作成しました。

棋譜読みちゃんで喋らせたみた自分の音源。
こんな感じで読み上げます。 pic.twitter.com/UFxbxzXk4h
— おふとんP (@joumonsugi) 2019年8月6日

歌声合成以外にも様々な声に関する活動もなさっているんですね。

さて、早速ですがおふとんPさんはどうして歌声DBを作成されたんですか？

おふとんP：実のところ、知り合いの伝手で歌声DBを作成する機会を頂けたので、歌声DBがどういうものかは未だによく分かっていません（汗）

言うなれば「歌声DBを作りたい！」というよりは「新しいことに興味があった」という側面のほうが大きかったです。

なるほど、特に歌声DBをどうするか具体的な考えはなかったものの、丁度いい機会だったのでチャレンジした……という感じなのですね。

ではここで歌声DBについて軽い解説をしますね。

歌声DBとは、「機械学習用の歌声データベース」です。

大体50曲(約１時間)歌った音源をラベリング(≒原音設定)し、それにMusicXMLやMIDIなどの楽譜ファイルを同梱することで、大体の機械学習に使用することができるようになります。

一般公開されている機械学習系の歌声合成には、現在「Sinsy」「CeVIO」「NEUTRINO」「AISingers」などがあります。

（歌声DBの詳しい経緯などはこちらから↑）

おふとんPさんの歌声DBはどういった内容になっているんですか？

おふとんP：仕様は以下の通りになっています。

歌った原曲の数：46曲

WAV形式：96kHz/24bit

テンポ：原則BPM100統一

歌った曲：著作権切れの童謡中心

キー変更：原曲キー、オクターブ下げが中心

歌詞：原曲の歌詞+呪文歌詞

ありがとうございます。この「呪文歌詞」というのはどういうものですか？

おふとんP：原曲通りの歌詞で歌うのではなく、音素のバランスを重視して「無意味なひらがなの羅列」で歌う……といった方法です。

UTAU式に言うと「かんかかき……」という収録リストという方が馴染み深いと思います。

なるほど、これはUTAUやってる人には親しみやすい（？）形式ですよね。

この「呪文歌詞」で収録するに当たって苦労した点はありますか？

おふとんP：UTAUの収録で何度もやっていることなので抵抗はないのですが、難読部分があったのでそういった部分を正確に歌い切るのが難しかったですね。

普通の曲を歌うときは数回のリテイクで済むのですが、呪文歌詞についてはその３～４倍のリテイクをしてようやく大丈夫なものが収録できました。

体感としては、替え歌と連続音収録の延長線上にあるといった感じです。

あらら……本当にお疲れさまです。

それ以外に苦労した点はありますでしょうか？

おふとんP：制作で苦労したのはまず、ソフトや機材です。

今回は96kHz, 24bitで収録したのですが手持ちのソフトではこの形式で収録できず、普段使わない新しいソフトを使用しました。

MIDIの音やメトロノームを聞きながら歌う場合、DAWが限られてくるのが痛いですね。

その他にも、歌を歌うときにも「表現として成立したもの」を学習させたほうが良いと思い、呪文に気を遣いすぎて歌としてのっぺりしないように、それと同時に呪文としても成り立つように歌い上げました。

色々とこだわってらしたんですね。

それでは、「こういう事をやってきたから楽だった」という点はありますか？

おふとんP：今まで発声練習とUTAUの収録をやってきたので、そこまで大幅なリテイクをせずに済みました。

それに加え、音響・Mix関係の知識があったので収録がスムーズに進んだのも大きかったです。
特に、収録に際してDAWが使えるか否かでプロジェクトの初動速度が結構変わってくると思います。

初動速度といえば制作期間が結構掛かったと思うのですが、どういったスケジュールで進行していったんですか？

おふとんP：基本的にはMIDIを制作、そのMIDIをもとに歌う、そのデータをラベリング……という風にベルトコンベア式に進行していきました。

・制作期間
発足：３月
完成：５月半ば

録音：土日中心でゴールデンウィーク辺りに完成
ラベリング：配分と分担を決めて進める(４人)
MIDI：配分を決めて５０曲弱を２人で制作
収録用の呪文：ちていこさん

ところで、男声DBに関しては既に「夏目悠李DB」があるのですが、これとどうやって差別化を図ったのですか？

おふとんP：はい、夏目DBと差別化を図るために「フォークソング向けの渋めの声」で収録し、歌い方もそちらに寄せました。

なので、バリトンの高さは綺麗に出るのではないか……と思います。

おぉ～、いい感じにフォークソングを歌ってくれる声、楽しみですね。

もしこれで新しいAIシンガーを制作した場合は、また新しい薪宮風季くん……みたいな感じになるんですか？

おふとんP：いいえ。UTAU用の収録と歌の収録で結構声が変わってくると思うので、今のところは既存のキャラクターを付けるか、新規でキャラクターを付けるかは保留しています。

確かに、喋り声と歌声で結構声質とか変わってきますしね。

もし、仮にこのDBでおふとんPさんそっくりの歌声が作られたらどう思いますか？

おふとんP：自分の下手なところまで再現されそうで怖いです（笑）
それ以上に、こんな未熟な音源を使ってくれるなんて申し訳ないという気持ちですね。

もっと上手ければ、もっと良いものが作れるのでしょうけど。

今のところはまだ活用できてませんが、もし将来的に使えるようになって、出音を気に入って使っていただけるのであれば嬉しいです。

なるほど、私も男声は大好きなので楽しみですね。

ところで、このDBを使う際の規約に関して個人的な注意点はありますか？

おふとんP：はい、夏目悠李DBの規約を流用する許可をもらった上でそちらの禁止事項をやや細かめにしました。

ただ、個人の利用は商用以外制限してないのは夏目DBと同様です。

了解です。では規約に関してや、DBの中身に関して問い合わせたい場合はどちらに連絡すればいいですか？

おふとんP：基本的にはおふとんP宛でお願いします。

ホームページのコンタクトから繋がります。技術的なことに関してはそこから別の担当者さんに回します。

それでは最後に、宣伝・今後の活動予定などを教えていただければ。

おふとんP：UTAUに関しては、プラグインあるいは補助ツールを制作する予定です。

それ以外には、声に関する依頼を積極的に受けて行こうと思っています。

ナレーション、台詞など幅広く受け付けています。

SKIMAからも気軽に依頼できるので、何かご入り用であれば是非よろしくお願いします。

サンプルボイス

ナレーション

やんちゃな青年

いかつい男性

それ以外には、UTAUで喋らせる「HANASU」のやり方を解説した本があります。

紙の本は売り切れたのですが、電子版はまだ販売中ですので、UTAUで喋らせてみたい子がいるなら是非！

はい。それでは、本日はありがとうございました。

どういったプラグインを開発するか、声あての仕事など、活躍を楽しみにしてますね。

おふとんP：こちらこそ、ありがとうございました。

アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

新規歌声DBを制作した「おふとんP」さんにアレコレ聞いてみた【インタビュー】

サンプルボイス