DeepVocalに連続音(VCV)形式のUTAU音源を移植してみた - アマノケイのまったり技術解説

発端
原理
VVCVの長所・短所
- ・長所
- ・短所
命名の経緯
シンボル(エイリアス)規則と標準VVCV音素
VVCV音源制作方法
VVCV音源使用方法
未実装要素「連続音のVVCV化」
あとがき

発端

すべてはこの動画より始まりました

DeepVocalに無理やり連続音を導入してみた
mono-pitch VCV test with DeepVocal (in not officially supported way)

UST,原曲：耳ロボP 様
Vo：王縄ムカデ 5音階連続音(G3#のみ)
音源：Calarud 様 pic.twitter.com/mQIM5ORRkw
— アマノケイ (@aman0_kei) August 17, 2019

先日、DeepVocalに無理やりUTAUの連続音音源を移植し、かつ連続音(VCV音素)で歌わせて見ました。

これが案外良い感じに行ったのですが、手動で音源を作るとものすごく労力がかかるので「どうにかツールを使って楽に、かつ既存音源の原音設定を利用できないかな……」と思って、ちていこ様に相談したところ、ツールを作っていただきました。

加えて、開発者様のBoxStar様に試作品をお見せしたところ、唯一の課題であった「音素の繋がりが悪い」点が現在クローズ配布中のアルファ版で直していただいたので実用で来そうな感じがしたのでリリースに漕ぎ着けました。

原理

DeepVocalでは現状CVVC形式しか対応してないので、こんな風にしか接続できません

f:id:crimsonbutterfly0zero0:20190917223535p:plain

そこでアマノケイさんは考えました、なんとかして連続音(VCV)を使うことはできないかと。

その結果がこちらです。

f:id:crimsonbutterfly0zero0:20190917234711p:plain

はい、結合する位置を前の部分にずらしてみました。

見た目としてはCVVCだけど、実質連続音(VCV音素)にしちゃおう！って感じです。

VVCVの長所・短所

・長所

①日本の大多数の日本語UTAU音源はVCVなので、CVVC音源の移植以上に簡易的な移植が可能になる。(ユーザー拡大の切っ掛けになればいいな……)
②モデル構築の際、「無声音が含まれてます」などのエラーが何故か全く発生しない
③既存ツールでoto.iniをdvcfgに変換した際に発生する1.CP、2.PPなどの位置エラーがほぼ発生しない。
④日本語の「ラ」行など、ごく僅かな時間しか鳴らない子音が綺麗に鳴る。

・短所

①子音の長さを調整できない。

②あくまで裏技なので、母音の繋ぎ方が綺麗にならない可能性がある。

③母音のつなぎ目が綺麗に鳴るのが、現在BoxStarさんがTwitterとDeepVocalフォーラムにてクローズ配布中のDVエディタVer1.1.5&DVTB Ver1.1.4であること。

命名の経緯

連続音(VCV音素)の接続をその前の区間でVV音素を使って行うイメージ

なので「VVCV」という名前をつけました

だってそうした方が呼びやすいしかっこいいじゃん

シンボル(エイリアス)規則と標準VVCV音素

・語頭音素

タイプ：CV

すべての「-CV」音素を実装

・VVCV音素

タイプ：CV

例えば「a しゅ」を表記すると「ashu」になります。

「ashu」の内、「ash」が子音扱い(設定区間は「VC」)、「u」が母音となります。

音素の接続はすべて母音間で行われるので、「ash」などはすべて「有声子音」とみなして、「Voiced consonant」リストに入れます。

・VV音素

タイプ：V_X

これは、語頭音素とVVCV、またはVVCV間音素を滑らかにつなぐための音素

母音が「い」の場合「i_X」になるので、例えば上の「ashu」と繋ぐ場合は「i_ash」という表記になります。

※表記上はVCですが、あくまで仕様に則った上での表記で中身は「VV」です

VVCV音源制作方法

VVCV音源使用方法

未実装要素「連続音のVVCV化」

①「e あ」を「eea,ee,a」と記述(nnはナ行子音と共通なので新規で作る必要なし)
②CVを「eea」中身を「e あ」にする
③直前の母音と結合するための「e_ee」(e)を作成
④直後のVV部分の結合はすでに共通部分を作ってるので問題なし
⑤「ea」を入力すると「eea」を参照するように発音記号辞書で設定する