2019-09-17

VVCV音素の使い方【DeepVocal用連続音(VCV音素)】

DeepVocal

入力方法

基本的には「直前の母音」+「ヘボン式ローマ字」で入力します。

たとえば「うた」と入力する場合はこんな感じになります。

f:id:crimsonbutterfly0zero0:20190917224727p:plain

ただ、この方法で手入力をするのは辛いと思うので、この形式を簡単に利用できる方法を書いていきます

簡易的な使い方

必要なもの

・最強プラグイン(Bizz様制作)

「iroiro2.zip」を解凍してUTAUのプラグインフォルダに入れてください。

ux.getuploader.com

・置き換えリスト

予め、最強プラグインの「Replace」→「tikan」ファイル内に「Kana2Hebon_Romaji.txt」「VVCV_Vowel.txt」のを両方入れておいてください。

標準だと「C:\UTAU\plugins\iroiro2\Replace\Tikan」

※大体のUTAU用ローマ字変換プラグインは訓令式なので使用不可

bowlroll.net

・UtaFormatix

USTファイルをDV用にVSQxファイルへと変換するとき必要です

akatsuki.sdercolin.com

手順

①最強プラグインでUSTを単独音にし、「bre」や「a R」などの特殊音素も削除します

f:id:crimsonbutterfly0zero0:20190917230506p:plain

②文字系タブの「文字置換」から、先程tikanフォルダに入れた「Kana2Hebon_Romaji」を選択してローマ字に置き換えます

（真っ赤になりますが気にしないこと）

f:id:crimsonbutterfly0zero0:20190917230759p:plain

③次に、「ローマ字連続」を実行します

f:id:crimsonbutterfly0zero0:20190917231203p:plain

④そして、半角スペースを消去するために「歌詞部分削除」に半角スペース「」を入力して実行します

f:id:crimsonbutterfly0zero0:20190917231411p:plain

⑤最後に、文字系タブの「文字置換」から、先程tikanフォルダに入れた「VVCV_Vowel.txt」を選択して実行します。

その後、USTフォルダを保存します。

f:id:crimsonbutterfly0zero0:20190917232405p:plain

⑥保存したUSTフォルダをUtaFormatixでVSQxに変換します。

一番左の矢印をクリックするか、ドラッグ&ドロップでUSTを読み込ます。

その後、V4のアイコンをクリックし、「OK」ボタンの左隣に配置されている「Keep Original」をクリックして適当な場所にVSQxを保存します

f:id:crimsonbutterfly0zero0:20190917232704p:plain

⑦VSQxファイルをDeepVocalエディタで読み込みます。

UTAUで見たのと同じ形式になっていれば成功です

f:id:crimsonbutterfly0zero0:20190917233033p:plain

2019-09-17

DeepVocalで擬似的な連続音「VVCV音素」を実装する方法

DeepVocal

必要なもの
下準備
VVCV音源制作
VVCV音素の使用法

必要なもの

UTAU用連続音音源(oto.ini付き)

Microsoft Excel

DeepVocal Toolbox

「OTO→DVCFG簡易変換ツールVVCV.xlsm」(ちていこ様制作)

「VVCV用参考シンボルリスト.xlsx」(ちていこ様制作)

www.dropbox.com

下準備

まず、適切な原音設定がなされた連続音用のoto.iniを用意し、以下の項目を満たしてないかチェックします。

・右ブランクの値が0以上

・固定範囲の値が0以下

・先行発声の値が0.02以下

・オーバーラップの値が先行発声の値以上

・先行発声の値が固定範囲の値以上

・固定範囲の値が右ブランク×-1の値以上

・左ブランクの値が65未満

もしある場合は、エラーが出るのでSetParamなどを用いて整備してください。

※このエクセルファイルでは、oto.iniの右ブランクの値がマイナス（＝左ブランクからの相対値）の場合にのみ、正しく変換可能です。setParamを使用して、右ブランクの値をマイナスに変更してください。

f:id:crimsonbutterfly0zero0:20190917205938p:plain

VVCV音源制作

①まず、「OTO→DVCFG簡易変換ツールVVCV.xlsm」を開き、oto.iniの内容をすべてコピーした後、OTOシートのA1セルを選択、ペーストします。

f:id:crimsonbutterfly0zero0:20190917203759p:plain

②次に、音名欄に音階を入力して「実行」をクリックします。

※エクセルのマクロを有効にしないと動きません

f:id:crimsonbutterfly0zero0:20190917204430p:plain

③すると、「OTO→DVCFG簡易変換ツールVVCV.xlsm」の置いてあるファイルと同じ場所に「voice.dvcfg」ファイルが生成されるので、音源フォルダ中のwavファイルが置いてある場所に設置します

f:id:crimsonbutterfly0zero0:20190917212051p:plain

④次に、DeepVocal ToolBoxを開き、「Phonetic Dictionary」を開きます。

f:id:crimsonbutterfly0zero0:20190917212901p:plain

⑤「VVCV用参考シンボルリスト.xlsx」の各シートのデータをそれぞれのタブにコピペします

※現段階でデータがあるのは①～④のタブ/シートのみ

追記：バージョン0.81ををお持ちの方は、１番目のタブに以下のデータも入力してください(0.81m以降は修正されてるので必要なし)

a,a,a
i,i,i
u,u,u
e,e,e
o,o,o

n,n,n

f:id:crimsonbutterfly0zero0:20190917213323p:plain

⑥「Build Voice Config」を開き、「Wav Location」ボタンを押してdvcfgの置いてあるファイルを参照します

そして、「-a」「-i」「-u」「-e」「-o」「-n」をそれぞれ選択してCopyボタンを押しｔて、「a」「i」「u」「e」「o」「n」とそれぞれハイフンがないエイリアスを作成してください。

f:id:crimsonbutterfly0zero0:20190917213834p:plain

⑦最後に、「BUild Voice Bank」を開き、「+」ボタンでdvcfgファイルが置いてある場所をすべて参照します。

「Model Symbols」に関しては上の選択肢にチェックを入れ、「Model File Location」ボタンをクリックし、適当な場所を指定します。

そして、「Build Voice Model Files」をクリックすると、音声モデル生成ログの記録場所を求められるので、適当な名前と場所を指定するとモデル生成が始まります。

結構長いので気長に待ちます。

f:id:crimsonbutterfly0zero0:20190917214220p:plain

モデル生成中、このようなエラーが出る場合は⑥に戻って原音を調整し直す(「2.PP」の位置を少し右に動かすと直る場合が多い)か、wavファイルを再録した上でモデル生成をやり直してください。

音程が不安定な場合、ビブラートが掛かっているwavだと失敗する確率が高いです。

f:id:crimsonbutterfly0zero0:20190917214613p:plain

※VVCV音源に関しては、その他の原因でエラーが出てくる確率が非常に少ないので(筆者に至っては出現率0％)余り気にしないでもよろしいです。

⑧モデル生成がすべて完了したら「Pitch Symbols」に仕様音階をコンマ「,」区切りで入力し、「Singer Name」に音源名(日本語も可能)を入力した後、「Voice Bank Location」を押して適当な場所を指定します。

そして、「Build Voice Bank」をクリックするとまたログの生成場所を求められるので適当に指定します。

⑨暫く待つと、音源作成が終了し、「SKC」「SKI」「voice.sksd」の3つのファイルが生成されるので、それらを１つのファイルにまとめて「C:Program Files (x86)DeepVocalsingers」に設置します。

これでVVCV形式で音源が使用できるようになります。

VVCV音素の使用法

こちらからどうぞ

amanokei.hatenablog.com

2019-08-25

コラム：キレ音源とはなんぞや＆私見

UTAU

キレ音源の由来

キレ音源の由来は、波音リツ新音源発表の際に安価で音源名をつけたことに由来する

安価とは (アンカとは)

インターネット上の掲示板（特に2ちゃんねる）では主に、過去の書き込みに対して返答する際に、その書き込みが誰にあてられた物かを明確にするために用いられる事が多い。

基本的に多くの掲示板では、半角引用符2つにレス番号で自動リンクが張られる。（例：>>1）

（ニコニコ大百科より引用）

2ちゃんねる（特にVIP）では、行動主が、自分がとる行動や送るメール内容を未来のアンカー先に託し、その通り実行する「安価スレ」が定期的に立つ。

（はてなキーワードより引用）

当日、回線が悪かったことにより、生放送中に何度も回線が途切れるアクシデントが多発し、あるユーザーが悪ふざけで投稿したコメント「キレ」が安価に引っかかる。

放送中に居合わせた人は全員この名前をつけるのに反対したが、カノンさんが強行説得したことにより「キレ音源」という名称が付く。

ちなみに、ニコ生のコメントは設定しない限り匿名コメントになっており、誰が「キレ」コメントを投稿したのかは不明であり、これからもずっと知る術はない。

キレ音源の定義今昔

発案者のカノンさん(波音リツさんの中の人)による定義

高音と低音の声質を変えることで歌声に抑揚が付くようにした多音階音源

波音リツキレ音源は「高音で強く、低音で弱く」発声したとのこと

※2012年以前、多音階音源は均一な声質で収録するもの。抑揚は調声でつけるものという思想が大多数を占めており、あくまで合成音の品質・声のキャラクター性維持などがメインという雰囲気であった。

最近の印象(雰囲気)

低音を弱く高音で叫ぶ感じの声で収録する多音階音源

恐らく、波音リツキレ音源がパワフルなボイスだったことにより、「抑揚が付く」＋「パワー系音源である」という印象が強かったことによる。

※カノンさん的には「キレ音源の定義をはっきり行わなかったことにより、昔の意図と今の印象が違ってきてる」事はあまり気にならない模様

キレ音源に対する私見

・「多音階」は現代のUTAUでは「多音階音源全般を指す呼称」

・もし、音源を声質をブレなく一本に絞って収録してるのであれば、UTAU史初期にあった「多音階音源(無印)」になる。

・最近では声質を一本にブレないように意図して収録する人は(キャラ音源を収録しようとする方以外)そこまでいない。

・よって、普通に収録した多音階音源は声がパワフルであろうと、ウィスパー気味であっても「カノンさんの定義である『キレ音源』」(以降『原理的キレ音源』と呼称)になるはず。

・制作した音源が『原理的キレ音源』であっても、声質があまりパワフルでない場合「キレ音源」という名称を付けてしまうと、パワー系を期待した人に突っ込まれるので単に「多音階」という名称を付ける方が多い。

・『原理的キレ音源』を多く作ってる方は、独自の名称を付けている方が多いのでそもそも「キレ音源」という名前を付けない方も多い

例：edge音源(松田っぽいよ)，Acrobat, Balloonなどほぼ全て(戯白メリー)…etc

2019-08-24

歌声合成解説シリーズ②「歌声合成向きの声」とピッチシフトの仕組み

歌声合成解説シリーズ(仮)

と、言うわけでお待ちかね「歌声合成解説シリーズ(仮)」の第二段です

今回は巷でよく言われる所謂「歌声合成向きの声」というのは何か、に関して解説していきたいと思います

第二章　声の仕組み

～前提～

・今の歌声合成技術はかなり発展しているので合成しても残念な音質になることはほぼありません

この内容は(どちらかと言うと)Vocaloid3が出る前よりの技術水準を想定している部分がいくつかあります

・この文章は第一章の「声の仕組み」の内容がある程度頭に入ってると理解しやすい部分があるので、事前に読んで置くことをおすすめします

amanokei.hatenablog.com

①倍音の種類

一章にて「声は基音から倍音で構成される」と解説しましたが、倍音にも大きく分けて二種類の倍音が存在します

それは「整数次倍音」と「非周期性成分(非整数次倍音)」です

（ ※非整数次倍音は決まった音を発するわけではないので厳密に言うと倍音ではないのですがあくまで2者構造のためにここでのみ表記します）

整数次倍音はこの前解説した「第n次倍音」に該当する部分で、「声の芯や特徴」を構成する重要な要素です

f:id:crimsonbutterfly0zero0:20190512205554p:plain

非周期性成分は、その下の周期性が不明瞭でゴワゴワとした部分や、高めの整数次倍音がゴワゴワに埋もれてはっきり見えない部分のことを指します

こちらは主に「息の成分」など、声のハスキーな要素を構成します

②「歌声合成向き」の声質とは？

結論から言いますと「非周期性成分が限りなく少ない声」が歌声合成には向いています

つまり、「ハスキーとは無縁の声質」「ほとんど芯しかない声質」が合成には有利なわけです

ここで、私が2017年のマジミラでクリプトンの社員さんにした質問を見てみましょう

私「ボカロエンジンに相性いい声ってどんなんですかー？」

栗社員「ボカロエンジンはロリコンなんです」

( ﾟдﾟ)
— アマノケイ@依頼受付中 (@aman0_kei) November 8, 2017

この答え方、ふざけてるように思えて実はかなり的を得ています

人間は歳を取るにつれて声帯などの発声器官が衰え、息が漏れたり嗄れた声になっていきます。つまり「ハスキーな声」になる訳です。

加えて、女性の声の成分におけるザラザラ感(非周期性成分)の割合は男性の声よりも低いす。

なので、「女性＋若い＋notハスキー」の組み合わせが原理的には一番歌声合成に適しています。

クリプトンのwat氏が500人の声優の声を聴き込み、初音ミクの中の人（藤田咲さん）を選んだ理由も「不自然に作った演技ではなく、自然なロリボイスが出せている」という理由であったので、当時は声質が非常に重要であったことがわかります

③どうして息成分が多いと合成に不利なのか？

息成分というのは単純に言うと「ノイズ」です。

そして、ピッチシフトをする際の信号処理の過程でそのノイズ成分が「増幅」される場合があり、そうするとどうしても「ザラザラ」「ゴワゴワ」した声になりやすいという感じです。

ピッチを上げる時

こちらは440HzのA4「ラ」の音の波形です(「あ」の発音)

一番左の基音は大体440Hzで、上の緑色の曲線は大まかなスペクトル包絡です。

(この曲線の形が似ていると声質が似てると感じることができる)

f:id:crimsonbutterfly0zero0:20190824215439p:plain

これを、１オクターブ上の880HzのA5(ラ)に加工する場合、すべての周波数を2倍になるように処理すればいいのでこういった形になります

f:id:crimsonbutterfly0zero0:20190824220947p:plain

問題は、聴いて分かる通りスペクトル包絡が元音声に比べて大幅に変わっていますので俗に言う「コロ助声」みたいな感じになってしまいます。

これを元の形に戻すためにEQ(イコライザ)処理を行います。

緑色の曲線が本来のスペクトル包絡なので、現在の黄色いスペクトル包絡から余計な成分(ピンク色の部分)を削ることで元の音声に近づけることができます

f:id:crimsonbutterfly0zero0:20190824221703p:plain

そうして完成したのがこちらの波形です。

f:id:crimsonbutterfly0zero0:20190824231616p:plain

オレンジ色の曲線がこの波形のスペクトル包絡です。

EQ加工前に比べると、より本来の音声に似た雰囲気になってると思います。

ただ、ピッチを上げる場合、本来持ち合わせている音の成分(主に高域)を削るので確実に音がボケます。

目に見えて劣化するというほどではないですが、声の太さが結構細くなってファルセットや比較的音の構造が単純なリコーダーのような声質に近づきます。

ピッチを下げる時

前の例と同じく、440HzのA4「ラ」の音を１オクターブ下の220HzのA3(ラ)に加工する場合、すべての周波数を半分になるように処理すればいいのでこういった形になります

f:id:crimsonbutterfly0zero0:20190824222918p:plain

やはりこちらも、聴いて分かる通りスペクトル包絡が元音声に比べて大幅に変わっていますので、なんというか……めっちゃ太い声になってしまいますので、こちらも加工を加えます

f:id:crimsonbutterfly0zero0:20190824223707p:plain

ピッチシフト後のスペクトル包絡と本来のスペクトル包絡と比べると、音の成分が大幅に欠けているので、今度はEQで足りない水色の部分を加算します

そうするとこんな感じになります

f:id:crimsonbutterfly0zero0:20190824224049p:plain

EQ加工後のスペクトル包絡が本来のスペクトル包絡と合致しているかと言われると微妙ですが、加工前に比べると比較的自然な声質になったのでその点については良しとします。

しかし、今回はピッチを上げる場合に比べてものすごく劣化しているように思われます。一体何故なのでしょうか？

低音へのピッチシフトする方が劣化している理由

それは、EQを使用する場合に避けて通れない問題「一定の音を増幅させると必ず劣化する」というのに起因します。

例えば声の一部の周波数をEQで増幅する場合、先ほど出てきた高域に多い息成分(ノイズ)「非周期性成分」も一緒に持ち上げられ、ザラザラ感が妙に増えてしまうわけです。

もし、音量を単純に大きくする（全帯域を増幅する）のであれば、バランスが取れているので問題ないのですが、「声質を戻す」等の処理で一部のみ帯域を大きくするとその部分だけどうしても悪目立ちしてしまいます。

つまり、息成分が多ければ多いほど、加えてそれが整数次倍音と分離しづらい場合、合成には不利なのです。

④現在の歌声合成での非周期性成分(ノイズ)処理

現在は処理にいろんな工夫がなされているため、昔ほど劣化はひどくありません。

例えば、VOCALOID(恐らく２以降)は息成分をホワイトノイズ（テレビで何も流れて居ないときに流れる砂嵐の「ザー」って音）を用いて処理することにより、演算を簡略化し、そこそこスピードでそこそこ良い感じの出力が実現できています。

なお、非周期性成分は不規則な現れ方をするため、その成分を計算し、合成することは難しいです。

なので、単純に引き伸ばすタイプの合成エンジンよりかはループするタイプの合成エンジンのほうが息成分がきれいに出やすいというのはあるかもしれません。

結論

・人間の声は「整数次倍音」「非周期性成分」の両方の成分があって、そのバランスで大まかな声質が決まるよ

・最近のエンジンや一昔前のエンジンって大体良い感じなので、「自分の声合成に向いてない！」っていうのはめったに無いと思うで

・むしろ発声方法の問題が大きいと思うからボイトレしたら良い感じの音源収録できるかもよ

・日本のネットボイトレ講座は声の中途半端な知識を用いたオカルトっぽい人が多いから、このシリーズの知識を持ってると「あーはいはい嘘乙」って回避できるよ

(※特にXY軸を整数・非整数次倍音でとった「倍音ダイヤグラム」とか意味分からないの提示する人は気をつけよう)

※今回の音源の加工及びアップロードは音源の権利者であるカノン様に許可を頂いて作成したものです）

2019-08-23

ボカロの出力音声をUTAUとかに組み込んでいいかクリプトンに問い合わせてみた話

VOCALOID

事の発端
問い合わせの結果
エンドユーザー使用許諾契約(EULA)の解釈
結論

事の発端

VOCALOIDを普通に調声するのも飽きてきたので、何か簡単で面白い方法はないかな～ってことを考えた結果思い浮かんだのが「VOCALOIDのエディットが面倒くさいから音声だけ書き出したあとUTAU音源に構成すれば楽になるんじゃね！？」というアイデアでした。

エンドユーザー使用許諾契約(EULA)を何度も読み返し、先人達の資料を読み返した結果、「問題無さそう」という自分なりの結論が出ました。

しかし、「規約違反なので駄目だ」という意見もあり、結局の所どっちなのか分からなくなってきたのでクリプトンに問い合わせてみることにしました

問い合わせの結果

非常に面白い回答を頂きまして、記事にまとめようと思ったところ……

f:id:crimsonbutterfly0zero0:20190823194231p:plain

はい、ということで問い合わせ内容については公開してはいけないので、使用許諾契約を「私の解釈」の範囲で書いていこうと思います。

１※　これはあくまで私的な解釈であり、この解釈を念頭に行動を取り、何らかの不都合、不利益が発生し、また、損害を被った場合でも、アマノケイはそれに対し一切の責任を負いませんので予めご了承ください。

２※　もし、直接的な回答を貰いたい方はクリプトンに直接問い合わせると明確な返事がもらえると思われます

エンドユーザー使用許諾契約(EULA)の解釈

今回は「初音ミク V4X エンドユーザー使用許諾契約書」を元に解釈をしていきます

https://ec.crypton.co.jp/download/pdf/eula_MIKUV4X.pdf

(他のVOCALOID音源もヤマハが出しているVOCALOIDのEULAをベースに規約を作成しているので、そこまでは変わらないと思いますが個別に確認しておいたほうが吉です)

まず、今回の解釈に必要な部分を以下に引用します(大事そうな部分は強調)

第１条（定義）

本契約において使用する用語の意味は、以下の各号で定義されるものとします。

（中略）

（２）「本製品」とは、「初音ミク V4X」を構成するコンポーネントのうち、「本ライブラリ」および「VOCALOID API（以下「API」といいます）」部分をいいます。
なお、「初音ミク」「VOCALOID」「ボーカロイド」「VOCALO」「ボカロ」は当社らの商標です。
（３）「本ライブラリ」とは、本製品に含まれる VOCALOID4 用の音声ライブラリ（関連するあらゆるアップグレード版や修正版等も含む）をいいます。
（４）「エディター」とは、本ライブラリを参照しながら、歌唱・発話の合成を行うソフトウェア（関連するあらゆるアップグレード版や修正版等も含む）をいいます。
（５）「合成音声」とは、エディターおよび本ライブラリを使用することによって生成される、あらゆるオーディオ出力をいいます

（中略）

第 4 条（禁止事項）
本製品または合成音声の使用にあたり、以下の各号の行為は禁止されています。
（１）ユーザーが公序良俗に反する歌詞を含む合成音声を、公開または配布すること。
（中略）
（４）本製品の全部または一部を、ユーザーまたは第三者のソフトウェアのコンポーネントとして使用し配布すること。
（５）本製品を、逆コンパイル、逆アセンブル、リバースエンジニアリング、その他読解可能な形式に変換する手段を用いて解析すること。
（６） 本製品の全部または一部を、複製（ディスクに収録されている形式、他製品用・再販売用にフォーマットを変換した形式、ミキシング、フィルタリング、リシンセサイズした形式、第三者が入手可能な形式その他形式の如何を問わない）、公衆送信（公開掲示板や FTP サイト、WEB サイト、ストレージサイト、P2P ネットワーク上等で送信可能な状態にすること、インターネット上で第三者へ電子的に転送や配信すること、不特定多数のユーザーがア
クセス可能なネットワーク・コンピューター／サンプラー上に格納すること、その他公衆送信すること）、譲渡、貸与、頒布、改変、または翻案等の行為をすること。
（中略）
（１０）本契約に違反すること。

関門その１……第４条（４）

第４条（４）で禁止されているのは「本製品の一部または全部」を他のソフトなどに組み込み、配布することです。加えて、「使用し配布する」と書かれており、「または」など何方かが当てはまった場合の表現が入っていないので、「利用と配布が両方行われた時」が禁止事項に該当すると判断できます。

実際のところ、利用をせずに配布を行うのは不可能であるので、あくまで個人的な範囲の利用かつ、自分以外がすぐに使える状態にならない利用方法なら問題ないかと思われます。

万が一、「合成音声」を利用した「第三者のソフトウェア」が「本製品」と同一または近似したものである場合、その他の禁止事項に抵触する可能性が高くなりますが、第４条（４）に関しては、前述の通り個人的な範囲での利用は問題ないかと思われます。

関門その２……第４条（６）

第４条（６）で禁止されているのは「本製品の一部または全部を、複製……(後略)」することです。

ここでは最後に「…、または翻案等……」と書かれていますので、並列したどれか１つの内容に該当すると規約違反になってしまいます。

ここで、第１条（２）を参照すると「本製品」の定義が「ボーカロイドの音源＋Vocaloid API」であることが明記されており、それと当時に「合成音声」についての定義も記載されています。

なので、ここでの主な論点は「本製品の非正規ユーザー(俗に言う割れ、クラック)」であることがわかります。

もし、「合成音声」を利用した「第三者のソフトウェア」が「本製品」と同一または近似したものであると解釈する場合、ここで複製などが禁止されるのは「合成音声＋第三者のソフトウェア」であるので、他人に譲渡しないで個人で利用する分には問題ないという解釈ができます。

関門その３……第３条（追加の許諾が必要な場合）

さて、ここで禁止事項に関する部分がクリアできたので、次はその利用方法に抵触しそうな場合を見ていきましょう。

第３条（追加の許諾が必要な場合）
１．ユーザーは、自らが生成した合成音声を、商用または非商用を問わず利用することができます。ただし、以下の各号に示す目的または形態で使用する場合は、事前にクリプトンまでお問い合わせください。なお、使用形態によっては、ライセンス料を含め、追加の使用許諾契約をさせていただく場合があります。
（１）合成音声を用いた商品・役務における表示
「VOCALOID」「ボーカロイド」「VOCALO」「ボカロ」、本製品のタイトル（「初音ミク V4X」または「初音ミク」）、またはその他これらに類する表示（以下「契約表示」といいます）を、合成音声を使用した以下のような商品・役務において記載する場合
(中略)
（４）機器への組込みその他の音源としての使用
前二号に定めるものの他、家電、ロボット、パチンコ等のアミューズメント機器、カーナビ等車載用機器、電子楽器、DTM 含む PC ソフト、
スマートフォン用アプリ、タブレット用アプリ等の電子計算機端末用アプリ、またはゲーム等の音源として合成音声を使用する場合。

ここの部分に関しては、（４）が抵触しそうな感じがします

しかし、（１）を見てみれば分かる通り、「VOCALOID」「初音ミク」などというタグを付けて動画を投稿するのは私的な範囲で現在進行系で許容されている行為であるので、並列されているこの部分に関しても余り関係ないとみなせます

最大関門……それを初音ミク、あるいはボカロと呼称していいのだろうか

理念的な問題絡みではありますが、ボカロのWAVをUTAUに組み入れて音声を合成した場合、これは規約における第１条（２）「本製品」を用いて合成された合成音声では無いとみなせます。正式に言うと、これは「『本製品』を用いて合成された「合成音声」を更に別の手段で合成したもの」です。

なので、別のソフトを利用して再合成した場合、VOCALOID、キャラクター名を掲載するのは駄目な可能性があります。

「初音ミク」という名前を関しては声のアイデンティティが保持されている云々なので、最小限では素材としてクレジットする、最大限では動画のタイトルや説明文に積極的に組み込むのも下手したらありかもしれませんし……他のソフトで合成したことがバレなければいいかもしれませんが……うーんどうなんでしょうね、この辺りについては私はクリプトンではないので断言できません。

VOCALOID表記に関しては無し、あるいは説明文に少し記載するのが限界だと思います。例を挙げると、VOCALOIDによって初音ミクの歌声を機械学習させたものをCevioで再現した場合、確かにVOCALOIDのエッセンスはありますが、それは「Cevio」であって「VOCALOID」ではありません。

あと、これはあくまで推測ですが、クリプトンが「初音ミクトーク」の説明文にVOCALOIDを入れなかった理由は「合成音声」をGoogleアシスタントで利用する際、何からの再合成が加わっているせいなのかな……？という気がします、あくまで推測ですが。

www.crypton.co.jp

結論

①(あくまで個人的に見た感じ、規約上ボカロの出力音声をUTAUやその他個人開発のソフトの組み込むのは、その音源やソフトを「二次配布しない限り」大丈夫そう。

②メールの内容は公開できないけど、俺はKAITOV3 StragihtかV1をUTAU音源にするぞおおおおおおお！！！！！！！！！（あくまで個人的な解釈に基づいた個人的な利用範囲での話であり、自己責任です）（他にもやることあるので言うだけタダ）

③どうしてもメールの内容が気になるなら公開していいかどうかを含めて自分でいい感じに質問考えて自分で聞け！！！！！！！！！！！

2019/08/24追記

私がクリプトンに問い合わせた際の文面を参考程度に載せておきます

あと、返事が約1日という速さで来たので案外問い合わせてくる人が多くてテンプレ化してるかもしれません。

f:id:crimsonbutterfly0zero0:20190824194244p:plain

2019-08-18

DTMer寄りの観点で、メジャーな歌声合成ソフトに(F○te風)パラメータを付けてみた！

歌声合成全般

そいえば各種の歌声合成についての説明は色々あるけど、全体的に評価したものは無い感じがしたので、主に以下の項目で勝手にランク付けしてみました

ベタ打ち性能
エディタの操作性
声質パラメータの豊富さ
パラメータの編集方法
DAWとの提携
重さ
音源の豊富さ
有志による内部拡張性
導入コスト

なるべくは私情は入れないようにしていまが、独断と偏見が大いに含まれている可能性があるのでご了承ください

正直DTMer寄りか微妙な部分もあります

評価ランク付け一覧
VOCALOID4
VOCALOID5
VOCALOID4.5 (for Cubase)
Piapro Studio
Piapro Studio NT
UTAU
UTAU-Synth(上記UTAUのMac版)
CeVIO
CeVIO AI
CeVIO Pro
DeepVocal(Sharpkey)
SynthV(+AI)
NEUTRINO
結論

評価ランク付け一覧

S(大変よろしい)……非常に使い勝手のよろしいもの、そのソフトのアイデンティティ

A(良い)……使い勝手の良いもの

B(普通)……標準的な機能で特に過不足がない場合

C(悪くはない)……一応出来るけど微妙な場合

D(無理み) ……お世辞にもあまりよろしくない

EX(規格外)……分類不能 or あまり例を見ないもの

X(評価不能)……存在しないのでそもそも評価できない。

VOCALOID4

・ベタ打ち性能(無調声時のクォリティ)……B～C

特にこだわらないのであれば問題ないレベル。

・エディタの操作性……B

標準的なMIDI シーケンサーベースなので比較的分かりやすい。

・声質パラメータの豊富さ……A

ピッチ、ダイナミクス、フォルマントなどの基本的な値以外に、声質モーフィング、グロウル、声の明暗、息っぽさなどを調整出来る。

・パラメータの編集方法……B～C

画面下部のUIから各種パラメータ調整できるので直感的。

ただし、ピッチベンドのパラメータに関しては音程(cent)の幅を変更するタイプなので、大きな値でピッチを弄ろうとすると難しい。

・DAWとの提携……C

公式で提携手段が提供されてるわけではないが、ありばば氏によるRewire用プラグインが配布されているので不可能ではない。

web.archive.org

・重さ……C

複数トラックでなければ基本的に極端に重くなることはないが、稀に単体トラックでもメモリ不足が発生して保存→開き直しを行うしかできない場合が発生する。

・音源の豊富さ……A

色んな会社がいろんな音源をリリースしていた。

拡張音源を含めると100個以上の音源が存在する。

・有志による内部拡張性(プラグインなど)……B

lua言語で一部の作業を簡略化出来るプラグインを作成することが出来る。

しかし、ヤマハ公式が配布してた構文テンプレートはVOCALOID STORE閉店により手に入らなくなってしまったので少々敷居が高い。

・導入コスト…… D

廃盤になったため、プレミア価格がついている。

総評・・・B

可もなく否もなく、標準的な歌声合成ソフト(だった)

VOCALOID5

・ベタ打ち性能……B

(ピッチ補正は必要かもしれないが)Singing Styleでピッチを自動付加してくれる機能があったり、生っぽいワンフレーズもあるのでそこそこ良い。

・エディタの操作性……C

VOCALOIDをベースとしながら色々な機能を追加したせいで、UIがゴチャゴチャして見づらく取っつきづらいが説明書を見ながら操作すればなんとかなるレベル。

・声質パラメータの豊富さ……S

VOCALOID4の声質モーフィングが廃止されたとはいえ、新たに声の強弱、リアルな息っぽさを調整できるパラメータが追加。

ピッチやダイナミクス、ボーカルフライ(エッヂボイス)などの声の装飾をワンボタンで付加できるプリセットボタンが追加。

・パラメータの編集方法……C

パラメータの制御点はクォンタイズに依存するので、オフにしないと滑らかなオートメーションが描けない。

V4で使用できた「別のパラメータを背後に表示しながらそれを参考にパラメータを描く」戦法が使用できなくなった。

・DAWとの提携……B

VST2により、各種DAWと提携可能。

・重さ……C

アップデートによりレンダリング時間が許容範囲内に。

・音源の豊富さ……B

V2の音源が使用できなくなったのに加え、V5音源はヤマハがリリースしたのを除けば2パッケージしか出ていない。(桜乃そら、鳴花ヒメ・ミコト)

・有志による内部拡張性(プラグインなど)……D

VOCALOID4で使用できたプラグイン等が一切使用不可能に。

・導入コスト…… C

アップグレード版で最低16,500円、なしの場合25,000円なのでややハードルが高い

・声ネタ……EX

標準で英語と日本語の声ネタなどが豊富に入ってる。

▷カウントダウンなどの標準的なもの。

▷「check it out!」という英語ネイティブフレーズ。

▷お祭りなどで聞く「どっこいしょ～！どっこいしょ～！」みたいなどこに使えばいいか分からないもの。

▷いい感じに調声済みのボカロフレーズ。

などが入ってるのでトラックメイカーにはおすすめ。

その他に、ExVoiceと呼ばれるボカロの生セリフ集も格納されるようになったので便利かもしれない(現在、鳴花ヒメ・ミコトのみ )

総評・・・B～C

V5が初めての歌声合成ソフトなら問題ないが、以前のバージョンのボカロを弄っていた場合は仕様の違いに困る場合がある

VOCALOID4.5 (for Cubase)

※基本的にはVOCALOID4と同じなので一部省略。

・DAWとの提携……EX

Cubase限定だが、VOCALOID4のすべての機能を有しながらCubaseのトラックとして呼び出せるのは非常に強い。

Midiキーボードがあればダイナミクスとベロシティを適応した状態でノート入力が可能

Cubaseに最適化されているのでV4 Editorよりも軽い。

・音源の豊富さ……S

V5,V2音源が使用できるのでV4よりも使える音源の単純数は多い。

・導入コスト……B~C

VOCALOID5の導入が必須な上、Cubace(少なくともAI)も必要なので全体的なコストは高め。ただ、それを考慮してもVOCALOID4エディタ(V4.5)は優秀なのでコスパを考えると悪くないかもしれない。(お財布と要相談)

総評・・・EX

Cubaseユーザーで以前のボカロを弄っていた場合、V5を購入してこっちのみ使用するのも十分あり

Piapro Studio

・ベタ打ち性能(無調声時のクォリティ)……C

VOCALOID4と同じ。

・エディタの操作性……B

基本的にはVOCALOID4とほぼ同じくらいの操作性。

しかし、こちらはピアノロール上に常時ピッチラインを表示してくれるので、何かしら編集するたびに消えるV4よりは使い勝手が良い。

・声質パラメータの豊富さ……EX

基本的にはVOCALOID4と同じだが、クリプトン社製の「V4X」と銘打たれた音源に関しては「E.V.E.C」機能が使用できる。

母音の音色差し替え、リアルな語尾息の追加、子音のアタックの強弱など。

・パラメータの編集方法……B

エディタ下部に複数のパラメータスロットを表示可能。

制御点はクォンタイズに依存するのでVOCALOID5とほぼ同じ操作性。

・DAWとの提携……S

VSTとAUに対応しているので基本どんなDAWでも連携可能。

・重さ……B

重くはないが、動作が不安定なので落ちることが結構ある。

・音源の豊富さ……A

VOCALOID4と同じ。

・有志による内部拡張性(プラグインなど)……D

強いて言うならエディタに何かしらの画像を透かしで表示できる、シンガーのアイコンを自由に設定できる程度。

・導入コスト……B

初音ミク単体を買うとエディタのみならず、DAW(Studio Oneのピアプロエディション)も付いてくるので非常にお得。

総評・・・A

初めてボカロを買う場合でクリプトンボカロを使いたい場合はこちらで十分

V2～V4なら他の会社のボカロも使用できるのであまり問題ない

Piapro Studio NT

・ベタ打ち性能(無調声時のクォリティ)……D

最近は比較的良くなったが、子音の音質があまり良くないので微妙なところ。

・エディタの操作性……A

Piapro Studioからそのままピッチカーブをピアノロール上に描けるようになったので使い勝手が良い。

・声質パラメータの豊富さ……EX

現状ではE.V.E.C機能の内、母音のアタックの調整しか使用できないが、母音のアタック速度、声の強弱、息の混ざり具合、グロウルの付加など様々なエディットができるようになる。

・パラメータの編集方法……A

エディタ下部に複数のパラメータスロットを表示可能。

制御点はクォンタイズに依存するのでVOCALOID5とほぼ同じ操作性。

・DAWとの提携……D

現状は初音ミクV4Cに付属されていたスタンダロンバージョンをベースとしているので、DAWとの提携はできない。

伴奏は読込可能。

・重さ……C

重くはないが再生がガタついたり、動作が不安定なので落ちることが結構ある。

・音源の豊富さ……D

現状では初音ミク(Original, Dark, Whisper)しか存在しない。

・有志による内部拡張性(プラグインなど)……D

強いて言うならエディタに何かしらの画像を透かしで表示できる、シンガーのアイコンを自由に設定できる程度。

・導入コスト……C

Piapro Studioとあまり変わりはないが、こっちのエディタは拡張性がないので相対的に評価が低い。

総評・・・C

VOCALOIDエディタのピッチ操作が嫌いなら検討の価値はあり

現状では余りおすすめできないので、さらなるアップデートを期待

UTAU

・ベタ打ち性能(無調声時のクォリティ)……D

基本的には目も当てられないレベルになる。(ノートと歌詞だけ打ち込んで何もしない場合)

・エディタの操作性……D

普通のMIDI シーケンサーと比べるとめっぽう特殊な動作をしているうえ、初見で使うには落とし穴が多いので独学で使うには非常に難しい。

誰か詳しい人に教わると難易度は下がる。

標準機能ではモノトラックでしか使用不可。

・声質パラメータの豊富さ……B(EX)

豊富ではあるのだが、各数値が抽象的なのでどのような効果が出来るのか直感的に分からないので使い勝手は悪い。

例：g+, Mt+49, A40, H50, B20

・パラメータの編集方法……B(EX)

ピッチがピアノロール上に表示され、制御点付きで調整できる点やビブラートのエディタが直感的など、良い点もある。

しかし、声質パラメータはノート毎に入力するタイプなので連続的な操作は不可能。

・DAWとの提携……D

標準機能のみだとオケを読み込む機能もない。

・重さ……C

全く重くはないが、再生する場合は選択部分をいちいちレンダリングしないといけないので不便。

・音源の豊富さ……EX

※後述の音源制作参照。

・有志による内部拡張性(プラグインなど)……EX

ピッチをピアノロール上にフリーハンドで描けるようにしたり、歌詞の一括変換、自動調声、スケール自動判別コーラス生成、スキャット化など、有志による様々なプラグインが配布されている。

加えて、有志による「合成エンジン」も各種配布されているので、様々な合成メソッドを試せるのに加え、『標準エンジンと相性が悪くても別のエンジンでは相性がよろしい』といったことも試せる。

※上で評価を「(EX)」と表記したのはこのため。

・導入コスト……EX

エディタを含め数百、下手したら数千種類もの音源が無料で使用可能。

エディタの有償版は存在するが、幾つか機能のおまけが増える程度のもの。

ただし、雑誌「Windows100%」に収録されている音源については現在ではやや入手困難である。(金田朋子、門脇舞以などの有名声優による音源が存在)

・音源制作……EX

自分で音源を自由に制作できる

使い勝手はさておき、子音と母音の区別がつくのであればどんな外国語音源も作成できるうえ、エッジもグロウルも、パワーボイスもウィスパーボイスも、どんな表現も詰め込める。

肉声のみならず楽器や動物の声、ホワイトノイズなど様々な音源が作られ、配布されている。

総評・・・EX

使い方がある程度分からないと真価を発揮できないが、潜在能力がやばい

UTAU-Synth(上記UTAUのMac版)

・ベタ打ち性能(無調声時のクォリティ)……C

Win版よりはまだまし。

・エディタの操作性……B

Win版よりも標準的なMIDI シーケンサーに近く、使い勝手も悪くない。

同一音源であれば8トラック作成可能。

・声質パラメータの豊富さ……B

Win版をベースに標準的な機能は揃っている。

・パラメータの編集方法……B

Win版と同じく、制御点付きのピッチをピアノロール上に描いたり、直感的なビブラートエディタが使える。

・DAWとの提携……D

伴奏読み込みも不可能。

・重さ……B

重さはそこまでない上、レンダリング時間はWin版よりは早くなる。

・音源の豊富さ……EX

Win版のUTAU音源を流用できるので同等。

・有志による内部拡張性(プラグインなど)……D

仕様上、プラグイン機能は廃止。

・導入コスト……A

定期的に公式サイトに行ってアクティベーションコードを入力する必要はあるが、完全フリー。

総評・・・EX

Bootcampなどを使わず、Mac環境で手軽にUTAUを使いたい場合はおすすめ

CeVIO

・ベタ打ち性能(無調声時のクォリティ)……B

収録時の歌声の調子を真似るのでいい感じに歌になってる。

・エディタの操作性……A

メインで使う機能のUI部分はシンプルに抑えられており、右クリックやツールバーにて細かい機能やオプションの適応が可能。

・声質パラメータの豊富さ……C

パラメータはフォルマントしかない上に、トラックごとに単一の値にしか指定できない

ノートに「※」入力でファルセットに切り替え可能。

・パラメータの編集方法……S

母音アタックや子音タメの発声タイミングを調整できる上、各種パラメータをピアノロール上に描ける。

背後に別のパラメータを表示することやも可能。

・DAWとの提携……D

伴奏はインポート可能。

・重さ……A

落ちることはめったにない上、レンダリング待機時間も短め。

・音源の豊富さ……B(C)

日本語音源が9種類(女:5, 男:4)、英語女性音源が1種類。

(現時点で購入可能な音源は日本語女性2人, 男性1人, 英語女性が1人のみ)

・有志による内部拡張性(プラグインなど)……D

強いて言うならシンガー選択時のキャラ画像を変更できる。

・トーク機能……EX

使用キャラは限られるが、トーク機能を使ってセリフを作成したり、音程をcent単位で指定できるのでラップ調のトークや、トークをベースとしたボーカルも作成可能。

・導入コスト……B

ある程度のお手頃な値段で女性1人のソング＆トーク、男女各１名ずつのトークが使えるのでお得。

総評・・・B-

CeVIO AIの出現によりやや微妙にはなったが、特徴的な音源が多いのが魅力(現時点で購入可能な音源が減った)

CeVIO AI

・ベタ打ち性能(無調声時のクォリティ)……A

CeVIOから更にリアリティが増した。

・エディタの操作性……A

メインで使う機能のUI部分はシンプルに抑えられており、右クリックやツールバーにて細かい機能やオプションの適応が可能。

・声質パラメータの豊富さ……B

フォルマント(ALP)がオートメーションで調整可能になったが、声質パラメータはこれしかないので微妙

星界にて「歌い方の感情を変更可能」というパラメータが追加される予定。

ノートに「※」入力でファルセットに切り替え可能。

・パラメータの編集方法……S

母音アタックや子音タメの発声タイミングを調整できる上、各種パラメータをピアノロール上に描ける。

背後に別のパラメータを表示することも可能。

・DAWとの提携……D

伴奏はインポート可能。

・重さ……A

初期は遅かったが、最近のアップデートで許容範囲に。レンダリング待機時間も短め。

・音源の豊富さ……B

キズナアイや花譜などの魅力的で有名な女声音源が多数存在。(ただし、男声はいない)

・有志による内部拡張性(プラグインなど)……D

強いて言うならシンガー選択時のキャラ画像を変更できる。

・導入コスト……C

CeVIO時代よりもトーク・ソングエディタの価格が上昇し、やや導入しづらい価格に。

・トーク機能……EX

CeVIO時代よりもアクセントの自然さが向上。

総評・・・S

ボーカル制作に労力をあまりかけたくない、アイコニックなキャラを使用したいのであれば最適

CeVIO Pro

・ベタ打ち性能(無調声時のクォリティ)……S

フリーズ機能を使ってレンダリングを行うことにより、CeVIO AI相当の音質から更にリアリティが増す。

・エディタの操作性……A

メインで使う機能のUI部分はシンプルに抑えられており、右クリックやツールバーにて細かい機能やオプションの適応が可能。

・声質パラメータの豊富さ……A

CeVIO AIのパラメータに加え、HUSという息成分を調整できるパラメータが増え、強弱記号の利きも良くなったのでパワーの調整も可能に。

これに加え、CeVIO AIにて実装された「歌の感情」パラメータが追加された場合はS相当になる。

・パラメータの編集方法……S

母音アタックや子音タメの発声タイミングを調整できる上、各種パラメータをピアノロール上に描ける。

背後に別のパラメータを表示することも可能。

・DAWとの提携……S

VSTなどで各種DAWと連携可能。

・重さ……A(C+)

基本はCeVIOと同じだが、フリーズ機能を使うにはやや重い。

・音源の豊富さ……D

現在は知声のみ、おそらくさとうささら等は実装されると思われる。

・有志による内部拡張性(プラグインなど)……D

強いて言うならダークモードとライトモードはあります。

・導入コスト……EX

知声は完全無料。

現状は不明だが、歌声合成ソフト初のサブスク仕様なので現時点で導入しやすいかしにくいかは判定不可能。

総評・・・A+

CeVIO AIよりもさらにリアルな声が欲しく、DTMerには最適

DeepVocal(Sharpkey)

・ベタ打ち性能……C

音源にもよるが、いい感じに聞かせようと思うと調声が必要。

低域がスカスカになりやすい。

・エディタの操作性……A

基本UIはボーカロイドとCevioの良いとこ取りをしているが、細かい部分に関するオプションが現時点で余り無い。

・声質パラメータの豊富さ……C(S)

◆DeepVocal……ピッチ、息っぽさ、音量のみ。モーフィングなどSharpkeyで実装されていた機能は将来的に実装される予定。

◆Sharpkey……上の機能に加え、声の明るさ、パワー、フォルマントなどが実装されてた。

・パラメータの編集方法……S

Cevioと同じで母音アタックや子音タメの発声タイミングを調整できる上、各種パラメータをピアノロール上に描ける。

・DAWとの提携……D

伴奏はインポート可能。

・重さ……A

落ちることはめったにない上、即時再生可能。

・音源の豊富さ……S(C)

◆DeepVocal……音源制作出来るソフトが配布されたので、海外中心に簡単に使える外国語音源制作の制作が進行中。

◆Sharpkey……初期では開発がそこそこ活発だったが、現時点でメイン開発者が抜けた会社内部でどうなっているか不明。

・有志による内部拡張性(プラグインなど)……D

UIの翻訳は可能

・導入コスト……A

開発元が音源を有償で販売することを禁止しているため、すべての音源が無償。

総評・・・B

フリーでそこそこ使いやすい歌声合成ソフトが使いたいのならオススメ

使いやすい外国語音源が使用したいのであれば、ある程度環境が整備された後に利用するのはあり

SynthV(+AI)

・ベタ打ち性能……S~A

ベタ打ちでも普通に聞き取りやすい上、AIは自然度が更に向上。

加えて自動ピッチ調整機能があるので労力をかけずとも自然になりやすい。

・エディタの操作性……S~A

ノートの作成方法やパラメータ操作方法が視覚的・直感的に分かりやすい。

英語音源が非常に使いやすい。

・声質パラメータの豊富さ……A

基本的なパラメーターに加え、テンション、無声化パラメータ、AI向けに声の調子を上下させるパラメータを実装。

Std版の場合、音素が選択できる機能も実装されている。

・パラメータの編集方法……A

ノートのオプションでピッチを調整する方法とピアノロール上にフリーハンドでピッチを描く方法の2種類のピッチ描画方法が使える。

ピッチの編集がピアノロール上へと即座に反映されるので非常に直感的。

・DAWとの提携……A

VST形式なので殆どのDAWと提携可能。

・重さ……S

音の生成がありえないレベルで爆速。

DAWと連携してもほとんど遅延が発生しない。

・音源の豊富さ……A(EX)

AI音源に限り日本語、英語、中国語で歌わせることが可能。

これにより、女・男声の日英中音源が実質的に揃う。

・有志による内部拡張性(プラグインなど)……A
Lua形式でスクリプトを書けば様々な作業が実行できる。

・導入コスト……EX

エディタの無償版、音源の無償版が配布されているため導入自体は非常に簡単であり、性能も良い。

エディタが無償版でも有償版の音源が使用可能であり、またその逆も可能である。

(エディタが無償版の場合、自動調整機能とスクリプト機能が制限される。音源の無償版の場合は高品質レンダリングが制限され、高速レンダリング固定になる。)

総評・・・S

ボーカルに凝りたいとき、凝りたくないけどリアルな声が欲しいときの両方があるけど、ボカロやその他の歌声合成ソフトが肌に合わなかった方向け

NEUTRINO

・ベタ打ち性能(無調声時のクォリティ)……S~A

WORLD版はA程度、NSF版はS相当。楽譜を入れるだけで相当リアルに歌ってくれる。

・エディタの操作性……X

基本的にbatで操作するので、現時点では公式UIが存在しない(実装予定はあり)

・声質パラメータの豊富さ……X

公式UIが存在しないので評価不能

・パラメータの編集方法……X

公式UIが存在しないので評価不能

・DAWとの提携……X

仕様上不可能

・重さ……B

初期はそこそこ遅かったが、最近のアップデートで結構早めに。

・音源の豊富さ……B

2021年7月10日現在、発表予定の音源含め7音源が女性音源で1音源が男性音源。

ずんだもんの音源が追加予定。

・有志による内部拡張性(プラグインなど)……EX

NEUTRINO調整支援ツールが最強。

タイミング、音量、ピッチを調整することができる。

・導入コスト……A

全ての音源が完全に無償なので気軽に導入できる。

気に入ったら開発者さんのFanboxを支援することも可能。

総評・・・A

ボーカルのベース制作に労力をあまりかけたくないのであれば最適

(出力後は調声というより、生歌感覚でピッチやタイミングを補正する必要あり)

結論

自分の好きなキャラが居る歌声合成ソフトを使え！！！！！！！！！！！！！！！！

2019-05-13

歌声合成解説シリーズ(仮)　①声の仕組み

歌声合成解説シリーズ(仮)

という訳で、前々からやろうと思っていた歌声合成解説シリーズについて書いていきたいと思います。

内容としては歌声合成を考える上での必要な前提知識、合成に関することを画像や動画、音声つきでなるべく分かりやすく説明していきたいと思います。

趣味や教養の話であって、学術的な内容とは程遠いのですが調声や歌声に対する考え方の補助になると幸いです。

第一章　声の仕組み

①声≒声帯の音？

早速ですが、皆さんは「声」がどうやって発声されるのかはご存知ですか？

恐らく、「声帯が振動して声になる」という認識の方は多いと思いますが、肉声のどこらへんが声帯の出す音なのか、そういう細かいことは分からない方が大多数だと思われます

声帯か出る音は、大まかに分けて「サイン波」であると仮定する場合と「パルス波」である場合の2つの仮定がよくなされます。

今回はそれがサイン波であると仮定して、擬似的に「声帯のみから鳴る音」を再現した音声を聴いてみましょう！

以下のサンプルは、女性3人に一定の音程で歌ってもらったサンプルから擬似的に「声帯から出る音」を抽出した音声です

いかがですか？

別人の声であるはずなのに母音や声質も全く判別できず、ほとんど似た音に聞こえると思います。

では、次にこちらの加工前の音声を聴いてみましょう

・波音リツ　何かがキレ音源　F4 "ああいあうあ"

・椎音あま　群青　G4 "ああいあうえあ"

・鳳鐘ユウリ　Clear　F4"ああいあうえあ"

(※今回の音源の加工及びアップロードは各音源の権利者、カノン様、あきまろ様、さきた様に許可を頂いて作成したものです）

これらの加工前の音声を聞いてようやく「どういう声」「どういう発音」なのかが認知できるようになります

（今から加工済みの音源を聞くと先入観でそれっぽく聞こえてくるようになってると思います）

なので、(擬似的ではありますけど)声帯の出す音のみを聴いてどういう声なのか、どういう発音をしているのか判断することは不可能です

では、声というものはどういった風に「声質」「母音」などを判別できるレベルになるのでしょうか

②声帯の音が「声」になるまで

実のところ、声帯が出しているのは「正弦波(サイン波)」に近い音のみです

（時報の「ﾋﾟ､ﾋﾟ､ﾋﾟ､ﾎﾟｰﾝ」みたいな音）

※実際のところ、声帯が出してる純粋な音を聴くことはできません(生きた声帯を解剖するのは倫理的な問題もある)

これが、肺、声道、鼻、口……などの発声に関わる臓器や器官(発声器官)に共鳴することで、皆さんが普段出してる「声」という複雑な音になるのです

例えば、基準の「ラ」(A4, hiA)の声を出すとき、声帯は440Hzのブザー音を出します

（※声は常に細かくブレているので440Hzで固定されるわけではありません）

この声帯が出す音のことを「基音」と呼びます

そして、この「基音」は発生器官に共鳴し、880Hz, 1,320Hz, 1,760Hz......と、基音周波数の2倍、3倍、4倍………n倍という風に整数倍のブザー音が生成されます

この共鳴によって生成された２倍３倍……の音を「倍音」と呼びます

f:id:crimsonbutterfly0zero0:20190512205617p:plain

（波音リツ　何かがキレ音源　A4「あ」）

上の図の赤い丸が440Hzの「基音」、青い丸で囲んだ箇所すべてが「倍音」です

倍音は左から順に第２次倍音、第３次倍音……という風に「第n次倍音」という名前で呼ばれています

（※基音のことを第一次倍音と呼ぶことがあります）

という感じで、大きく分けると声は「基音」「倍音」の２種類で構成されています

では、逆転の発想で「基音」をxxHzに設定して「倍音」を自力で足していけば声になるかと言われたら……なりません

「声」にはそれ以外にも「フォルマント」「スペクトル包絡」という要素があります

f:id:crimsonbutterfly0zero0:20190512232812p:plain

スペクトル包絡は、上の図の黄色い線の大まかな形のことです

この形が似てると倍音のバランスが似ているので「聴いた感じで大体似た感じの声質」になります

フォルマントは、上の図のスペクトル包絡の線が山になっているまとまりで、左から第１次フォルマント、第２次フォルマント……第n次フォルマントという風に呼ばれています

この内、第１フォルマントは「口の形」（約500～1000Hz）、第２フォルマント「舌の位置」（約1500～3000Hz）によって値が変動するので母音を識別するにあたって非常に重要な役割を果たします

（ちなみに、この辺りをEQで消し去ると母音の識別が不可能になります）

例えば、第１フォルマント部分の音量を倍音を考慮しながら弄ると「口の開き具合」を調整することができます

これを応用したものがVocaloidのOPEパラメータ、MoresamplerのMoフラグなどです

次回はピッチシフトや、VOCALOID界隈でよく言われている「歌声合成に向いている歌声」について書こうと思います書きました！

こちらからどうぞ

amanokei.hatenablog.com

追記：東北大の能勢隆准教授の指摘により、「声帯の音」に関する記述を改めました