アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

歌声合成解説シリーズ②「歌声合成向きの声」とピッチシフトの仕組み

と、言うわけでお待ちかね「歌声合成解説シリーズ(仮)」の第二段です

今回は巷でよく言われる所謂「歌声合成向きの声」というのは何か、に関して解説していきたいと思います

 

第二章 声の仕組み

~前提~

今の歌声合成技術はかなり発展しているので合成しても残念な音質になることはほぼありません

この内容は(どちらかと言うと)Vocaloid3が出る前よりの技術水準を想定している部分がいくつかあります

・この文章は第一章の「声の仕組み」の内容がある程度頭に入ってると理解しやすい部分があるので、事前に読んで置くことをおすすめします

amanokei.hatenablog.com

 

倍音の種類

一章にて「声は基音から倍音で構成される」と解説しましたが、倍音にも大きく分けて二種類の倍音が存在します

それは「整数次倍音」と「非周期性成分(非整数次倍音)」です

 

( ※非整数次倍音は決まった音を発するわけではないので厳密に言うと倍音ではないのですがあくまで2者構造のためにここでのみ表記します

 

整数次倍音はこの前解説した「第n次倍音」に該当する部分で、「声の芯や特徴」を構成する重要な要素です

f:id:crimsonbutterfly0zero0:20190512205554p:plain

 

非周期性成分は、その下の周期性が不明瞭でゴワゴワとした部分や、高めの整数次倍音ゴワゴワに埋もれてはっきり見えない部分のことを指します

こちらは主に「息の成分」など、声のハスキーな要素を構成します

 

②「歌声合成向き」の声質とは?

結論から言いますと「非周期性成分が限りなく少ない声」が歌声合成には向いています

つまり、「ハスキーとは無縁の声質」「ほとんど芯しかない声質」が合成には有利なわけです

 

ここで、私が2017年のマジミラでクリプトンの社員さんにした質問を見てみましょう

 この答え方、ふざけてるように思えて実はかなり的を得ています

人間は歳を取るにつれて声帯などの発声器官が衰え、息が漏れたり嗄れた声になっていきます。つまり「ハスキーな声」になる訳です。

加えて、女性の声の成分におけるザラザラ感(非周期性成分)の割合は男性の声よりも低いす。

なので、「女性+若い+notハスキー」の組み合わせが原理的には一番歌声合成に適しています。

クリプトンのwat氏が500人の声優の声を聴き込み、初音ミクの中の人(藤田咲さん)を選んだ理由も「不自然に作った演技ではなく、自然なロリボイスが出せている」という理由であったので、当時は声質が非常に重要であったことがわかります

③どうして息成分が多いと合成に不利なのか?

 息成分というのは単純に言うと「ノイズ」です。

そして、ピッチシフトをする際の信号処理の過程でそのノイズ成分が「増幅」される場合があり、そうするとどうしても「ザラザラ」「ゴワゴワ」した声になりやすいという感じです。

ピッチを上げる時

 こちらは440HzのA4「ラ」の音の波形です(「あ」の発音)

一番左の基音は大体440Hzで、上の緑色の曲線は大まかなスペクトル包絡です。

(この曲線の形が似ていると声質が似てると感じることができる)

f:id:crimsonbutterfly0zero0:20190824215439p:plain

 

これを、1オクターブ上の880HzのA5(ラ)に加工する場合、すべての周波数を2倍になるように処理すればいいのでこういった形になります

f:id:crimsonbutterfly0zero0:20190824220947p:plain

問題は、聴いて分かる通りスペクトル包絡が元音声に比べて大幅に変わっていますので俗に言う「コロ助声」みたいな感じになってしまいます。

 

これを元の形に戻すためにEQ(イコライザ)処理を行います。

緑色の曲線が本来のスペクトル包絡なので、現在の黄色いスペクトル包絡から余計な成分(ピンク色の部分)を削ることで元の音声に近づけることができます

f:id:crimsonbutterfly0zero0:20190824221703p:plain

 

そうして完成したのがこちらの波形です。

f:id:crimsonbutterfly0zero0:20190824231616p:plain

オレンジ色の曲線がこの波形のスペクトル包絡です。

EQ加工前に比べると、より本来の音声に似た雰囲気になってると思います。

ただ、ピッチを上げる場合、本来持ち合わせている音の成分(主に高域)を削るので確実に音がボケます。

目に見えて劣化するというほどではないですが、声の太さが結構細くなってファルセットや比較的音の構造が単純なリコーダーのような声質に近づきます。

 ピッチを下げる時

前の例と同じく、440HzのA4「ラ」の音を1オクターブ下の220HzのA3(ラ)に加工する場合、すべての周波数を半分になるように処理すればいいのでこういった形になります

f:id:crimsonbutterfly0zero0:20190824222918p:plain

やはりこちらも、聴いて分かる通りスペクトル包絡が元音声に比べて大幅に変わっていますので、なんというか……めっちゃ太い声になってしまいますので、こちらも加工を加えます

f:id:crimsonbutterfly0zero0:20190824223707p:plain

ピッチシフト後のスペクトル包絡本来のスペクトル包絡と比べると、音の成分が大幅に欠けているので、今度はEQで足りない水色の部分を加算します

そうするとこんな感じになります

f:id:crimsonbutterfly0zero0:20190824224049p:plain

EQ加工後のスペクトル包絡本来のスペクトル包絡と合致しているかと言われると微妙ですが、加工前に比べると比較的自然な声質になったのでその点については良しとします。

 しかし、今回はピッチを上げる場合に比べてものすごく劣化しているように思われます。一体何故なのでしょうか?

 

低音へのピッチシフトする方が劣化している理由

それは、EQを使用する場合に避けて通れない問題「一定の音を増幅させると必ず劣化する」というのに起因します。

例えば声の一部の周波数をEQで増幅する場合、先ほど出てきた高域に多い息成分(ノイズ)「非周期性成分も一緒に持ち上げられ、ザラザラ感が妙に増えてしまうわけです。

もし、音量を単純に大きくする(全帯域を増幅する)のであれば、バランスが取れているので問題ないのですが、「声質を戻す」等の処理で一部のみ帯域を大きくするとその部分だけどうしても悪目立ちしてしまいます。

 

つまり、息成分が多ければ多いほど、加えてそれが整数次倍音と分離しづらい場合、合成には不利なのです。

④現在の歌声合成での非周期性成分(ノイズ)処理

現在は処理にいろんな工夫がなされているため、昔ほど劣化はひどくありません。

例えば、VOCALOID(恐らく2以降)は息成分をホワイトノイズ(テレビで何も流れて居ないときに流れる砂嵐の「ザー」って音)を用いて処理することにより、演算を簡略化し、そこそこスピードでそこそこ良い感じの出力が実現できています。

なお、非周期性成分は不規則な現れ方をするため、その成分を計算し、合成することは難しいです。

なので、単純に引き伸ばすタイプの合成エンジンよりかはループするタイプの合成エンジンのほうが息成分がきれいに出やすいというのはあるかもしれません。

 

 

結論

・人間の声は「整数次倍音」「非周期性成分」の両方の成分があって、そのバランスで大まかな声質が決まるよ

・最近のエンジンや一昔前のエンジンって大体良い感じなので、「自分の声合成に向いてない!」っていうのはめったに無いと思うで

・むしろ発声方法の問題が大きいと思うからボイトレしたら良い感じの音源収録できるかもよ

 

・日本のネットボイトレ講座は声の中途半端な知識を用いたオカルトっぽい人が多いから、このシリーズの知識を持ってると「あーはいはい嘘乙」って回避できるよ

(※特にXY軸を整数・非整数次倍音でとった「倍音ダイヤグラム」とか意味分からないの提示する人は気をつけよう)

 

 ※今回の音源の加工及びアップロードは音源の権利者であるカノン様に許可を頂いて作成したものです)