アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

歌声合成解説シリーズ(仮) ①声の仕組み

という訳で、前々からやろうと思っていた歌声合成解説シリーズについて書いていきたいと思います。

内容としては歌声合成を考える上での必要な前提知識、合成に関することを画像や動画、音声つきでなるべく分かりやすく説明していきたいと思います。

趣味や教養の話であって、学術的な内容とは程遠いのですが調声や歌声に対する考え方の補助になると幸いです。

 

 

第一章 声の仕組み

 

 ①声≒声帯の音?

 

早速ですが、皆さんは「声」がどうやって発声されるのかはご存知ですか?

恐らく、「声帯が振動して声になる」という認識の方は多いと思いますが、肉声のどこらへんが声帯の出す音なのか、そういう細かいことは分からない方が大多数だと思われます

 

声帯か出る音は、大まかに分けて「サイン波」であると仮定する場合と「パルス波」である場合の2つの仮定がよくなされます。

今回はそれがサイン波であると仮定して、擬似的に声帯のみから鳴る音」を再現した音声を聴いてみましょう!

 

以下のサンプルは、女性3人に一定の音程で歌ってもらったサンプルから擬似的に声帯から出る音を抽出した音声です

 

 

いかがですか?

別人の声であるはずなのに母音や声質も全く判別できず、ほとんど似た音に聞こえると思います。

 

では、次にこちらの加工前の音声を聴いてみましょう

 

・ 波音リツ 何かがキレ音源 F4 "ああいあうあ"

 ・椎音あま 群青 G4 "ああいあうえあ"

 ・鳳鐘ユウリ Clear F4"ああいあうえあ"

 (※今回の音源の加工及びアップロードは各音源の権利者、カノン様、あきまろ様、さきた様に許可を頂いて作成したものです) 

 

これらの加工前の音声を聞いてようやく「どういう声」「どういう発音」なのかが認知できるようになります

今から加工済みの音源を聞くと先入観でそれっぽく聞こえてくるようになってると思います

 

なので、(擬似的ではありますけど)声帯の出す音のみを聴いてどういう声なのか、どういう発音をしているのか判断することは不可能です 

では、声というものはどういった風に「声質」「母音」などを判別できるレベルになるのでしょうか

 

声帯の音が「声」になるまで

 

実のところ、声帯が出しているのは「正弦波(サイン波)」に近い音のみです

時報の「ピ、ピ、ピ、ポーン」みたいな音)

※実際のところ、声帯が出してる純粋な音を聴くことはできません(生きた声帯を解剖するのは倫理的な問題もある)

 

これが、肺、声道、鼻、口……などの発声に関わる臓器や器官(発声器官)に共鳴することで、皆さんが普段出してる「声」という複雑な音になるのです

 

例えば、基準の「ラ」(A4, hiA)の声を出すとき、声帯は440Hzのブザー音を出します

(※声は常に細かくブレているので440Hzで固定されるわけではありません)

この声帯が出す音のことを「基音」と呼びます

 

そして、この「基音」は発生器官に共鳴し、880Hz, 1,320Hz, 1,760Hz......と、基音周波数 の2倍、3倍、4倍………n倍という風に整数倍のブザー音が生成されます

この共鳴によって生成された2倍3倍……の音を「倍音」と呼びます

f:id:crimsonbutterfly0zero0:20190512205617p:plain

(波音リツ 何かがキレ音源 A4「あ」)

上の図の赤い丸が440Hzの「基音」、青い丸で囲んだ箇所すべてが「倍音」です

倍音は左から順に第2次倍音、第3次倍音……という風に「第n次倍音」という名前で呼ばれています

(※基音のことを第一次倍音と呼ぶことがあります)

 

という感じで、大きく分けると声は「基音」「倍音」の2種類で構成されています

 

では、逆転の発想で「基音」をxxHzに設定して「倍音」を自力で足していけば声になるかと言われたら……なりません

 

「声」にはそれ以外にも「フォルマント」「スペクトル包絡」という要素があります

f:id:crimsonbutterfly0zero0:20190512232812p:plain

スペクトル包絡は、上の図の黄色い線の大まかな形のことです

この形が似てると倍音のバランスが似ているので「聴いた感じで大体似た感じの声質」になります

 

フォルマントは、上の図のスペクトル包絡の線が山になっているまとまりで、左から第1次フォルマント第2次フォルマント……第n次フォルマントという風に呼ばれています

この内、第1フォルマントは「口の形(約500~1000Hz)、第2フォルマント「舌の位置(約1500~3000Hz)によって値が変動するので母音を識別するにあたって非常に重要な役割を果たします

(ちなみに、この辺りをEQで消し去ると母音の識別が不可能になります)

 

例えば、第1フォルマント部分の音量を倍音を考慮しながら弄ると「口の開き具合」を調整することができます

これを応用したものがVocaloidのOPEパラメータ、MoresamplerのMoフラグなどです

 

 

 

次回はピッチシフトや、VOCALOID界隈でよく言われている「歌声合成に向いている歌声」について書こうと思います書きました!

こちらからどうぞ

 

amanokei.hatenablog.com

追記:東北大の能勢隆准教授の指摘により、「声帯の音」に関する記述を改めました