アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

【図解】波形とスペクトログラムで見るラベリング/原音設定の極意

ふと、UTAUの原音設定やNNSVS/ENUNU用の音素ラベリング向けのお手軽な資料があまりなかったり、インターネッツの風化でいくつかが消えてたことに気付いたので書いてみることにしました。

 

「極意」とはありますが、あくまで「こういうのが一般的な正解」というのに自己解釈を加えています。

 

最後には自分の耳を信じてください。

合ってるか分からないなら、何度もその区間を再生してください。

⓪前提

おすすめツール

・VLabeler

UtaFormatixを作ったコリン氏が制作したラベリングソフト

NNSVS, Sinsy, UTAU, 何でも扱えます。

歌詞付きのUSTを読み込んで、その歌詞をどういう風に変換するかを指定できたり、Audacityのミリ秒ラベルをNNSVS式のナノ秒に変換してくれる機能もあります。

 

・おすすめ設定

スペトログラムの設定で配色を無色以外に変えます。

個人的にはSunsetがおすすめです

①母音・ン

・同じ母音の場合(例:あ-あ)

UTAUなら基本的にはどこでも大丈夫ですが、歌声系統なら音程が変わる」「一瞬音程が下にブレる」「スペトログラムの明るさが地味に違う」などで若干色が変わる部分がある場合はそこを境に気持ち区切りましょう。

※エッジボイスが入ったり、空白がある場合は小さい「っ(cl)」として処理してください(後述)

それでも分からない場合は、楽譜の音符の長さを考慮して等分しましょう。

 

・違う母音の場合(例:あ-い)

母音が切り替わる場所で区切ってください。

分かりづらい場合は波形やスペクトログラムを拡大してみて「切り替わりっぽい中間点」に置けば大体大丈夫です。
(前述の「音程が変わる」「一瞬音程が下にブレる」「スペトログラムの明るさが地味に違う」等も判別に有効です)

※エッジボイスが入ったり、空白がある場合は小さい「っ(cl)」として処理してください(後述)

 

②無声摩擦子音(サ行)

スペクトログラムの線が音声がないところ+波形でチェックします。

③無声破裂子音(カ・タ・パ行)

破裂音のパルス部分+無音区間を子音として区切ります

 

④有声摩擦子音(ザ・ヴァ行)

サ行と似てますが子音にも音程があるので、波形やスペクトログラムの減衰を見て設定してください。

⑤有声破裂子音(ガ・ダ・バ行)

場合によっては「カ・パ」行と同じですが、場合によっては「ザ・ヴァ行」のようなスペトログラムの線がある子音+破裂音のパルスが組み合わさっている場合があります。

⑥ハ・ファ行

サ行とほぼ同じですが、息の漏れる音は「母音が地味に混ざる」という性質上どこまでが子音か判別がつきづらい場合があります。

「音量が急激に変わり始める場所」→「スペクトログラムの線が急に濃くなり始める場所」という風に覚えてください。

⑦マ・ナ行

波形で見てもかなり分かりやすい部類の子音ですが、スペトログラムだとさらに分かりやすいです。

「ん」(N)から続くと、どこからどこまでが「N」OR「m/n」か分からなく場合もありますが、その場合は割と適当で大丈夫です。

(強いて言うなら「m/nよりもNの方が長い」「なんとなく色のや波形の雰囲気が変わ)った場所」位の感覚で大丈夫です。

⑧ラ行

短い場合は「ガ・バ」行とほぼ同じです。スペトログラムが一瞬減衰して完全に元の色へ戻るまでの区間があるので、そこをラベルしましょう。

 

ラ行の子音が長い場合は「英語のL」に近くなりますが、これは「マ・ナ行」と同じ部類です。

⑨半母音(ワ・ヤ行)

これは時と場合によってかなり難しくなります。

基本的には耳が頼りですが、あえて言うなら「スペトログラムに分かりやすい光の偏りに変化が起こる前の区間(一帯)」という感じです。

⑩拗音を含む音(キャ・ギャ・ビャなど)

myならマ行式に、kyならカ行式に、「◯y」のyを無視してラベルしてください。

※以下理論的な説明

例えば「あみゃ」は[a my a]という表記/発音になります。

ここに小さい「っ(cl)」を入れると「あっみゃ」[a cl my a]となります。

a cl my a]を発音通りにひらがな表記すると「あんみゃ」になります。

ここでもし「my」の子音区間に「y」を含めてしまうと、小さい「っ(cl)」によってその後の子音区間が均等に引き延ばされるので「a 【NNNmmmyyyy】 a」となり、発音は「あ【んんんみいいい】あ」となってしまいます。

 

⑪小さい「っ」(cl)

これに関しては様々な宗派が存在しますが、統一のため我流で行きます。

無声破裂音「カ・タ・パ行」の場合はこういう風に「無声区間~破裂音のパルス」をラベルします。

 

有声破裂音「ガ・ダ・バ」の場合は「有声子音区間~破裂音のパルス」の区間にしてください。(clが長いと、画像のように有声子音区間が無声区間に変貌することがあります)


母音と母音と間の空白も同じ扱いで大丈夫です。

 

エッジに関しては完全に子音とみなして大丈夫です。感覚的には「エッジ音がなくなって芯が確立したとき」くらいで良いと思います。

※以下理論的な説明

メトロノームを慣らしながらエッジを入れて歌うと、基本的にはエッジがなくなって普通の声が戻ってきたときに拍が来ます。

 

⑫無声化(大文字のA,I,U,E,O)

続く音がサ行の場合、雰囲気を見ながら適当なところにおいてください



続く行が無声破裂音(カ行系)の場合は、「前の子音の後半以降をちょっとだけ+無音部分+破裂音のパルスの前」においてください

 

語尾の無声化の場合も大体同じです。

⑬出だし

出だしのタイミングで一番大事なのは「母音のタイミング」なので、出だしの子音についてはちゃんと統一さえしていれば、特に支障はないと思います。

母音についてはエッジと同じで「どこに拍が来るか」ということを考えながらラベルすれば問題ないです。

 

⑭NNSVS/Sinsyの仕様上の注意

語尾の後ろにSilやpauが付いているラベルについては要注意です。

私は感覚として白い線のラベルをしたくなるのですが、オレンジ色じゃないと無音区間で息を繰り返すようなノイズが鳴るらしいです。

※もしかしたら仕様変わって大丈夫になってる可能性はあるので、有識者に聞いてみてください。

 

・休符系記号の区別&概念
brはフレーズの間の短い息継ぎ

pauは長い休符+フレーズに入る前の準備の息継ぎ

Silは最初と最後の無音区間