アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

【初音ミクNTの正体】「音が悪い」理由から始まるクリプトンの意図の考察

【12/19追記】

思った以上に広まっていますが、意図が分かりやすいようにで先に主題を書いといちゃいます。

初音ミクNTの仕組みの考察
初音ミクNTとV4xとでは方向性が違うことの考察(V4xの方が完成度が高いが、NTは段々と品質が改善していく可能性があるということ)

③クリプトンが初音ミクNTを開発した意図の考察

※全部考察ですのでご注意ください

 

初音ミクNTってぶっちゃけ微妙ですよね。

ピッチを自由に描けるという自由度を除けばVOCALOID4の方がまだ音質が良いと呼ばれる始末です。

初音ミク NT Original+:歌声デモンストレーション】 - YouTube

さて、今回は「初音ミクNT」が内部的にどうなっているのか、そしてクリプトンはどうして初音ミクNTを作ったのかということに付いて書いていきましょう。

 

出音から考えてみる

出音といっても、音声を聞いているだけでは解決できないと思うので基本的には色々な操作を加えた波形とスペクトログラムを見ていくことにします。

初音ミクNTはAI音源なのか?

一部では「初音ミクNTは初音ミクV4xといくつかのデータを込めて作ったAI音源だ」と噂されていますが、これは明確に否定できると思います。

まず、AI音源ではではないこと確認するためにAI音源だと破綻するようなデータを入力してみましょう。

こちらはCeVIO AIの可不に[s]をBPM120で3小節分打ち込んだデータです。

このパラメータはVOLなんですが、見れば分かるとおりわかりやすく破綻しています。

f:id:crimsonbutterfly0zero0:20211217180143p:plain

一方でこちらは初音ミクNTに[s]をBPM120で29小節分打ち込んだデータです。

下の波形を見れば分かるとおり、一切破綻してません。

f:id:crimsonbutterfly0zero0:20211217180358p:plain

 

AIには想定されていないようなパターンの音素を打ち込んでもそれっぽいデータを返してくるということは恐らく、これはAIではないと思われます。

(万が一にこういう入力を想定してAIを作ったとかなら別ですが、流石に30小節くらいの無声音を打ち込む想定はしていないと思います)

 

初音ミクNTは波形合成ソフトなのか?

そうなるとやはり初音ミクVOCALOIDのような波形合成ソフトなのか?という考えに至ると思います。

これに関しては半分YES, 半分NOだと個人的に思ってます。

 

まず、大抵の波形合成ソフトはVOCALOIDやUTAUのように生の音声波形や生の波形を再現した音声をサンプリングし直すことで歌を合成する「コーパスベース合成方式/Unit Selction」という方式を採用しています。

初音ミクNTがこれに該当するかと言われると……私としては疑わしく思っています。

 

何故かというと、UTAUのデフォルトエンジンの音を聞けば分かるように(結構ガビガビしていますが、)人間の発音としてはおかしい要素は全くないわけです。

 

それに比べて、初音ミクNTは「人間の発音としておかしい」点が多数存在します。

何がどうとか具体的なことは言いづらいんですが、特に子音~母音へと遷移する音が不自然な気がします。



つまり、初音ミクNTは「単に肉声を切り貼りした波形合成ソフト」や「肉声を高品質に再現した音声を切り貼りした波形合成ソフト」という訳ではない可能性が高いです。

 

それなら初音ミクの正体は?

実のところ、色んなところに「初音ミクNT」の正体についてのヒントがちりばめられてはいるのですが、気付いた人はごく少数なようです。

まずは公式サイトから読み解いていきましょう。とりあえずはこの文章からです。

f:id:crimsonbutterfly0zero0:20211218011843p:plain

「リシンセシス技術」については後述するとして、ここで「高品質」ではなくて「高品位」を使っているのが気になります。

ここで言葉の定義を調べてみると「品位」=「ハイクォリティ」、「品位」=「人格的な品の良さ, 鉱物に含まれる純度の高さ」という意味です。

NTは「高品質」とは確かにいえませんし、この語がなくとも文章としては成立するはずなので、「品位」をわざわざ選んだ理由があると思われます。

 

次にこの語句です。

f:id:crimsonbutterfly0zero0:20211218012653p:plain

「マルチサンプルポイント」というのが気になります。

普通に考えると「初音ミクNTは多音階での収録を行っている」という意味だと思いますが、それなら「マルチサンプル」でいいはず。どうして「ポイント」が余分に付くのかが不思議です。調べてみると意外な由来が判明しました。

サンプル・ポイント:波形ポイントを計算するために使われるA/Dコンバータからの生データ(「オシロスコープのすべて」テクノトロニクス社発行 2017年4月)

オシロスコープとかで使う立派な用語だという点にもびっくりしますが、ここで注目すべきなのは解説文です。波形ポイントについても解説してあったので掲載します。

信号のある時点における電圧を表すデジタル値。波形ポイントは、サンプル・ポイントから算出でき、メモリに記憶される。(「オシロスコープのすべて」テクノトロニクス社発行 2017年4月)

意味が分からなくなってきた感がありますが簡単に言うと、とあるサンプルから「サンプルポイント」を取得し、それから「波形ポイント」を算出することが出来るということです。

これを初音ミクNTの「マルチサンプルポイント」に当てはめてみると……「いくつかの音高の生声サンプルから、波形を算出することが出来る」ということになります。

つまり初音ミクNTは波形を直接加工している訳ではなく、「生声から特定のデータを抽出し、そしてそれをベースに再構築している」というわけです。

 

ここである程度音声合成に詳しい人は「ボコーダーじゃないか?」ということをおっしゃるかもしれませんが、ボコーダーではないと私は確信しております。

 

シンセシス技術の正体とは?

結論から言ってしまうと、「原始的なシンセサイザー」と私は考えています。

サイン波を加工して様々な音を奏でることの出来るあのシンセサイザーです。

f:id:crimsonbutterfly0zero0:20211218014610p:plain

もう少し踏み入った話をするとヤマハが開発したシンセサイザーの「PLG100-SG」に搭載されたフォルマントシンギング音源がベースの概念になっていると思います。

※詳しくは「ボーカロイド技術論の20~23ページを参照してください)

 

恐らくですが、初音ミクNTの大まかな構成は与えられたパラメータから抽象的に整数次倍音(声の芯)で構成されるスペクトル包絡」「非周期成分(息)のスペクトル包絡」を個別に算出・出力した後で、それを合体させる形式だと思います。

(この用語についての詳しい説明はこちらを参照してください)

amanokei.hatenablog.com

 

根拠はいくつかありますが、いくつか有力なもの挙げさせていただきます。

 

まず、こちらが初音ミクV4xの「整数次倍音(声の芯)/有声音」を抽出したものです。

一般的な生声は、高音域の息成分に混ざって高い部分の倍音が抽出できないことが多いです。

画像

 

こちらが初音ミクNT「整数次倍音(声の芯)/有声音」を抽出したものです。

見れば分かると思いますが、高音域の倍音まで気持ち悪いくらいくっきり抽出できています。肉声ではあり得ないレベルです。

画像

 

こちらは初音ミクNTと、初音ミクV4xから「非周期成分(息)」を終出したものです。

初音ミクV4xでは元々のサンプルから「整数次倍音(声の芯)/有声音」を抜いた上、音量を大きくすることで囁きっぽくしているような挙動がうかがえます。

一方で、初音ミクNTでは元のサンプルとの相関が全く見えず、この音階での「非周期成分(息)」はこんな感じだというシミュレーションをしているかのように見えます。

f:id:crimsonbutterfly0zero0:20211218020510p:plain

 

これを見ると、初音ミクNTは肉声や単に肉声を模した素片を切り貼りしたものではないということは分かると思います。

恐らく、これらの仮定が真だとすると初音ミクNTの内部構造はこうなっていると思います。

  1. パラメータ(歌詞、音高、パワー(ボルテージ)が入力される
  2. パラメータによって「整数次倍音(声の芯)/有声音」から構成されるフォルマントの山(スペクトル包絡)を生成する
  3. 2.をベースに、時間方向のシミュレーション(アタックや減衰の音色など)をすることで音素の素片を生成する
  4. 生成された素片を繋げる
  5. 非周期成分(息)」のスペクトル包絡生成シミュレーションを行い、これを4.と組み合わせる

 

さて、そう考えると音素の境目で音が辿々しくなる理由もなんとなく分かりますよね。

シンセサイザーならロングトーン等の母音を再現するのは簡単ではありますが、母音と子音がどのように遷移するかという瞬間的かつ複雑な音を再現するのは難しいはずです。

クリプトンがNTの発売を何度も延期した結果今の初音ミクNTがリリースされたのは、技術力がクリプトンの思っていた方向性に追いつけず、「魂を込めた妥協と諦めの結石が出た」んじゃないかと思ってます。

一方でVOCALOIDは音声がモデル化されているものの、生の音声をそのまま再現した音素を使用する訳ですし、UTAUは生の波形をそのまま使うので遷移の音は綺麗になります。

 

初音ミクNTは「新技術」なのか?

f:id:crimsonbutterfly0zero0:20211218023020p:plain

端的に言うと、初音ミクNTの根幹技術は「新技術」とは程遠いものです。

この新技術というものは「色々な既存技術、アイデア等を組み合わせた総合的な概念」だと私は思っております。

その証拠に「新技術」という単語はここでしか使われておらず、そのほかには「新開発」という単語が使われております。

 

私が思うに、この「新技術」というものは先ほど言及したヤマハの「PLG100-SG」に搭載されたフォルマントシンギング機能をベースに、産総研が音声の解像度を向上させたモノだと考察しています。

マジカルミライの発表会で言及していた「ヤマハとの協業は続ける」というのはこういう意味だと思いますし、「VOCALOIDの音色も再現できる」というのはVOCALOIDの音色をベースにフォルマントシンギング音源を構成すると言う意味だった可能性があります。

 

どうして初音ミクNTを開発したのか?

そもそも、どうして安易にVOCALOID5で音源を作らずにNTを開発したのでしょう?

この答えに対する糸口を掴むには、マジカルミライでの初音ミクNT発表に遡ります。

そこで確か佐々木渉(wat)さんが「VOCALOID5は人間の声が混ざるので、それは初音ミクではなくて藤田咲だ」ようなことを言っていました。

これは多分VOCALOID5のアタック・リリースエフェクトで生声が混ざることを指してることを言ってますが、私はこれが半分本当で半分嘘だと思っています。

(ここからは多分に憶測が多分に入りますのでご注意ください。)

 

もともと、YAMAHAはVOCALOID5にてAI機能を追加しようとしたんだと思います。


この動画を見る限り既存のVOCALOID4などのプロモーションと違い、ものすごく「未来感」を感じます。そしてこれらの機能群や操作方法は、音源がAI化したときに真価を発揮するものばかりです。(特に1:04辺りの「I sing for you」の「you」がものすごく不自然)

 

ただ、そう主張するとVOCALOID5は2018年リリースで、美空ひばりVOCALOID:AIの発表はは2019年じゃないか、という風になると思います……が、実は2017年、ヤマハと共同で歌声合成技術の開発をしているボンペウ・ファブラ大学が、現在のいわゆる「AI歌声合成技術」の先駆けになる「ニューラルパラメトリック歌声合成」という論文を発表しています。

美空ひばりAIはこれがベースになって作られたと思われます。

ただ、ヤマハは3年ごとにVOCALOIDをアップデートしてきたこともあり、それに合わせて発表するには実用化への研究や実装が間に合わず、「AI抜きのVOCALOID5」という歪なモノがリリースされてしまったのだと思います。

 

これを踏まえてwatさんの発言をもう一度見てみましょう。

「VOCALOID5は人間の声が混ざるので、それは初音ミクではなくて藤田咲だ」

そう、これはVOCALOID5のことを話しているのではなく、AI歌声合成全般についての発言でもあるとも捉えられるのです。

初音ミクをAI化するなら「藤田咲に歌って貰えばいいではないか」という発想になるが、これは初音ミクAIではなくて「藤田咲AI」にしかならない、ということです。

だといって、VOCALOIDから出力された音声をAI化してもそれはVOCALOID初音ミクの劣化版にしかならないのです。

 

少し話が変わりますが、初音ミクNTよりも初音ミクV4xの方が完成度が高いとよく言わるのは仕方ないのかもしれません。

何故かというと、V4xは恐らくクリプトンが徹底的にVOCALOIDに特化した音声加工を丁寧に施した「(佐々木渉の制作した)VOCALOID初音ミクの最高傑作」と呼べるからでしょう。

(※AHSの生放送では「生半可な加工だとエラー音が鳴る」と言及されていたので、特化した加工でないと駄目だと思われます。)

公式サイトではその努力がほんの少しだけ言及されていますが、多分「丁寧」で終わるレベルの努力・労力ではないでしょう。

f:id:crimsonbutterfly0zero0:20211218025742p:plain

 

そしてクリプトンはAIでもなく、「初音ミクV4xと言う最高傑作のエミュレート」でもなく「波形合成をベースとした、もっと柔軟な歌唱表現の出来る歌声合成技術」へと舵を切ったのだと思われます。

AHSにはVOCALOID5の詳細が伝えられなかったと言う話が出てるので、タイミングとしては恐らくNPSSが発表された時点でAI化の未来が見え、その段階で決心していたのかもしれません。

というのもVOCALOID5が発表されたあのタイミングで新型ミクを出すという話をするには数年の研究が必要な訳です。

初音ミクVOCALOIDに復帰することはあり得るのか?

個人的には「もしかしたらあり得る」程度にに思っています。

そもそもクリプトンがどうして安易な「初音ミクAI」という名の「藤田咲AI」を作らなかったかというと、それは「初音ミクと言う存在を愛している」からでしょう。

簡単に言うと「藤田咲AI」は解釈違いということです。

 

マジカルミライでの発表にてwatさんは泣いていましたが、これは恐らく「初音ミクという存在が生まれたのはヤマハのおかげだが、初音ミク初音ミクであるがために今後VOCALOIDから離れなければいけない」という現実に押しつぶされたんじゃないかと私は推測しています。

 

初音ミクNTは新技術なのか?」で語ったように、技術的なのは産総研がメインで開発していると思いますが、根幹技術やUI関連の特許はヤマハが技術提供をしていてもおかしくはないわけですし、そう考えるとクリプトンとヤマハは現在でも良い関係が保てているというのは嘘ではないと思います。

 

私は、クリプトンが初音ミクNTを作った理由が「初音ミクとは一体何なのか?」という答えへと辿り着く過程で生まれたモノじゃないかと思っています。

もしそうであるならば、クリプトンが「初音ミクとはなんぞや?」という永遠の問いから答えを見出すことが出来たら……そのときは「VOCALOID:AI 初音ミク」ができるかもしれません。

 

「高品位」になった初音ミク

いつだったか「初音ミク初音ミクじゃなくなるのはいつか?」というアンケートで一番答えが多かったのは「中の人が藤田咲じゃなくなったとき」というのがありました。

 

そして今、初音ミクは「人間の声を切り貼りしたモノ」から「人の声を再現するシンセサイザー」になったわけです。

ここでようやく初音ミクNTにて「高品位」という呼び方がされた理由がなんとなく分かったのではないでしょうか。

「純度の高さ、人格的な品の良さ」

 

初音ミクNTは、初音ミクの声を抽象化することで初音ミクの純度をより高め、それが彼女を現実から一次元離れた存在、人格へと引き上げたのではないでしょうか。

 

サンプラーからシンセサイザーへと。

 

まとめ

初音ミクNT」は、「藤田咲」という自分の生みの親の一人である現実存在である人間から一次元離れることのできたニュータイプ:バーチャル存在(本質は同じ、見た目は違うかもしれないが代わりとして使えるもの)である……かもしれない!

 

めっちゃエモい

 

※この考察(主に後半)は妄想を含んでいる可能性があるので参考程度に読んでくれると嬉しいです。初音ミクNTがボロクソ言われるのがちょっと嫌で「どうしてこれが生まれなのか」というのを考えていった結果がこうなりました。もし、真相と程遠いならヤマハさん、クリプトンさん、そしてwatさん、大変申し訳ないです!!!!!!(五体投地))