アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

StudioVoICEがXStudioに進化!音源制作&ピッチ機能なども追加

先日、紹介したStudioVoICEですが今回メジャーアップデートが入りました!

使い方や導入方法はこちらから↓

その名も「XStudio!」

 

①シンガーの追加&ビジュアル公開

f:id:crimsonbutterfly0zero0:20200820180718p:plain

今回新規公開された「陈水若(チェンシュイルオ)」以外に、「陈子瑜(チェンズユ)」さんのビジュアルが追加されました!

ふむ、中々イケメンのメガネ男子でござったか……。

②待望のピッチ編集機能追加!

なんと、右上の「参数」をクリックすることで……

f:id:crimsonbutterfly0zero0:20200820180955j:plain

ピッチを弄れるようになりました!

f:id:crimsonbutterfly0zero0:20200820181034j:plain

1.手書きモード

f:id:crimsonbutterfly0zero0:20200820181310g:plain

ペンツールで自由に描けるようになりました。

2.ポイントモード

f:id:crimsonbutterfly0zero0:20200820181330g:plain

UTAUやSynthVのような形式でポイントを置いてピッチが描けるようになりました!

③ピアノモードが追加!

ここの「○琴」と書いてある部分をクリックすることで、ボーカルではなくピアノでおとをプレビューすることができます(ピッチは無視する)

f:id:crimsonbutterfly0zero0:20200820183910j:plain

 

④音源自作が可能に!

なんと、応募すれば音源自作もできるようです!

加えて音源の権利は音源の製作者に帰属するとのことです。

※ただしオーディションがある上、中国語限定な模様。

詳細説明(全文)

f:id:crimsonbutterfly0zero0:20200820184212p:plain

 

感想

下手すると個人でも制作可能な高レベルのAI歌声合成のソリューション増えましたね、X Studioにはどんな音源が付くのか楽しみです。

Synthesizer V Studio Proの使い心地を試してみた

色々ありましてSynthV R2のエディタを先に貰いました、やったね!

あと今日は平行四界のR2音源発売日なので、「情報解禁してもいいでしょ!」ってかんじでレビューをしました。

f:id:crimsonbutterfly0zero0:20200709191228p:plain

 ※執筆時点でのバージョンはPro1.0.4です。

ここで書いた悪いところはアプデで改善される可能性もあります。

全体的な感想

 

R1とR2を比べた感じでは「目を見張るような新しい技術的機能は無い」という感じで、どちらかと言うと「UI的な機能面」を重点的に改修したように見受けられます。

あまり良い例えではないですが、V2→V3における「トライフォン採用」V3→V4における「グロウル、クロスシンセシス」並の驚きは無い感じがします。

そもそもSynthVがR1時代から超絶有能なのもあって、結構ハードルは高くなってる感じがあります。

それ以外に良くも悪くも「良いところを伸ばし、悪いところを切り捨てる」という感じもします。

R1との変更点

良い点

 

音質の向上

真面目に音質が向上しました、特に息成分。

R1では結構ぼやけた音だったのが、R2では高域の部分もしっかり合成されるようになったのでMixのときにも埋もれづらく、囁き系の声もいい感じに生成されます。

R1サンプル

 

f:id:crimsonbutterfly0zero0:20200710120550j:plain

R2サンプル

 

f:id:crimsonbutterfly0zero0:20200710120542j:plain

※特に2秒あたりの「綴れ『ば』」が息成分が減り、明瞭になっている

※「夢に『ね』むる」の明瞭度が向上

 

実際のピッチ、波形、音素領域が表示されるようになった

「∨ピアノロール」と書かれている右隣のボタンを押すと実際の音声のピッチ(NOTピッチベンドで描いたピッチ)実際の波形音素の範囲が表示されるようになりました

子音の長さを視覚的に弄れるようになったのは嬉しいですね。

f:id:crimsonbutterfly0zero0:20200709204815j:plain

 

R1時代は「▲」「▼」のみで表示されたので、「子音がどこまで伸びているか」「子音が伸びているのか縮んでいるのか」が非常に分かりにくかったので、これは大きな改善です。

f:id:crimsonbutterfly0zero0:20200709205311j:plain

 

「ゆらぎ」パラメータ

ゆらぎパラメータ自体はSynthV R1からあったのですが、いまいち効き目が分かりづらく何をしているのかよく分かりませんでした。

しかし、前述のピッチ視覚化機能により「ゆらぎ」の効き目が目に見えて分かるようになりました。

f:id:crimsonbutterfly0zero0:20200709220025j:plain

f:id:crimsonbutterfly0zero0:20200709220029j:plain

各ノートごとに「収録したときのピッチの揺れを加算する」機能です

(※Melodyneでいう「モジュレーション」、UTAUでいう「Mod」機能)

無調整でも良い感じに肉声感を加えたい場合は「ゆらぎ」を少々強めに、逆にとことん弄りたい/平べったい感じが良いのであれば「ゆらぎ」を弱く、あるいは無しにすることもできます。

 

ピッチの制御方法

SVR2にて追加された「点で制御する」タイプのピッチエディットですが、UTAUを使った事がある人なら結構良い感じにエディットできると思います。

ただ1つ、注意すべきことを言うなら1番UTAUチックな曲線は赤丸のボタンを押さないと適応されません。

f:id:crimsonbutterfly0zero0:20200709210453j:plain

1つ左は「カクカクの線」、その右は「ベジェ風味の曲線(使いづらい)」 なのでご注意を。

 

音素ガチャの効率化

公式で既に発表があったので書くか迷いましたが、3種類の音素を選択することができます。なので「この発音気に入らないなぁ……」ってなったときの代替案が見つけやすくなりました!

地味に既存の歌声合成では存在しなかった機能です(UTAUは異次元、V4xは表現特化なので用途が違うので除くものとする)

f:id:crimsonbutterfly0zero0:20200710005454g:plain

レンダリング率の視覚化

各トラックがどれくらいレンダリングされているのか非常に分かりやすく表示してくれます

f:id:crimsonbutterfly0zero0:20200709214346p:plain

ピアノロールの表示場所を変えるとそれまでのレンダリングを止め、表示した箇所からレンダリングされます。

f:id:crimsonbutterfly0zero0:20200709214430p:plain

あと、やろうと思えば12も並列してレンダリングができるみたいです、すげぇ……。

f:id:crimsonbutterfly0zero0:20200709214856j:plain

日本語歌詞の入力

R1でもずっと問題になっていましたが、R2になってようやく直りました!

拗音を入力すると「じ」「ゃ」ではなく「じゃ」と入力されます!!!!!

ようやく区別されるようになりました!!!!!

f:id:crimsonbutterfly0zero0:20200710001601j:plain

これだけで神アプデと言っても過言ではないかと思います。

 

UST読み込み

なんと、SynthVにて書き出したUSTが文字化け無しでUTAUに読み込めるようになりました!

f:id:crimsonbutterfly0zero0:20200710002023j:plain

これでもう神を越して超越です(何を言ってるんだか)

どっちとも言えない点

読み込めるファイルが減った

地味ですが、Sharpkeyのプロジェクトファイルが読み込めなくなりました。

f:id:crimsonbutterfly0zero0:20200709205544j:plain

 

R1時代の読み込み機能

f:id:crimsonbutterfly0zero0:20200710222254p:plain

(※あと、某DTMブログを見てCeVIOトークを保存した後にSynthVで読み込んだら何も表示されなかったので悲しかったです)

 

安定性(1.0.3/1.0.4)

超絶安定してます。全然問題無いです

 1.0.4でデータを弄ってるんですが、激しい編集を施しても全く落ちないのでめっちゃ安定してると思いますが、運が良いだけかもしれないので一旦ここに保留しておきます。

※これから先全く落ちないなら「良い点」に移行するか削除します

1.0.3では結構データが落ちましたので、不安定な場合は「Ctrl+S」で頻繁に保存した方が良いと思われます。

※R1では救済措置として最短でデータを毎分上書き/新規保存してくれる機能がありました。

f:id:crimsonbutterfly0zero0:20200709211136j:plain

 

VST機能の削除

結構VST連携機能に関してはDTMerからは賛否両論だったので敢えて削除したのは一周してありだったかもしれません……が、やっぱりそれを残念に思う人は一定数いるかと思います。

 

 

息成分の分離(ブレスの分離)

正直、息成分を分離して色々やる人はRX7とかAdobe Auditionとかで各自の手段を手に入れてると思うので「あえて息成分を別出力する必要はあるのか」という感じはあります。

でも、非常にきれいな感じで息成分が分離できてるので新しい表現方法としては使えると思います

 

左チャンネルから有声音のみ、右チャンネルから無声音(息成分)のみが流れます

※SynthVの標準書き出し機能「ブレスを別チャンネルとして」を利用

 

悪い点

 

UIが初見で結構不親切

サイドバーの横幅は変更できないので、色々と見づらいです。

特に「ショートカットの設定」欄が見づらく、一部の説明に至っては見切れています。

f:id:crimsonbutterfly0zero0:20200709210905j:plain

それに加えここのボタンは「白がON、 黒がOFF」なので「ボタンを押すと凹んで黒い影ができる」という一般的な感覚と一致しません。

できれば緑色に光ってくれたら嬉しいんですが………。

f:id:crimsonbutterfly0zero0:20200709210930p:plain

この辺り、R1は非常に直感的で「機能美」といえるUIをしていたのですがR2は「整列された美しさ(使いやすかは別)」という感じがします。

 

グロウルエフェクトの削除

R1では余り使われなかったグロウルエフェクトですが、Studioでは削除されました。

簡便なエッジボイス生成手段が無くなったのは少々痛いですね……。

f:id:crimsonbutterfly0zero0:20200709215144j:plain

機能的にはボイスエフェクターだと思うので、個人的には、「生成音:原音」の比率をフリーハンドで調整できるようにしたら結構素晴らしい機能になると思ったので残念です。(初音ミクNTのような)

f:id:crimsonbutterfly0zero0:20200709215401j:plain

個人的なぼやき

翻訳の変更

私が担当した翻訳よりも良い感じになっている場所もあれば、直訳すぎて分かりづらい箇所や「この表現はどうなんだ……?」というところが(個人的に)結構見受けられます。

個人的に「トランスポーズ」→「転調」にしたのは分かりやすいと思います。

 

特に「ブレスの分離」は「(CeVIOみたいに)トラックに自動ブレスが入るので、それだけ別途でエクスポートする」という風に見えるので「息成分の分離」と訳した方が良かったと思う。

 

  

 

感想

今回のアプデはR1で不満だった点を改善してくれたので本当に素晴らしいです。

もうSynthV最高…………。

 

 

 

 

 

おまけ(執筆当時のバージョン)

f:id:crimsonbutterfly0zero0:20200709223753j:plain

SynthV Proの現発表時点での仕様を解説してみた

全体的なUI

f:id:crimsonbutterfly0zero0:20200626202443p:plain

視覚的に散らからないよう、何を弄ればいいのかわかりやすいようにデザインしたそうです

 

エンジンの向上

出力された音声に対し、さらにディープラーニングガウスモデルを用いて収録音声に近づける

f:id:crimsonbutterfly0zero0:20200626203531p:plain

息成分、ピッチモデルを大幅に改善して品質を向上

f:id:crimsonbutterfly0zero0:20200626203537p:plain

新機能(一部)

ライブレンダリングシステム

f:id:crimsonbutterfly0zero0:20200626203922p:plain

f:id:crimsonbutterfly0zero0:20200626203929p:plain

ピアノロール上に見えてる部分を優先してなるべく早く合成できるように

f:id:crimsonbutterfly0zero0:20200626204016p:plain

f:id:crimsonbutterfly0zero0:20200626204021p:plain

ピッチ自動調整機能

ワンクリックでピッチが自動である程度いい感じに調整されます(おそらく言語OR歌声データベースごとにピッチモデルが違うと思われる)

f:id:crimsonbutterfly0zero0:20200626204157p:plain

ピッチ制御点の単純化

自動ピッチで設定したピッチ制御点を削減し、単純化させることで自然にしたり、編集しやすくしたりします。

f:id:crimsonbutterfly0zero0:20200626204358p:plain

 

現時点で判明した新機能は以上です(残りは公式Twitter参照)

https://twitter.com/dreamtonics_jp

 

その他細かいところ

Lua, JavaScriptでのプラグイン作成が可能

 

細かいUI

f:id:crimsonbutterfly0zero0:20200626205347p:plain

f:id:crimsonbutterfly0zero0:20200626205350p:plain

f:id:crimsonbutterfly0zero0:20200626205353p:plain

f:id:crimsonbutterfly0zero0:20200626205358p:plain

・基本的な初代SynthVの機能は継承

・パラメータに関してはテンション、ラウドネスを確認

 

今まで告知されていた音源(赤羽)以外に生放送のエディタ内で以下の音源を確認

・琴葉葵・茜

・平行四界 海伊

・Dreamtonics Saki

【速報】AHSがSynthV参入!琴葉姉妹+SynthV Proもリリース決定!

なんとAHSがSynthVの新規サードパーティーとして参入しました!(なんとなくそんな気はしてた)

f:id:crimsonbutterfly0zero0:20200626122538j:plain

(※各種画像はAHSの公式サイトより引用)

まじかーー!!!

SynthVがどういうソフトなのかはこちらから↓

新規歌声合成ソフト「Synthesizer V」の個人的に良いところ11つ! - アマノケイのまったり技術解説

SynthV Proのスペック

f:id:crimsonbutterfly0zero0:20200626122643j:plain

現状のSynthVはこの表におけるBasicと大体同じスペックです(2コアレンダリングであの速度なのが異常ですが……)

コアが無制限になったことで「爆速」になることは目に見えています。

機能

基本的な機能はR1と同じと仮定して、

①自動調整

これは恐らくピッチベントを自動的に描画してくれるものだと思われます。

開発者さんは機械学習に長けているので、AIチックな自動調整機能を適応している可能性もあります。

②代替発音

発音が気に入らなかった場合の代替音素を検索してくれる機能だと思われます

(ボカロやその他音声合成であった「音素ガチャ」を効率化?する機能)

③ブレス成分の出力

確か「機械学習ベースの息成分演算」についてweb SynthVで言及されていたので、それを別トラックとして出力できるようにしたものだと思われます。

 

lua, Javaスクリプティング

これはVOCALOID3~4時代の「Job Plugin」を自作できるものかと思われます。

 

⑤おそらくR1にあったような手動ピッチのみならず、UTAUのようなピッチを点で制御出来る機能もあるようです

f:id:crimsonbutterfly0zero0:20200626135238p:image

 

SynthV Proの新音源

Saki

恐らくWebSynthVで先行リリースされていた女声音源の拡張版だと思われます

f:id:crimsonbutterfly0zero0:20200626123319j:plain

 

機能比較表を見るに、こちらに関しては「完全商業利用可能なプロ、アマチュア問わずに利用できるノーキャラ音源」として扱う模様です。

f:id:crimsonbutterfly0zero0:20200626123336j:plain

琴葉 茜・葵

こちらはボイスロイドでお馴染みの琴葉姉妹の音源です(こっちが先にSynthV化するとは正直思わんかった……)

f:id:crimsonbutterfly0zero0:20200626123643j:plain

たかぴぃさんによるデモですが、こちらベタ打ちの状態らしいです。

調声こだわる方なのもあってこれ以上いい感じになる可能性もある感じを踏まえると楽しみです!

琴葉姉妹の面影も普通にあります。


SynthVの価格・発売日

7月30日に発売するようです。

エディタはパッケージで1万3000円、DLで1万

音源も1万程度なので大体V4と同じレベルですね。

f:id:crimsonbutterfly0zero0:20200626124008p:plain

価格も良心的なので安心で……

f:id:crimsonbutterfly0zero0:20200626124202p:plain

はい?初回限定版?

f:id:crimsonbutterfly0zero0:20200626124258j:plain

いやマジですかAHSさん

恐らくVOCALOIDユーザーをSynthVに誘導するためにAHSさんがめっちゃ頑張ったみたいです……いやマジで凄いですわ。

もしかして前にやってたコロナで各種AHS製品をたたき売りしてたたのも、この先行販売が適応される人をなるべく増やすためだったのかもしれません。

いや、ほんとすごいの一言しか出てきませんわ。流石AHS.

しかも小春六花さんもSynthV化するようです



結論

9000円の初回限定版、めっちゃお得ですよ!!!!!

f:id:crimsonbutterfly0zero0:20200626124906p:plain

 

あと、今回のSynthVは実質V3〜V4の復興であるような気がします。

 

マイクロソフト中国がAIシンガーに本格参戦!?無料で使えるStudioVoICEを試してみた!

まさかのマイクロソフトが中国版のりんな「小冰」(シャオアイス/シャオピン)を歌わせることのできるエディタを無料配布しました

f:id:crimsonbutterfly0zero0:20200625141959p:plain

studiovoice.msxiaobing.com

マジか!!!!!!

(※現状、歌わせられるのは中国語のみです)

試用動画

簡単な使い方

①インストール後に「新建工程」をクリックして新しいプロジェクトを作ります

f:id:crimsonbutterfly0zero0:20200625143014j:plain

②シンガーを選んで右下の確定ボタンを押します

現在女声が小冰(シャオピン/シャオアイス)、何畅(ホチャン)

男声が陈子瑜(チェンズユ)の計3名です

f:id:crimsonbutterfly0zero0:20200625143411j:plain

③ノートを鉛筆ツールで入力するか、「插入」からMIDIをインポートします

※他の歌声合成を使ってる人はMIDI機能を使うことを強くおすすめします。

f:id:crimsonbutterfly0zero0:20200625143635j:plain

④歌詞を入力します。

ノートをダブルクリックして入力するか

f:id:crimsonbutterfly0zero0:20200625143833j:plain

ノートを右クリックして「編辑全部歌詞」を選択し、

f:id:crimsonbutterfly0zero0:20200625143902j:plain

一気に歌詞を入力することもできます

f:id:crimsonbutterfly0zero0:20200625144006j:plain

※使えるのは中国語のみ

ピンイン不可

※「-」ハイフンでスラーやタイなどを歌わせることも可能

 

⑤各種装飾

ブレスを入れたいときは、入れたい場所の直後のノートを選択し、「挿入換気」を押すとブレス記号が付きます。

f:id:crimsonbutterfly0zero0:20200625144124j:plain

敢えて止めたい場合は、「挿入停○」を選ぶとストップが挿入されます。

f:id:crimsonbutterfly0zero0:20200625144238j:plain

⑥その他

この部分では上から「音量」「パン」「リバーブ」を選ぶことができます。

基本的には「干浄(ドライ?」でいいと思います。

f:id:crimsonbutterfly0zero0:20200625144303j:plain

 

歌手アイコンの真下の矢印をクリックするとシンガーを入れ替えることができます

f:id:crimsonbutterfly0zero0:20200625144429j:plain

 

「美化」になにかしら一括ブレス挿入機能があるのですが……基本的にはStudioVoICEも自動ブレス入れてくれるので使い所がよくわかりません。

f:id:crimsonbutterfly0zero0:20200625144519j:plain

 

プロジェクトを保存したい場合は「保存工程」をクリックしてください

それ以外のMIDIや音声ファイルは「○出」から選べるのですが、電話番号未認証だと使えないようです。

f:id:crimsonbutterfly0zero0:20200625144635j:plain

待望のピッチ編集機能追加!

なんと、右上の「参数」をクリックすることで……

f:id:crimsonbutterfly0zero0:20200820180955j:plain

ピッチを弄れるようになりました!

f:id:crimsonbutterfly0zero0:20200820181034j:plain

1.手書きモード

f:id:crimsonbutterfly0zero0:20200820181310g:plain

ペンツールで自由に描けるようになりました。

2.ポイントモード

f:id:crimsonbutterfly0zero0:20200820181330g:plain

UTAUやSynthVのような形式でポイントを置いてピッチが描けるようになりました!

 

开启AI互動模式(AI対話モード)

オンにしてキャラクターアイコンを押すと各シンガーがお喋りしてくれます。

(中国語読めないけど、雑談以外に編集のヒントとか喋ってる感じがある)

 

「ん? 何かご用ですか?」

f:id:crimsonbutterfly0zero0:20200626030125p:plain

 

「中国語の曲を歌うのが一番好きだから、もっと英語を勉強しなきゃ」

f:id:crimsonbutterfly0zero0:20200626030128p:plain

 

「うん...私は普段あまり喋らないんだ」

f:id:crimsonbutterfly0zero0:20200626030131p:plain

そういえばAISingersの別エディタ、「77エディタ」でも元七七ちゃんが喋ってたのでこういう風にキャラクターが何らかの手段で喋ってれるのはトレンドなのかもしれませんね。

f:id:crimsonbutterfly0zero0:20200626025526p:plain

大まかな評価

良いところ

男声音源がある!

調整しなくてもある程度は良い感じにやってくれる!

 

悪いところ

Wi-Fi無いと使えない

音程外れる

ピッチ弄れない

弄れる機能が少ない

中国の電話番号無いと高音質機能、音声書き出しが使えない

ピンイン使えない

感想

CeVIOのFree版っぽいですね、エディタの外でVocalShifterなどでしっかり調整すればいい感じのボーカルになりそうな予感。

今のところは高音質版を試してないので何とも言えないんですが、どっちかと言うと歌声合成で遊びたい人向きな感じがします。デフォルトでリバーブも付いてるし。

「初音ミクNT」の機能・仕様を解説してみる

 

f:id:crimsonbutterfly0zero0:20200604205800p:plain

1パラメータ編

NT Parameters

NTにて新規実装されたパラメータです。

Note Gain

ノートごとのゲイン(≒音量)を増減できるパラメータです。

f:id:crimsonbutterfly0zero0:20200605150131g:plain

0%にした場合、前後の音のフェードイン/アウトはそのままで、該当する音の音量が限りなく0に近くなります

(語頭だと稀に子音が残る)

f:id:crimsonbutterfly0zero0:20200604210641p:plain

Note Gainについては音質にそこまで関与しないように思われます。

f:id:crimsonbutterfly0zero0:20200605192218p:plain

Consonant Rate

子音の長さを調整する値です。

本来の子音の長さの0.1~3倍の範囲で伸縮できます。

f:id:crimsonbutterfly0zero0:20200605150826g:plain

子音の長さが長すぎると前のノートの母音を侵食します。

 

なお、波形が表示される部分の緑色のバーはおおまかに「子音の開始位置」を表しています。(厳密に言うとAttack Speedが100の時のみ)

f:id:crimsonbutterfly0zero0:20200604211150p:plain

このバーに関しては、波形のレンダリング(後述)をオフにしても表示され続けるので、子音の大まかな位置が分かりやすく表示されます。

Attack Speed

母音のアタックスピードを調整できるパラメータです。

(厳密に言うとVCやVV接続部分の遷移時間を変更させてる可能性?)

「fast」に寄せると立ち上がりが早く、「slow」で遅くなります。

①語頭・語中の場合

f:id:crimsonbutterfly0zero0:20200605151621g:plain

 

②母音を連続した場合

f:id:crimsonbutterfly0zero0:20200605152504g:plain

 

③語尾の場合

f:id:crimsonbutterfly0zero0:20200605153209g:plain

特に、「3.」については「立ち上がりが早いと語尾のフェードが早く、遅いと逆に語尾まで音量が均一」という現象が確認されています。

Dynamics

ダイナミクスを調整できるパラメータです。

f:id:crimsonbutterfly0zero0:20200604213327p:plain

調査の結果、単にボリュームを調整できるパラメータであることが判明しました。(ゲイン調整済み)

f:id:crimsonbutterfly0zero0:20200605192941p:plain

Breathiness

息成分を調整できるパラメータです……と言いたいところですが、このパラメータを中途半端に(20〜90%辺り)掛けると音色が微妙になるので100%掛けて息成分だけにしない限り、余り使えません。

(EQでハイパスフィルタ掛けたっぽい感じになる)

f:id:crimsonbutterfly0zero0:20200604213632j:plain

調査の結果、「声から有声音を抜いている」訳ではなく、スペクトログラムに応じて「息成分をシミュレートしている」ように思われます。

f:id:crimsonbutterfly0zero0:20200605193344p:plain

Super Formant Shifter

声のトーンを変更できるパラメータです。

「cute」に寄せると可愛らしく、「cool」に寄せると張った声になります。

VOCALOIDに比べると、フォルマントの変化が緩やかになっているので、ある程度扱いやすくなりました。

f:id:crimsonbutterfly0zero0:20200604213855j:plain

Voice Voltage

声のハリを変更するパラメータです。

100%に寄せると明るく、-100%に寄せると暗くなります。

-100%は声質が良い感じに弱くなるので使いやすいのですが、100%に関しては(個人的に)聴覚上音量が大きく感じしかしないので、今のところは-100%ほど出番は無いように思われます。

f:id:crimsonbutterfly0zero0:20200604214144j:plain

調査の結果、高域と低域のどちらにパワーを偏らせるか調整できるパラメータであると思わしき結果が出力されました。(ゲイン調整済み)

f:id:crimsonbutterfly0zero0:20200605193920p:plain

Pitch Control

後述の「ピッチカーブを編集」モードで弄ったラインを眺めることができます。

ここからは特に弄れる要素はなく、単に「どれほどピッチが離れているか」を眺められる欄のようです。

f:id:crimsonbutterfly0zero0:20200604214701j:plain

Voice Drive

唸り声, グロウル効果を付与できるパラメータです。

使う際は、【Voice Drive】左隣の電源ボタンをクリックして青く点灯したことを確認しましょう。

【-+スライダー】にて初期値を変更できます。(左端に寄せて初期値を【0】にすることを推奨)

f:id:crimsonbutterfly0zero0:20200604215109p:plain

2UI編

新しい描画ツール

Piapro Studioに存在した既存のツール以外に、ピークを描けるツールが増えました

使い道は……クレッシェンドとかを手軽に描けるのではないでしょうか……。

f:id:crimsonbutterfly0zero0:20200604220143j:plain

ピッチカーブを編集

ペンツール、ラインツール、カーブツール、ピークツールを使ってピッチをピアノロール上に描くことができます。

f:id:crimsonbutterfly0zero0:20200604215831j:plain

このモードに入る場合は「ノート」の該当箇所、ショートカットキーの「tab」

f:id:crimsonbutterfly0zero0:20200604221034p:plain

右上の「PITCH」と書かれているボタンをクリックする必要があります。
f:id:crimsonbutterfly0zero0:20200604220300j:plain

ピッチを編集している間はノートが弄れませんので要注意。

※1初音ミクNTではビブラートを付与するUIをクリックするとpiapro  studioが落ちるので手書きビブラートがほぼ必須になります。

※2アップデートで改善される模様

バックグラウンドレンダリング

波形をリアルタイムで表示してくれます。

NTパラメータを編集すると、その度に波形をレンダリングし直して表示してくれます。

(Voice Driveは後から処理するタイプのエフェクトなので更新されない)

f:id:crimsonbutterfly0zero0:20200604220602j:plain

重い場合もあるので、オフにする場合はトラックのこの部分や

f:id:crimsonbutterfly0zero0:20200604220801p:plain

波形が表示される部分にある青い波形マークをクリックすることで止めることができます。

f:id:crimsonbutterfly0zero0:20200604220919p:plain
オートエンベロープ

ある程度、発音を自動調整してくれる機能です

プロト版では子音とノート先頭部分を明瞭化してくれるみたいです(20%くらい)

f:id:crimsonbutterfly0zero0:20200605145435g:plain

3挙動編

まさかの単音階音源!?

色んな音階にノートを設置した後、ピッチでC4に全部持っていくと全て同じ波形になりました。

※追記 実際のところ5音階音源らしいのですが、急激なピッチシフトが行われたときに一番近いサンプルで合成されるようになってるみたいです!

f:id:crimsonbutterfly0zero0:20200605195142p:plain

歌詞の表示方式

f:id:crimsonbutterfly0zero0:20200604222811j:plain

歌詞と発音記号の表示が別々になってしまったので編集する際はどちらか片方のみの表示になりました。

(もしかしたらヤマハの特許の可能性?)

発音記号

発音記号に関してはVOCALOIDに引き続き、X-SAMPAを採用。

ただ、いくつかの発音記号などが使用不可に。

【Sil】……使用可能(小さい「っ」など)

【br1~5】……使用可能

Asp】 【?】……使用不可(実質意味のない歌詞を入力したときと同じ挙動になる)

【_0】……使用不可(代用するならBreathinessが妥当?)

無声化?

前のノートの長さが短い場合、Consonant Rate(子音速度)をLongにすることで無声化っぽい感じになる時があります。

f:id:crimsonbutterfly0zero0:20200604221300j:plain

子音単体ノート

s, S, hなどは使用可能。

それ以外はノートの最後にほんの少し音が鳴る程度。

f:id:crimsonbutterfly0zero0:20200604222603j:plain

語尾に「g」を置いたからといって、軟口蓋を閉鎖してくれたりはしないので、そういった音が欲しい場合はノートを置く→要らない音を後から削るという方法を使うしかなさそうです。(今のところは)

発音記号の編集

1つのノートに2つ以上の発音記号を入力すると大体の場合反応しなくなります。

発音記号に【母音+子音】(例:【a s】)と入力すると、ノートの開始位置から鳴るのが子音、それ以前が母音になります。

f:id:crimsonbutterfly0zero0:20200604223608j:plain

Consonant RateやAttack Speedで各種タイミングを調整することも可能です

※【a g】などと配置しても母音の閉じ方は変わってくれないので、基本的にはノート単体入力を推奨

 

4おまけ

VOCALOIDトラック

もしかしたら、クリプトンのVOCALOIDがNTエディタで使用可能になるかも知れませんね……!

f:id:crimsonbutterfly0zero0:20200604223857p:plain

NTエンジンかVOCALOID4エンジンか、サードパーティのボカロも使えるのかは不明ですが。

 

感想

重いのだけなんとかすれば結構使えると思う。

 

【新規歌声合成エンジン】マイクロソフトがまさかのAIシンガーに参入!?

 

まさかの新しい歌声合成エンジン!?

NEUTRINO, NT, SynthV R2, CeVIO Pro……大体の歌声合成の足並みが揃いかけたところで、また新しい歌声合成システムが発表されてしまいました!

 現在、新しい音声合成エンジンはリリースされていませんが、現在している歌手にはMicrosoft xiaoiceがいます。
一部のベータユーザーは作品をアップロードしています。こちらから視聴可能です。

f:id:crimsonbutterfly0zero0:20200603193830j:plain

な、なんだってー!?

 というか一部一般ユーザーが使ってるってどゆこと!?!?!?!?!?!

マイクロソフトの歌声合成

f:id:crimsonbutterfly0zero0:20200603193757p:plain

Xiaoice(シャオアイス/小氷)は、簡単に言うと「りんな」の中国語バージョンです。

 

仕組みはそこまで詳しく分かっていませんが、マイクロソフトの歌声合成のベースはHTSを使用しているので、この新規エンジンもベースはHTSを利用してると思われます。

※HTSは名古屋工業大学で開発している機械学習型の発話、歌声合成のベース。

SinsyやCeVIOの根幹技術にも使われている。

 

聞いてみた感想

今回新規で制作(?)された、何畅(HeChang/ホチャン)Xiaoice(シャオアイス/小氷)と違って可愛さより、歌い上げたときの凛々しさが際立っていると思います。

どっちかと言うとある程度歌が上手く、アーティストのような歌い方をするりんなのような雰囲気ですね。

 あと、ベースがHTSなのもあってCeVIOみが結構ある音声なのも特徴ですね、音色はどっちかというとCeVIO Proに近い気がします。

機能

現在、このソフトはピッチベンドなどのパラメータ実装されていないので、このデモはほぼ自動です。

どうやらソフトウェアのようですが、ピッチは実装されていないようです。

予想(妄想)

りんなに関しては歌声を合成する際、楽譜情報が必要無いらしいのですが、このエンジンはエディタ画面が無いのでどういった入力インターフェイスを備えているのかすごく気になります!

あとは、クラウドベースの合成になるのか、それともGPUを積んだパソコンで動くのかか……。

それ以外にも音素のタイミングなど入力機能は実装されるか……りんなで実験的に行っていた「歌に感情を適応する」仕組みはあるのか……謎は深まるばかり。

 

感想

マイクロソフトがAIシンガーに取り組んでるのは周知の事実でしたが、もしかしたらこれが一般人にも使えるかもしれない……と思うと非常にワクワクしますね!

あと男声音源があるのかも気になります!