StudioVoICEがXStudioに進化!音源制作&ピッチ機能なども追加
先日、紹介したStudioVoICEですが今回メジャーアップデートが入りました!
使い方や導入方法はこちらから↓
その名も「XStudio!」
①シンガーの追加&ビジュアル公開
今回新規公開された「陈水若(チェンシュイルオ)」以外に、「陈子瑜(チェンズユ)」さんのビジュアルが追加されました!
ふむ、中々イケメンのメガネ男子でござったか……。
②待望のピッチ編集機能追加!
なんと、右上の「参数」をクリックすることで……
ピッチを弄れるようになりました!
1.手書きモード
ペンツールで自由に描けるようになりました。
2.ポイントモード
UTAUやSynthVのような形式でポイントを置いてピッチが描けるようになりました!
③ピアノモードが追加!
ここの「○琴」と書いてある部分をクリックすることで、ボーカルではなくピアノでおとをプレビューすることができます(ピッチは無視する)
④音源自作が可能に!
なんと、応募すれば音源自作もできるようです!
加えて音源の権利は音源の製作者に帰属するとのことです。
※ただしオーディションがある上、中国語限定な模様。
感想
下手すると個人でも制作可能な高レベルのAI歌声合成のソリューション増えましたね、X Studioにはどんな音源が付くのか楽しみです。
Synthesizer V Studio Proの使い心地を試してみた
色々ありましてSynthV R2のエディタを先に貰いました、やったね!
あと今日は平行四界のR2音源発売日なので、「情報解禁してもいいでしょ!」ってかんじでレビューをしました。
※執筆時点でのバージョンはPro1.0.4です。
ここで書いた悪いところはアプデで改善される可能性もあります。
全体的な感想
R1とR2を比べた感じでは「目を見張るような新しい技術的機能は無い」という感じで、どちらかと言うと「UI的な機能面」を重点的に改修したように見受けられます。
あまり良い例えではないですが、V2→V3における「トライフォン採用」V3→V4における「グロウル、クロスシンセシス」並の驚きは無い感じがします。
そもそもSynthVがR1時代から超絶有能なのもあって、結構ハードルは高くなってる感じがあります。
それ以外に良くも悪くも「良いところを伸ばし、悪いところを切り捨てる」という感じもします。
R1との変更点
良い点
音質の向上
真面目に音質が向上しました、特に息成分。
R1では結構ぼやけた音だったのが、R2では高域の部分もしっかり合成されるようになったのでMixのときにも埋もれづらく、囁き系の声もいい感じに生成されます。
R1サンプル
R2サンプル
※特に2秒あたりの「綴れ『ば』」が息成分が減り、明瞭になっている
※「夢に『ね』むる」の明瞭度が向上
実際のピッチ、波形、音素領域が表示されるようになった
「∨ピアノロール」と書かれている右隣のボタンを押すと実際の音声のピッチ(NOTピッチベンドで描いたピッチ)、実際の波形、各音素の範囲が表示されるようになりました。
子音の長さを視覚的に弄れるようになったのは嬉しいですね。
R1時代は「▲」「▼」のみで表示されたので、「子音がどこまで伸びているか」「子音が伸びているのか縮んでいるのか」が非常に分かりにくかったので、これは大きな改善です。
「ゆらぎ」パラメータ
ゆらぎパラメータ自体はSynthV R1からあったのですが、いまいち効き目が分かりづらく何をしているのかよく分かりませんでした。
しかし、前述のピッチ視覚化機能により「ゆらぎ」の効き目が目に見えて分かるようになりました。
各ノートごとに「収録したときのピッチの揺れを加算する」機能です
(※Melodyneでいう「モジュレーション」、UTAUでいう「Mod」機能)
無調整でも良い感じに肉声感を加えたい場合は「ゆらぎ」を少々強めに、逆にとことん弄りたい/平べったい感じが良いのであれば「ゆらぎ」を弱く、あるいは無しにすることもできます。
ピッチの制御方法
SVR2にて追加された「点で制御する」タイプのピッチエディットですが、UTAUを使った事がある人なら結構良い感じにエディットできると思います。
ただ1つ、注意すべきことを言うなら1番UTAUチックな曲線は赤丸のボタンを押さないと適応されません。
1つ左は「カクカクの線」、その右は「ベジェ風味の曲線(使いづらい)」 なのでご注意を。
音素ガチャの効率化
公式で既に発表があったので書くか迷いましたが、3種類の音素を選択することができます。なので「この発音気に入らないなぁ……」ってなったときの代替案が見つけやすくなりました!
地味に既存の歌声合成では存在しなかった機能です(UTAUは異次元、V4xは表現特化なので用途が違うので除くものとする)
レンダリング率の視覚化
各トラックがどれくらいレンダリングされているのか非常に分かりやすく表示してくれます
ピアノロールの表示場所を変えるとそれまでのレンダリングを止め、表示した箇所からレンダリングされます。
あと、やろうと思えば12も並列してレンダリングができるみたいです、すげぇ……。
日本語歌詞の入力
R1でもずっと問題になっていましたが、R2になってようやく直りました!
拗音を入力すると「じ」「ゃ」ではなく「じゃ」と入力されます!!!!!
ようやく区別されるようになりました!!!!!
これだけで神アプデと言っても過言ではないかと思います。
UST読み込み
なんと、SynthVにて書き出したUSTが文字化け無しでUTAUに読み込めるようになりました!
これでもう神を越して超越です(何を言ってるんだか)
どっちとも言えない点
読み込めるファイルが減った
地味ですが、Sharpkeyのプロジェクトファイルが読み込めなくなりました。
R1時代の読み込み機能
(※あと、某DTMブログを見てCeVIOトークを保存した後にSynthVで読み込んだら何も表示されなかったので悲しかったです)
安定性(1.0.3/1.0.4)
超絶安定してます。全然問題無いです
1.0.4でデータを弄ってるんですが、激しい編集を施しても全く落ちないのでめっちゃ安定してると思いますが、運が良いだけかもしれないので一旦ここに保留しておきます。
※これから先全く落ちないなら「良い点」に移行するか削除します
1.0.3では結構データが落ちましたので、不安定な場合は「Ctrl+S」で頻繁に保存した方が良いと思われます。
※R1では救済措置として最短でデータを毎分上書き/新規保存してくれる機能がありました。
VST機能の削除
結構VST連携機能に関してはDTMerからは賛否両論だったので敢えて削除したのは一周してありだったかもしれません……が、やっぱりそれを残念に思う人は一定数いるかと思います。
息成分の分離(ブレスの分離)
正直、息成分を分離して色々やる人はRX7とかAdobe Auditionとかで各自の手段を手に入れてると思うので「あえて息成分を別出力する必要はあるのか」という感じはあります。
でも、非常にきれいな感じで息成分が分離できてるので新しい表現方法としては使えると思います
左チャンネルから有声音のみ、右チャンネルから無声音(息成分)のみが流れます
※SynthVの標準書き出し機能「ブレスを別チャンネルとして」を利用
悪い点
UIが初見で結構不親切
サイドバーの横幅は変更できないので、色々と見づらいです。
特に「ショートカットの設定」欄が見づらく、一部の説明に至っては見切れています。
それに加えここのボタンは「白がON、 黒がOFF」なので「ボタンを押すと凹んで黒い影ができる」という一般的な感覚と一致しません。
できれば緑色に光ってくれたら嬉しいんですが………。
この辺り、R1は非常に直感的で「機能美」といえるUIをしていたのですがR2は「整列された美しさ(使いやすかは別)」という感じがします。
グロウルエフェクトの削除
R1では余り使われなかったグロウルエフェクトですが、Studioでは削除されました。
簡便なエッジボイス生成手段が無くなったのは少々痛いですね……。
機能的にはボイスエフェクターだと思うので、個人的には、「生成音:原音」の比率をフリーハンドで調整できるようにしたら結構素晴らしい機能になると思ったので残念です。(初音ミクNTのような)
個人的なぼやき
翻訳の変更
私が担当した翻訳よりも良い感じになっている場所もあれば、直訳すぎて分かりづらい箇所や「この表現はどうなんだ……?」というところが(個人的に)結構見受けられます。
個人的に「トランスポーズ」→「転調」にしたのは分かりやすいと思います。
特に「ブレスの分離」は「(CeVIOみたいに)トラックに自動ブレスが入るので、それだけ別途でエクスポートする」という風に見えるので「息成分の分離」と訳した方が良かったと思う。
感想
今回のアプデはR1で不満だった点を改善してくれたので本当に素晴らしいです。
もうSynthV最高…………。
おまけ(執筆当時のバージョン)
SynthV Proの現発表時点での仕様を解説してみた
全体的なUI
視覚的に散らからないよう、何を弄ればいいのかわかりやすいようにデザインしたそうです
エンジンの向上
出力された音声に対し、さらにディープラーニングとガウスモデルを用いて収録音声に近づける
息成分、ピッチモデルを大幅に改善して品質を向上
新機能(一部)
ライブレンダリングシステム
ピアノロール上に見えてる部分を優先してなるべく早く合成できるように
ピッチ自動調整機能
ワンクリックでピッチが自動である程度いい感じに調整されます(おそらく言語OR歌声データベースごとにピッチモデルが違うと思われる)
ピッチ制御点の単純化
自動ピッチで設定したピッチ制御点を削減し、単純化させることで自然にしたり、編集しやすくしたりします。
現時点で判明した新機能は以上です(残りは公式Twitter参照)
https://twitter.com/dreamtonics_jp
その他細かいところ
・Lua, JavaScriptでのプラグイン作成が可能
細かいUI
・基本的な初代SynthVの機能は継承
・パラメータに関してはテンション、ラウドネスを確認
今まで告知されていた音源(赤羽)以外に生放送のエディタ内で以下の音源を確認
・琴葉葵・茜
・平行四界 海伊
・Dreamtonics Saki
【速報】AHSがSynthV参入!琴葉姉妹+SynthV Proもリリース決定!
なんとAHSがSynthVの新規サードパーティーとして参入しました!(なんとなくそんな気はしてた)
(※各種画像はAHSの公式サイトより引用)
まじかーー!!!
SynthVがどういうソフトなのかはこちらから↓
新規歌声合成ソフト「Synthesizer V」の個人的に良いところ11つ! - アマノケイのまったり技術解説
SynthV Proのスペック
現状のSynthVはこの表におけるBasicと大体同じスペックです(2コアレンダリングであの速度なのが異常ですが……)
コアが無制限になったことで「爆速」になることは目に見えています。
機能
基本的な機能はR1と同じと仮定して、
①自動調整
これは恐らくピッチベントを自動的に描画してくれるものだと思われます。
開発者さんは機械学習に長けているので、AIチックな自動調整機能を適応している可能性もあります。
②代替発音
発音が気に入らなかった場合の代替音素を検索してくれる機能だと思われます
(ボカロやその他音声合成であった「音素ガチャ」を効率化?する機能)
③ブレス成分の出力
確か「機械学習ベースの息成分演算」についてweb SynthVで言及されていたので、それを別トラックとして出力できるようにしたものだと思われます。
これはVOCALOID3~4時代の「Job Plugin」を自作できるものかと思われます。
⑤おそらくR1にあったような手動ピッチのみならず、UTAUのようなピッチを点で制御出来る機能もあるようです
ちなみにエディターで全部調声してます。ピッチの編集はフリーハンドではなくクリックのみで作れました。その点はめっちゃ使いやすいです。
— azuma (@bk_azuma) 2020年6月26日
もちろんフリーハンドもありますのでお好みで。
— azuma (@bk_azuma) 2020年6月26日
SynthV Proの新音源
Saki
恐らくWebSynthVで先行リリースされていた女声音源の拡張版だと思われます
機能比較表を見るに、こちらに関しては「完全商業利用可能なプロ、アマチュア問わずに利用できるノーキャラ音源」として扱う模様です。
琴葉 茜・葵
こちらはボイスロイドでお馴染みの琴葉姉妹の音源です(こっちが先にSynthV化するとは正直思わんかった……)
たかぴぃさんによるデモですが、こちらベタ打ちの状態らしいです。
調声こだわる方なのもあってこれ以上いい感じになる可能性もある感じを踏まえると楽しみです!
琴葉姉妹の面影も普通にあります。
SynthVの価格・発売日
7月30日に発売するようです。
エディタはパッケージで1万3000円、DLで1万
音源も1万程度なので大体V4と同じレベルですね。
価格も良心的なので安心で……
はい?初回限定版?
いやマジですかAHSさん
恐らくVOCALOIDユーザーをSynthVに誘導するためにAHSさんがめっちゃ頑張ったみたいです……いやマジで凄いですわ。
もしかして前にやってたコロナで各種AHS製品をたたき売りしてたたのも、この先行販売が適応される人をなるべく増やすためだったのかもしれません。
いや、ほんとすごいの一言しか出てきませんわ。流石AHS.
しかも小春六花さんもSynthV化するようです
これから新しい歌声データベースも増えていきます。TOKYO6 ENTERTAINMENTさんの小春六花さんもSynthesizer Vの歌声データベースを制作させてもらいたいと思っております。
— tomo(AHS) (@tomo_ahs) 2020年6月26日
結論
9000円の初回限定版、めっちゃお得ですよ!!!!!
あと、今回のSynthVは実質V3〜V4の復興であるような気がします。
マイクロソフト中国がAIシンガーに本格参戦!?無料で使えるStudioVoICEを試してみた!
まさかのマイクロソフトが中国版のりんな「小冰」(シャオアイス/シャオピン)を歌わせることのできるエディタを無料配布しました
マジか!!!!!!
(※現状、歌わせられるのは中国語のみです)
試用動画
新しいAIシンガーを試してみた(by Microsoft中国)
— アマノケイ@歌声合成系Vの者 (@aman0_kei) 2020年6月25日
無理やり日本語も歌わせてみた
女声x2名
男声x1名
Orig:あの素晴しい愛をもう一度
MIDI:アマノケイ(Me) pic.twitter.com/9luKAcC6CG
簡単な使い方
①インストール後に「新建工程」をクリックして新しいプロジェクトを作ります
②シンガーを選んで右下の確定ボタンを押します
現在女声が小冰(シャオピン/シャオアイス)、何畅(ホチャン)
男声が陈子瑜(チェンズユ)の計3名です
③ノートを鉛筆ツールで入力するか、「插入」からMIDIをインポートします
※他の歌声合成を使ってる人はMIDI機能を使うことを強くおすすめします。
④歌詞を入力します。
ノートをダブルクリックして入力するか
ノートを右クリックして「編辑全部歌詞」を選択し、
一気に歌詞を入力することもできます
※使えるのは中国語のみ
※ピンイン不可
※「-」ハイフンでスラーやタイなどを歌わせることも可能
⑤各種装飾
ブレスを入れたいときは、入れたい場所の直後のノートを選択し、「挿入換気」を押すとブレス記号が付きます。
敢えて止めたい場合は、「挿入停○」を選ぶとストップが挿入されます。
⑥その他
この部分では上から「音量」「パン」「リバーブ」を選ぶことができます。
基本的には「干浄(ドライ?」でいいと思います。
歌手アイコンの真下の矢印をクリックするとシンガーを入れ替えることができます
「美化」になにかしら一括ブレス挿入機能があるのですが……基本的にはStudioVoICEも自動ブレス入れてくれるので使い所がよくわかりません。
プロジェクトを保存したい場合は「保存工程」をクリックしてください
それ以外のMIDIや音声ファイルは「○出」から選べるのですが、電話番号未認証だと使えないようです。
待望のピッチ編集機能追加!
なんと、右上の「参数」をクリックすることで……
ピッチを弄れるようになりました!
1.手書きモード
ペンツールで自由に描けるようになりました。
2.ポイントモード
UTAUやSynthVのような形式でポイントを置いてピッチが描けるようになりました!
开启AI互動模式(AI対話モード)
オンにしてキャラクターアイコンを押すと各シンガーがお喋りしてくれます。
(中国語読めないけど、雑談以外に編集のヒントとか喋ってる感じがある)
「ん? 何かご用ですか?」
「中国語の曲を歌うのが一番好きだから、もっと英語を勉強しなきゃ」
「うん...私は普段あまり喋らないんだ」
そういえばAISingersの別エディタ、「77エディタ」でも元七七ちゃんが喋ってたのでこういう風にキャラクターが何らかの手段で喋ってれるのはトレンドなのかもしれませんね。
大まかな評価
良いところ
男声音源がある!
調整しなくてもある程度は良い感じにやってくれる!
悪いところ
Wi-Fi無いと使えない
音程外れる
ピッチ弄れない
弄れる機能が少ない
中国の電話番号無いと高音質機能、音声書き出しが使えない
ピンイン使えない
感想
CeVIOのFree版っぽいですね、エディタの外でVocalShifterなどでしっかり調整すればいい感じのボーカルになりそうな予感。
今のところは高音質版を試してないので何とも言えないんですが、どっちかと言うと歌声合成で遊びたい人向きな感じがします。デフォルトでリバーブも付いてるし。
「初音ミクNT」の機能・仕様を解説してみる
1パラメータ編
NT Parameters
NTにて新規実装されたパラメータです。
Note Gain
ノートごとのゲイン(≒音量)を増減できるパラメータです。
0%にした場合、前後の音のフェードイン/アウトはそのままで、該当する音の音量が限りなく0に近くなります
(語頭だと稀に子音が残る)
Note Gainについては音質にそこまで関与しないように思われます。
Consonant Rate
子音の長さを調整する値です。
本来の子音の長さの0.1~3倍の範囲で伸縮できます。
子音の長さが長すぎると前のノートの母音を侵食します。
なお、波形が表示される部分の緑色のバーはおおまかに「子音の開始位置」を表しています。(厳密に言うとAttack Speedが100の時のみ)
このバーに関しては、波形のレンダリング(後述)をオフにしても表示され続けるので、子音の大まかな位置が分かりやすく表示されます。
Attack Speed
母音のアタックスピードを調整できるパラメータです。
(厳密に言うとVCやVV接続部分の遷移時間を変更させてる可能性?)
「fast」に寄せると立ち上がりが早く、「slow」で遅くなります。
①語頭・語中の場合
②母音を連続した場合
③語尾の場合
特に、「3.」については「立ち上がりが早いと語尾のフェードが早く、遅いと逆に語尾まで音量が均一」という現象が確認されています。
Dynamics
ダイナミクスを調整できるパラメータです。
調査の結果、単にボリュームを調整できるパラメータであることが判明しました。(ゲイン調整済み)
Breathiness
息成分を調整できるパラメータです……と言いたいところですが、このパラメータを中途半端に(20〜90%辺り)掛けると音色が微妙になるので100%掛けて息成分だけにしない限り、余り使えません。
(EQでハイパスフィルタ掛けたっぽい感じになる)
調査の結果、「声から有声音を抜いている」訳ではなく、スペクトログラムに応じて「息成分をシミュレートしている」ように思われます。
Super Formant Shifter
声のトーンを変更できるパラメータです。
「cute」に寄せると可愛らしく、「cool」に寄せると張った声になります。
VOCALOIDに比べると、フォルマントの変化が緩やかになっているので、ある程度扱いやすくなりました。
Voice Voltage
声のハリを変更するパラメータです。
100%に寄せると明るく、-100%に寄せると暗くなります。
-100%は声質が良い感じに弱くなるので使いやすいのですが、100%に関しては(個人的に)聴覚上音量が大きく感じしかしないので、今のところは-100%ほど出番は無いように思われます。
調査の結果、高域と低域のどちらにパワーを偏らせるか調整できるパラメータであると思わしき結果が出力されました。(ゲイン調整済み)
Pitch Control
後述の「ピッチカーブを編集」モードで弄ったラインを眺めることができます。
ここからは特に弄れる要素はなく、単に「どれほどピッチが離れているか」を眺められる欄のようです。
Voice Drive
唸り声, グロウル効果を付与できるパラメータです。
使う際は、【Voice Drive】左隣の電源ボタンをクリックして青く点灯したことを確認しましょう。
【-+スライダー】にて初期値を変更できます。(左端に寄せて初期値を【0】にすることを推奨)
- Rough Voice……軽く唸りながらやや喉声っぽい感じ(+が増えると強くなる)
- Pop Growl………喉声が入っていないクリーンな唸り(3になるほど強くなる)
- Growl……スクリーモとかで使うデスボイス
- Grunt……Growlよりもやや喉を下げたデスボイス
- Guttural……思いっきり喉を下げたデスボイス
2UI編
新しい描画ツール
Piapro Studioに存在した既存のツール以外に、ピークを描けるツールが増えました
使い道は……クレッシェンドとかを手軽に描けるのではないでしょうか……。
ピッチカーブを編集
ペンツール、ラインツール、カーブツール、ピークツールを使ってピッチをピアノロール上に描くことができます。
このモードに入る場合は「ノート」の該当箇所、ショートカットキーの「tab」
右上の「PITCH」と書かれているボタンをクリックする必要があります。
ピッチを編集している間はノートが弄れませんので要注意。
※1初音ミクNTではビブラートを付与するUIをクリックするとpiapro studioが落ちるので手書きビブラートがほぼ必須になります。
※2アップデートで改善される模様
バックグラウンドレンダリング
波形をリアルタイムで表示してくれます。
NTパラメータを編集すると、その度に波形をレンダリングし直して表示してくれます。
(Voice Driveは後から処理するタイプのエフェクトなので更新されない)
重い場合もあるので、オフにする場合はトラックのこの部分や
波形が表示される部分にある青い波形マークをクリックすることで止めることができます。
オートエンベロープ
ある程度、発音を自動調整してくれる機能です
プロト版では子音とノート先頭部分を明瞭化してくれるみたいです(20%くらい)
3挙動編
まさかの単音階音源!?
色んな音階にノートを設置した後、ピッチでC4に全部持っていくと全て同じ波形になりました。
※追記 実際のところ5音階音源らしいのですが、急激なピッチシフトが行われたときに一番近いサンプルで合成されるようになってるみたいです!
歌詞の表示方式
歌詞と発音記号の表示が別々になってしまったので編集する際はどちらか片方のみの表示になりました。
(もしかしたらヤマハの特許の可能性?)
発音記号
発音記号に関してはVOCALOIDに引き続き、X-SAMPAを採用。
ただ、いくつかの発音記号などが使用不可に。
【Sil】……使用可能(小さい「っ」など)
【br1~5】……使用可能
【Asp】……使用可能(ノートにピッチが引っ張られる)
【?】……使用不可(実質意味のない歌詞を入力したときと同じ挙動になる)
【_0】……使用不可(代用するならBreathinessが妥当?)
無声化?
前のノートの長さが短い場合、Consonant Rate(子音速度)をLongにすることで無声化っぽい感じになる時があります。
子音単体ノート
s, S, hなどは使用可能。
それ以外はノートの最後にほんの少し音が鳴る程度。
語尾に「g」を置いたからといって、軟口蓋を閉鎖してくれたりはしないので、そういった音が欲しい場合はノートを置く→要らない音を後から削るという方法を使うしかなさそうです。(今のところは)
発音記号の編集
1つのノートに2つ以上の発音記号を入力すると大体の場合反応しなくなります。
発音記号に【母音+子音】(例:【a s】)と入力すると、ノートの開始位置から鳴るのが子音、それ以前が母音になります。
Consonant RateやAttack Speedで各種タイミングを調整することも可能です
※【a g】などと配置しても母音の閉じ方は変わってくれないので、基本的にはノート単体入力を推奨
4おまけ
VOCALOIDトラック
もしかしたら、クリプトンのVOCALOIDがNTエディタで使用可能になるかも知れませんね……!
NTエンジンかVOCALOID4エンジンか、サードパーティのボカロも使えるのかは不明ですが。
感想
重いのだけなんとかすれば結構使えると思う。
【新規歌声合成エンジン】マイクロソフトがまさかのAIシンガーに参入!?
まさかの新しい歌声合成エンジン!?
NEUTRINO, NT, SynthV R2, CeVIO Pro……大体の歌声合成の足並みが揃いかけたところで、また新しい歌声合成システムが発表されてしまいました!
現在、新しい音声合成エンジンはリリースされていませんが、現在している歌手にはMicrosoft xiaoiceがいます。
— 黒木先生 (@Kuro_kitu) 2020年6月3日
一部のトライアルユーザーは作品をアップロードしています。こちらから視聴可能です。link:https://t.co/FB2SXQaz3j pic.twitter.com/2EQd7oXlUs
現在、新しい音声合成エンジンはリリースされていませんが、現在している歌手にはMicrosoft xiaoiceがいます。
一部のベータユーザーは作品をアップロードしています。こちらから視聴可能です。
な、なんだってー!?
というか一部一般ユーザーが使ってるってどゆこと!?!?!?!?!?!
マイクロソフトの歌声合成
Xiaoice(シャオアイス/小氷)は、簡単に言うと「りんな」の中国語バージョンです。
仕組みはそこまで詳しく分かっていませんが、マイクロソフトの歌声合成のベースはHTSを使用しているので、この新規エンジンもベースはHTSを利用してると思われます。
※HTSは名古屋工業大学で開発している機械学習型の発話、歌声合成のベース。
SinsyやCeVIOの根幹技術にも使われている。
聞いてみた感想
今回新規で制作(?)された、何畅(HeChang/ホチャン)はXiaoice(シャオアイス/小氷)と違って可愛さより、歌い上げたときの凛々しさが際立っていると思います。
どっちかと言うとある程度歌が上手く、アーティストのような歌い方をするりんなのような雰囲気ですね。
あと、ベースがHTSなのもあってCeVIOみが結構ある音声なのも特徴ですね、音色はどっちかというとCeVIO Proに近い気がします。
機能
At present, this software does not have anything like pit, so all currently released demos are automatic https://t.co/mX1XkKl2Fa
— 黒木先生 (@Kuro_kitu) 2020年6月3日
現在、このソフトはピッチベンドなどのパラメータ実装されていないので、このデモはほぼ自動です。
どうやらソフトウェアのようですが、ピッチは実装されていないようです。
予想(妄想)
りんなに関しては歌声を合成する際、楽譜情報が必要無いらしいのですが、このエンジンはエディタ画面が無いのでどういった入力インターフェイスを備えているのかすごく気になります!
あとは、クラウドベースの合成になるのか、それともGPUを積んだパソコンで動くのかか……。
それ以外にも音素のタイミングなど入力機能は実装されるか……りんなで実験的に行っていた「歌に感情を適応する」仕組みはあるのか……謎は深まるばかり。
感想
マイクロソフトがAIシンガーに取り組んでるのは周知の事実でしたが、もしかしたらこれが一般人にも使えるかもしれない……と思うと非常にワクワクしますね!
あと男声音源があるのかも気になります!