アマノケイのまったり技術解説

合成音声系の技術的なことを中心に解説記事を書いていきます。

DTMer寄りの観点で、メジャーな歌声合成ソフトに(F○te風)パラメータを付けてみた!

そいえば各種の歌声合成についての説明は色々あるけど、全体的に評価したものは無い感じがしたので、主に以下の項目で勝手にランク付けしてみました

  1. ベタ打ち性能
  2. エディタの操作性
  3. 声質パラメータの豊富さ
  4. パラメータの編集方法
  5. DAWとの提携
  6. 重さ
  7. 音源の豊富さ
  8. 有志による内部拡張性
  9. 導入コスト

なるべくは私情は入れないようにしていまが、独断と偏見が大いに含まれている可能性があるのでご了承ください

 正直DTMer寄りか微妙な部分もあります

 

評価ランク付け一覧

S(大変よろしい)……非常に使い勝手のよろしいもの、そのソフトのアイデンティティ

A(良い)……使い勝手の良いもの

B(普通)……標準的な機能で特に過不足がない場合

C(悪くはない)……一応出来るけど微妙な場合

D(無理み) ……お世辞にもあまりよろしくない

EX(規格外)……分類不能 or あまり例を見ないもの

X(評価不能)……存在しないのでそもそも評価できない。

 

VOCALOID4

・ベタ打ち性能(無調声時のクォリティ)……BC

特にこだわらないのであれば問題ないレベル。

 

・エディタの操作性……B

標準的なMIDIシーケンサーベースなので比較的分かりやすい。

 

・声質パラメータの豊富さ……A

ピッチ、ダイナミクス、フォルマントなどの基本的な値以外に、声質モーフィング、グロウル、声の明暗、息っぽさなどを調整出来る。

 

・パラメータの編集方法……BC

画面下部のUIから各種パラメータ調整できるので直感的。

ただし、ピッチベンドのパラメータに関しては音程(cent)の幅を変更するタイプなので、大きな値でピッチを弄ろうとすると難しい。

 

DAWとの提携……C

公式で提携手段が提供されてるわけではないが、ありばば氏によるRewire用プラグインが配布されているので不可能ではない。

web.archive.org

 

・重さ……C

複数トラックでなければ基本的に極端に重くなることはないが、稀に単体トラックでもメモリ不足が発生して保存→開き直しを行うしかできない場合が発生する。

 

・音源の豊富さ……A

色んな会社がいろんな音源をリリースしていた。

拡張音源を含めると100個以上の音源が存在する。

 

・有志による内部拡張性(プラグインなど)……B

lua言語で一部の作業を簡略化出来るプラグインを作成することが出来る。

しかし、ヤマハ公式が配布してた構文テンプレートはVOCALOID STORE閉店により手に入らなくなってしまったので少々敷居が高い。

 

・導入コスト…… D

廃盤になったため、プレミア価格がついている。

 

総評・・・B

可もなく否もなく、標準的な歌声合成ソフト(だった)

 

VOCALOID5

・ベタ打ち性能……B

(ピッチ補正は必要かもしれないが)Singing Styleでピッチを自動付加してくれる機能があったり、生っぽいワンフレーズもあるのでそこそこ良い。

 

・エディタの操作性……C

VOCALOIDをベースとしながら色々な機能を追加したせいで、UIがゴチャゴチャして見づらく取っつきづらいが説明書を見ながら操作すればなんとかなるレベル。


・声質パラメータの豊富さ……S

VOCALOID4の声質モーフィングが廃止されたとはいえ、新たに声の強弱、リアルな息っぽさを調整できるパラメータが追加。

ピッチやダイナミクス、ボーカルフライ(エッヂボイス)などの声の装飾をワンボタンで付加できるプリセットボタンが追加。


・パラメータの編集方法……C

パラメータの制御点はクォンタイズに依存するので、オフにしないと滑らかなオートメーションが描けない。

V4で使用できた「別のパラメータを背後に表示しながらそれを参考にパラメータを描く」戦法が使用できなくなった。


DAWとの提携……B

VST2により、各種DAWと提携可能。


・重さ……C

アップデートによりレンダリング時間が許容範囲内に。

 

・音源の豊富さ……B

V2の音源が使用できなくなったのに加え、V5音源はヤマハがリリースしたのを除けば2パッケージしか出ていない。(桜乃そら、鳴花ヒメ・ミコト)


・有志による内部拡張性(プラグインなど)……D

VOCALOID4で使用できたプラグイン等が一切使用不可能に。

 

・導入コスト…… C

アップグレード版で最低16,500円、なしの場合25,000円なのでややハードルが高い

 

・声ネタ……EX

標準で英語と日本語の声ネタなどが豊富に入ってる。

▷カウントダウンなどの標準的なもの。

▷「check it out!」という英語ネイティブフレーズ。

▷お祭りなどで聞く「どっこいしょ~!どっこいしょ~!」みたいなどこに使えばいいか分からないもの。

▷いい感じに調声済みのボカロフレーズ。

などが入ってるのでトラックメイカーにはおすすめ。

 

その他に、ExVoiceと呼ばれるボカロの生セリフ集も格納されるようになったので便利かもしれない(現在、鳴花ヒメ・ミコトのみ )

 

総評・・・BC

V5が初めての歌声合成ソフトなら問題ないが、以前のバージョンのボカロを弄っていた場合は仕様の違いに困る場合がある

 

VOCALOID4.5 (for Cubase)

※基本的にはVOCALOID4と同じなので一部省略。


DAWとの提携……EX

Cubase限定だが、VOCALOID4のすべての機能を有しながらCubaseのトラックとして呼び出せるのは非常に強い。

Midiキーボードがあればダイナミクスとベロシティを適応した状態でノート入力が可能

Cubaseに最適化されているのでV4 Editorよりも軽い。

 

・音源の豊富さ……S

V5,V2音源が使用できるのでV4よりも使える音源の単純数は多い。

 

・導入コスト……B~C

VOCALOID5の導入が必須な上、Cubace(少なくともAI)も必要なので全体的なコストは高め。ただ、それを考慮してもVOCALOID4エディタ(V4.5)は優秀なのでコスパを考えると悪くないかもしれない。(お財布と要相談)

 

総評・・・EX

Cubaseユーザーで以前のボカロを弄っていた場合、V5を購入してこっちのみ使用するのも十分あり

 

 

Piapro Studio

・ベタ打ち性能(無調声時のクォリティ)……C

VOCALOID4と同じ。

 

・エディタの操作性……B

基本的にはVOCALOID4とほぼ同じくらいの操作性。

しかし、こちらはピアノロール上に常時ピッチラインを表示してくれるので、何かしら編集するたびに消えるV4よりは使い勝手が良い。


・声質パラメータの豊富さ……EX

基本的にはVOCALOID4と同じだが、クリプトン社製の「V4X」と銘打たれた音源に関しては「E.V.E.C」機能が使用できる。

母音の音色差し替え、リアルな語尾息の追加、子音のアタックの強弱など。


・パラメータの編集方法……B

エディタ下部に複数のパラメータスロットを表示可能。

制御点はクォンタイズに依存するのでVOCALOID5とほぼ同じ操作性。

 

DAWとの提携……S

VSTAUに対応しているので基本どんなDAWでも連携可能。


・重さ……B

重くはないが、動作が不安定なので落ちることが結構ある。

 

・音源の豊富さ……A

VOCALOID4と同じ。


・有志による内部拡張性(プラグインなど)……D

強いて言うならエディタに何かしらの画像を透かしで表示できる、シンガーのアイコンを自由に設定できる程度。

 

・導入コスト……B

初音ミク単体を買うとエディタのみならず、DAW(Studio Oneのピアプロエディション)も付いてくるので非常にお得。

 

総評・・・A

初めてボカロを買う場合でクリプトンボカロを使いたい場合はこちらで十分

 V2~V4なら他の会社のボカロも使用できるのであまり問題ない

 

Piapro Studio NT

・ベタ打ち性能(無調声時のクォリティ)……D

最近は比較的良くなったが、子音の音質があまり良くないので微妙なところ。

 

・エディタの操作性……A

Piapro Studioからそのままピッチカーブをピアノロール上に描けるようになったので使い勝手が良い。


・声質パラメータの豊富さ……EX

現状ではE.V.E.C機能の内、母音のアタックの調整しか使用できないが、母音のアタック速度、声の強弱、息の混ざり具合、グロウルの付加など様々なエディットができるようになる。


・パラメータの編集方法……A

エディタ下部に複数のパラメータスロットを表示可能。

制御点はクォンタイズに依存するのでVOCALOID5とほぼ同じ操作性。

 

DAWとの提携……D

現状は初音ミクV4Cに付属されていたスタンダロンバージョンをベースとしているので、DAWとの提携はできない。

伴奏は読込可能。


・重さ……C

重くはないが再生がガタついたり、動作が不安定なので落ちることが結構ある。

 

・音源の豊富さ……D

現状では初音ミク(Original, Dark, Whisper)しか存在しない。


・有志による内部拡張性(プラグインなど)……D

強いて言うならエディタに何かしらの画像を透かしで表示できる、シンガーのアイコンを自由に設定できる程度。

 

・導入コスト……C

Piapro Studioとあまり変わりはないが、こっちのエディタは拡張性がないので相対的に評価が低い。

 

総評・・・C

VOCALOIDエディタのピッチ操作が嫌いなら検討の価値はあり

現状では余りおすすめできないので、さらなるアップデートを期待

 

UTAU

・ベタ打ち性能(無調声時のクォリティ)……D

基本的には目も当てられないレベルになる。(ノートと歌詞だけ打ち込んで何もしない場合)

 

・エディタの操作性……D

普通のMIDIシーケンサーと比べるとめっぽう特殊な動作をしているうえ、初見で使うには落とし穴が多いので独学で使うには非常に難しい。

誰か詳しい人に教わると難易度は下がる。

標準機能ではモノトラックでしか使用不可。


・声質パラメータの豊富さ……B(EX)

豊富ではあるのだが、各数値が抽象的なのでどのような効果が出来るのか直感的に分からないので使い勝手は悪い。

例:g+, Mt+49, A40, H50, B20


・パラメータの編集方法……B(EX)

ピッチがピアノロール上に表示され、制御点付きで調整できる点やビブラートのエディタが直感的など、良い点もある。

しかし、声質パラメータはノート毎に入力するタイプなので連続的な操作は不可能。


DAWとの提携……D

標準機能のみだとオケを読み込む機能もない。


・重さ……C

全く重くはないが、再生する場合は選択部分をいちいちレンダリングしないといけないので不便。

 

・音源の豊富さ……EX

※後述の音源制作参照。


・有志による内部拡張性(プラグインなど)……EX

ピッチをピアノロール上にフリーハンドで描けるようにしたり、歌詞の一括変換、自動調声、スケール自動判別コーラス生成、スキャット化など、有志による様々なプラグインが配布されている。

加えて、有志による「合成エンジン」も各種配布されているので、様々な合成メソッドを試せるのに加え、『標準エンジンと相性が悪くても別のエンジンでは相性がよろしい』といったことも試せる。

 

※上で評価を「(EX)と表記したのはこのため。

 

・導入コスト……EX

エディタを含め数百、下手したら数千種類もの音源が無料で使用可能。

エディタの有償版は存在するが、幾つか機能のおまけが増える程度のもの。

ただし、雑誌「Windows100%」に収録されている音源については現在ではやや入手困難である。(金田朋子門脇舞以などの有名声優による音源が存在)

 

・音源制作……EX

自分で音源を自由に制作できる

使い勝手はさておき、子音と母音の区別がつくのであればどんな外国語音源も作成できるうえ、エッジもグロウルも、パワーボイスもウィスパーボイスも、どんな表現も詰め込める。

肉声のみならず楽器や動物の声、ホワイトノイズなど様々な音源が作られ、配布されている。

 

総評・・・EX

使い方がある程度分からないと真価を発揮できないが、潜在能力がやばい

 

UTAU-Synth(上記UTAUのMac版)

・ベタ打ち性能(無調声時のクォリティ)……C

Win版よりはまだまし。

 

・エディタの操作性……B

Win版よりも標準的なMIDIシーケンサーに近く、使い勝手も悪くない。

同一音源であれば8トラック作成可能。


・声質パラメータの豊富さ……B

Win版をベースに標準的な機能は揃っている。


・パラメータの編集方法……B

Win版と同じく、制御点付きのピッチをピアノロール上に描いたり、直感的なビブラートエディタが使える。

 

DAWとの提携……D

伴奏読み込みも不可能。

 

・重さ……B

重さはそこまでない上、レンダリング時間はWin版よりは早くなる。

 

・音源の豊富さ……EX

Win版のUTAU音源を流用できるので同等。

 

・有志による内部拡張性(プラグインなど)……D

仕様上、プラグイン機能は廃止。

 

・導入コスト……A

定期的に公式サイトに行ってアクティベーションコードを入力する必要はあるが、完全フリー。

 

総評・・・EX

Bootcampなどを使わず、Mac環境で手軽にUTAUを使いたい場合はおすすめ

 

CeVIO

・ベタ打ち性能(無調声時のクォリティ)……B

収録時の歌声の調子を真似るのでいい感じに歌になってる。

 

・エディタの操作性……A

メインで使う機能のUI部分はシンプルに抑えられており、右クリックやツールバーにて細かい機能やオプションの適応が可能。


・声質パラメータの豊富さ……C

パラメータはフォルマントしかない上に、トラックごとに単一の値にしか指定できない

ノートに「※」入力でファルセットに切り替え可能。


・パラメータの編集方法……S

母音アタックや子音タメの発声タイミングを調整できる上、各種パラメータをピアノロール上に描ける。

背後に別のパラメータを表示することやも可能。


DAWとの提携……D

伴奏はインポート可能。

 

・重さ……A

落ちることはめったにない上、レンダリング待機時間も短め。

 

・音源の豊富さ……B(C)

日本語音源が9種類(女:5, 男:4)、英語女性音源が1種類。

(現時点で購入可能な音源は日本語女性2人, 男性1人, 英語女性が1人のみ)


・有志による内部拡張性(プラグインなど)……D

強いて言うならシンガー選択時のキャラ画像を変更できる。

 

トーク機能……EX

使用キャラは限られるが、トーク機能を使ってセリフを作成したり、音程をcent単位で指定できるのでラップ調のトークや、トークをベースとしたボーカルも作成可能。

 

・導入コスト……B

ある程度のお手頃な値段で女性1人のソング&トーク、男女各1名ずつのトークが使えるのでお得。

 

総評・・・B-

CeVIO AIの出現によりやや微妙にはなったが、特徴的な音源が多いのが魅力(現時点で購入可能な音源が減った)

 

CeVIO AI

・ベタ打ち性能(無調声時のクォリティ)……A

CeVIOから更にリアリティが増した。

 

・エディタの操作性……A

メインで使う機能のUI部分はシンプルに抑えられており、右クリックやツールバーにて細かい機能やオプションの適応が可能。


・声質パラメータの豊富さ……B

フォルマント(ALP)がオートメーションで調整可能になったが、声質パラメータはこれしかないので微妙

星界にて「歌い方の感情を変更可能」というパラメータが追加される予定。

ノートに「※」入力でファルセットに切り替え可能。


・パラメータの編集方法……S

母音アタックや子音タメの発声タイミングを調整できる上、各種パラメータをピアノロール上に描ける。

背後に別のパラメータを表示することも可能。


DAWとの提携……D

伴奏はインポート可能。

 

・重さ……A

初期は遅かったが、最近のアップデートで許容範囲に。レンダリング待機時間も短め。

 

・音源の豊富さ……B

キズナアイや花譜などの魅力的で有名な女声音源が多数存在。(ただし、男声はいない)


・有志による内部拡張性(プラグインなど)……D

強いて言うならシンガー選択時のキャラ画像を変更できる。

 

・導入コスト……C

CeVIO時代よりもトーク・ソングエディタの価格が上昇し、やや導入しづらい価格に。

 

トーク機能……EX

使用キャラは限られるが、トーク機能を使ってセリフを作成したり、音程をcent単位で指定できるのでラップ調のトークや、トークをベースとしたボーカルも作成可能。

CeVIO時代よりもアクセントの自然さが向上。

 

総評・・・S

ボーカル制作に労力をあまりかけたくない、アイコニックなキャラを使用したいのであれば最適

 

CeVIO Pro

・ベタ打ち性能(無調声時のクォリティ)……S

フリーズ機能を使ってレンダリングを行うことにより、CeVIO AI相当の音質から更にリアリティが増す。

 

・エディタの操作性……A

メインで使う機能のUI部分はシンプルに抑えられており、右クリックやツールバーにて細かい機能やオプションの適応が可能。


・声質パラメータの豊富さ……A

CeVIO AIのパラメータに加え、HUSという息成分を調整できるパラメータが増え、強弱記号の利きも良くなったのでパワーの調整も可能に。

これに加え、CeVIO AIにて実装された「歌の感情」パラメータが追加された場合はS相当になる。


・パラメータの編集方法……S

母音アタックや子音タメの発声タイミングを調整できる上、各種パラメータをピアノロール上に描ける。

背後に別のパラメータを表示することも可能。


DAWとの提携……S

VSTなどで各種DAWと連携可能。

 

・重さ……A(C+)

基本はCeVIOと同じだが、フリーズ機能を使うにはやや重い。

 

・音源の豊富さ……D

現在は知声のみ、おそらくさとうささら等は実装されると思われる。


・有志による内部拡張性(プラグインなど)……D

強いて言うならダークモードとライトモードはあります。

 

・導入コスト……EX

知声は完全無料。

現状は不明だが、歌声合成ソフト初のサブスク仕様なので現時点で導入しやすいかしにくいかは判定不可能。

 

総評・・・A+

CeVIO AIよりもさらにリアルな声が欲しく、DTMerには最適

 

DeepVocal(Sharpkey)

・ベタ打ち性能……C

音源にもよるが、いい感じに聞かせようと思うと調声が必要。

低域がスカスカになりやすい。

 

・エディタの操作性……A

基本UIはボーカロイドとCevioの良いとこ取りをしているが、細かい部分に関するオプションが現時点で余り無い。


・声質パラメータの豊富さ……C(S)

DeepVocal……ピッチ、息っぽさ、音量のみ。モーフィングなどSharpkeyで実装されていた機能は将来的に実装される予定。

Sharpkey……上の機能に加え、声の明るさ、パワー、フォルマントなどが実装されてた。


・パラメータの編集方法……S

Cevioと同じで母音アタックや子音タメの発声タイミングを調整できる上、各種パラメータをピアノロール上に描ける。


DAWとの提携……D

伴奏はインポート可能。


・重さ……A

落ちることはめったにない上、即時再生可能。


・音源の豊富さ……S(C)

DeepVocal……音源制作出来るソフトが配布されたので、海外中心に簡単に使える外国語音源制作の制作が進行中。

Sharpkey……初期では開発がそこそこ活発だったが、現時点でメイン開発者が抜けた会社内部でどうなっているか不明。


・有志による内部拡張性(プラグインなど)……D

UIの翻訳は可能

 

・導入コスト……A

開発元が音源を有償で販売することを禁止しているため、すべての音源が無償。

 

総評・・・B

フリーでそこそこ使いやすい歌声合成ソフトが使いたいのならオススメ

使いやすい外国語音源が使用したいのであれば、ある程度環境が整備された後に利用するのはあり

 

SynthV(+AI)

・ベタ打ち性能……S~A

ベタ打ちでも普通に聞き取りやすい上、AIは自然度が更に向上。

加えて自動ピッチ調整機能があるので労力をかけずとも自然になりやすい。

 

・エディタの操作性……S~A

ノートの作成方法やパラメータ操作方法が視覚的・直感的に分かりやすい。

英語音源が非常に使いやすい。

 

 

・声質パラメータの豊富さ……A

基本的なパラメーターに加え、テンション、無声化パラメータ、AI向けに声の調子を上下させるパラメータを実装。

Std版の場合、音素が選択できる機能も実装されている。

 

・パラメータの編集方法……A

ノートのオプションでピッチを調整する方法とピアノロール上にフリーハンドでピッチを描く方法の2種類のピッチ描画方法が使える。

ピッチの編集がピアノロール上へと即座に反映されるので非常に直感的。

 

DAWとの提携……A

VST形式なので殆どのDAWと提携可能。

 

・重さ……S

音の生成がありえないレベルで爆速。

DAWと連携してもほとんど遅延が発生しない。

 

・音源の豊富さ……A(EX)

AI音源に限り日本語、英語、中国語で歌わせることが可能。

これにより、女・男声の日英中音源が実質的に揃う。


・有志による内部拡張性(プラグインなど)……A
Lua形式でスクリプトを書けば様々な作業が実行できる。

 

・導入コスト……EX

エディタの無償版、音源の無償版が配布されているため導入自体は非常に簡単であり、性能も良い。

エディタが無償版でも有償版の音源が使用可能であり、またその逆も可能である。

(エディタが無償版の場合、自動調整機能とスクリプト機能が制限される。音源の無償版の場合は高品質レンダリングが制限され、高速レンダリング固定になる。)

 

総評・・・S

ボーカルに凝りたいとき、凝りたくないけどリアルな声が欲しいときの両方があるけど、ボカロやその他の歌声合成ソフトが肌に合わなかった方向け

 

NEUTRINO

・ベタ打ち性能(無調声時のクォリティ)……S~A

WORLD版はA程度、NSF版はS相当。楽譜を入れるだけで相当リアルに歌ってくれる。

・エディタの操作性……X

基本的にbatで操作するので、現時点では公式UIが存在しない(実装予定はあり)


・声質パラメータの豊富さ……X

公式UIが存在しないので評価不能


・パラメータの編集方法……X

公式UIが存在しないので評価不能


DAWとの提携……X

仕様上不可能

 

・重さ……B

初期はそこそこ遅かったが、最近のアップデートで結構早めに。

 

・音源の豊富さ……B

2021年7月10日現在、発表予定の音源含め7音源が女性音源で1音源が男性音源。

ずんだもんの音源が追加予定。


・有志による内部拡張性(プラグインなど)……EX

NEUTRINO調整支援ツールが最強。

タイミング、音量、ピッチを調整することができる。

 

・導入コスト……A

全ての音源が完全に無償なので気軽に導入できる。

気に入ったら開発者さんのFanboxを支援することも可能。

 

総評・・・A

ボーカルのベース制作に労力をあまりかけたくないのであれば最適

(出力後は調声というより、生歌感覚でピッチやタイミングを補正する必要あり)

 

結論

自分の好きなキャラが居る歌声合成ソフトを使え!!!!!!!!!!!!!!!!