2020-06-26

SynthV Proの現発表時点での仕様を解説してみた

SynthV

全体的なUI

f:id:crimsonbutterfly0zero0:20200626202443p:plain

視覚的に散らからないよう、何を弄ればいいのかわかりやすいようにデザインしたそうです

エンジンの向上

出力された音声に対し、さらにディープラーニングとガウスモデルを用いて収録音声に近づける

f:id:crimsonbutterfly0zero0:20200626203531p:plain

息成分、ピッチモデルを大幅に改善して品質を向上

f:id:crimsonbutterfly0zero0:20200626203537p:plain

新機能（一部）

ライブレンダリングシステム

f:id:crimsonbutterfly0zero0:20200626203922p:plain

f:id:crimsonbutterfly0zero0:20200626203929p:plain

ピアノロール上に見えてる部分を優先してなるべく早く合成できるように

f:id:crimsonbutterfly0zero0:20200626204016p:plain

f:id:crimsonbutterfly0zero0:20200626204021p:plain

ピッチ自動調整機能

ワンクリックでピッチが自動である程度いい感じに調整されます（おそらく言語OR歌声データベースごとにピッチモデルが違うと思われる）

f:id:crimsonbutterfly0zero0:20200626204157p:plain

ピッチ制御点の単純化

自動ピッチで設定したピッチ制御点を削減し、単純化させることで自然にしたり、編集しやすくしたりします。

f:id:crimsonbutterfly0zero0:20200626204358p:plain

現時点で判明した新機能は以上です（残りは公式Twitter参照）

https://twitter.com/dreamtonics_jp

その他細かいところ

・Lua, JavaScriptでのプラグイン作成が可能

細かいUI

f:id:crimsonbutterfly0zero0:20200626205347p:plain

f:id:crimsonbutterfly0zero0:20200626205350p:plain

f:id:crimsonbutterfly0zero0:20200626205353p:plain

f:id:crimsonbutterfly0zero0:20200626205358p:plain

・基本的な初代SynthVの機能は継承

・パラメータに関してはテンション、ラウドネスを確認

今まで告知されていた音源(赤羽)以外に生放送のエディタ内で以下の音源を確認

・琴葉葵・茜

・平行四界　海伊

・Dreamtonics Saki

2020-06-26

【速報】AHSがSynthV参入！琴葉姉妹+SynthV Proもリリース決定！

SynthV

なんとAHSがSynthVの新規サードパーティーとして参入しました！（なんとなくそんな気はしてた）

f:id:crimsonbutterfly0zero0:20200626122538j:plain

(※各種画像はAHSの公式サイトより引用)

まじかーー！！！

SynthVがどういうソフトなのかはこちらから↓

新規歌声合成ソフト「Synthesizer V」の個人的に良いところ11つ！ - アマノケイのまったり技術解説

SynthV Proのスペック

f:id:crimsonbutterfly0zero0:20200626122643j:plain

現状のSynthVはこの表におけるBasicと大体同じスペックです（２コアレンダリングであの速度なのが異常ですが……）

コアが無制限になったことで「爆速」になることは目に見えています。

機能

基本的な機能はR1と同じと仮定して、

①自動調整

これは恐らくピッチベントを自動的に描画してくれるものだと思われます。

開発者さんは機械学習に長けているので、AIチックな自動調整機能を適応している可能性もあります。

②代替発音

発音が気に入らなかった場合の代替音素を検索してくれる機能だと思われます

(ボカロやその他音声合成であった「音素ガチャ」を効率化？する機能)

③ブレス成分の出力

確か「機械学習ベースの息成分演算」についてweb SynthVで言及されていたので、それを別トラックとして出力できるようにしたものだと思われます。

④lua, Java スクリプティング

これはVOCALOID3~4時代の「Job Plugin」を自作できるものかと思われます。

⑤おそらくR1にあったような手動ピッチのみならず、UTAUのようなピッチを点で制御出来る機能もあるようです

f:id:crimsonbutterfly0zero0:20200626135238p:image

ちなみにエディターで全部調声してます。ピッチの編集はフリーハンドではなくクリックのみで作れました。その点はめっちゃ使いやすいです。
— azuma (@bk_azuma) 2020年6月26日

もちろんフリーハンドもありますのでお好みで。
— azuma (@bk_azuma) 2020年6月26日

SynthV Proの新音源

Saki

恐らくWebSynthVで先行リリースされていた女声音源の拡張版だと思われます

f:id:crimsonbutterfly0zero0:20200626123319j:plain

機能比較表を見るに、こちらに関しては「完全商業利用可能なプロ、アマチュア問わずに利用できるノーキャラ音源」として扱う模様です。

f:id:crimsonbutterfly0zero0:20200626123336j:plain

琴葉茜・葵

こちらはボイスロイドでお馴染みの琴葉姉妹の音源です（こっちが先にSynthV化するとは正直思わんかった……）

f:id:crimsonbutterfly0zero0:20200626123643j:plain

たかぴぃさんによるデモですが、こちらベタ打ちの状態らしいです。

調声こだわる方なのもあってこれ以上いい感じになる可能性もある感じを踏まえると楽しみです！

琴葉姉妹の面影も普通にあります。

SynthVの価格・発売日

7月30日に発売するようです。

エディタはパッケージで1万3000円、DLで１万

音源も1万程度なので大体V4と同じレベルですね。

f:id:crimsonbutterfly0zero0:20200626124008p:plain

価格も良心的なので安心で……

f:id:crimsonbutterfly0zero0:20200626124202p:plain

はい？初回限定版？

f:id:crimsonbutterfly0zero0:20200626124258j:plain

いやマジですかAHSさん

恐らくVOCALOIDユーザーをSynthVに誘導するためにAHSさんがめっちゃ頑張ったみたいです……いやマジで凄いですわ。

もしかして前にやってたコロナで各種AHS製品をたたき売りしてたたのも、この先行販売が適応される人をなるべく増やすためだったのかもしれません。

いや、ほんとすごいの一言しか出てきませんわ。流石AHS.

しかも小春六花さんもSynthV化するようです

これから新しい歌声データベースも増えていきます。TOKYO6 ENTERTAINMENTさんの小春六花さんもSynthesizer Vの歌声データベースを制作させてもらいたいと思っております。
— tomo(AHS) (@tomo_ahs) 2020年6月26日

結論

9000円の初回限定版、めっちゃお得ですよ！！！！！

f:id:crimsonbutterfly0zero0:20200626124906p:plain

あと、今回のSynthVは実質V3〜V4の復興であるような気がします。

2020-06-25

マイクロソフト中国がAIシンガーに本格参戦！？無料で使えるStudioVoICEを試してみた！

AIシンガー

まさかのマイクロソフトが中国版のりんな「小冰」(シャオアイス/シャオピン)を歌わせることのできるエディタを無料配布しました

f:id:crimsonbutterfly0zero0:20200625141959p:plain

studiovoice.msxiaobing.com

マジか！！！！！！

（※現状、歌わせられるのは中国語のみです）

試用動画
簡単な使い方
待望のピッチ編集機能追加！
- 1.手書きモード
- 2.ポイントモード
大まかな評価
- 良いところ
- 悪いところ
感想

試用動画

新しいAIシンガーを試してみた（by Microsoft中国)
無理やり日本語も歌わせてみた

女声x2名
男声x1名

Orig：あの素晴しい愛をもう一度
MIDI：アマノケイ(Me) pic.twitter.com/9luKAcC6CG
— アマノケイ@歌声合成系Vの者 (@aman0_kei) 2020年6月25日

簡単な使い方

①インストール後に「新建工程」をクリックして新しいプロジェクトを作ります

f:id:crimsonbutterfly0zero0:20200625143014j:plain

②シンガーを選んで右下の確定ボタンを押します

現在女声が小冰(シャオピン/シャオアイス)、何畅(ホチャン)

男声が陈子瑜(チェンズユ)の計3名です

f:id:crimsonbutterfly0zero0:20200625143411j:plain

③ノートを鉛筆ツールで入力するか、「插入」からMIDIをインポートします

※他の歌声合成を使ってる人はMIDI機能を使うことを強くおすすめします。

f:id:crimsonbutterfly0zero0:20200625143635j:plain

④歌詞を入力します。

ノートをダブルクリックして入力するか

f:id:crimsonbutterfly0zero0:20200625143833j:plain

ノートを右クリックして「編辑全部歌詞」を選択し、

f:id:crimsonbutterfly0zero0:20200625143902j:plain

一気に歌詞を入力することもできます

f:id:crimsonbutterfly0zero0:20200625144006j:plain

※使えるのは中国語のみ

※ピンイン不可

※「-」ハイフンでスラーやタイなどを歌わせることも可能

⑤各種装飾

ブレスを入れたいときは、入れたい場所の直後のノートを選択し、「挿入換気」を押すとブレス記号が付きます。

f:id:crimsonbutterfly0zero0:20200625144124j:plain

敢えて止めたい場合は、「挿入停○」を選ぶとストップが挿入されます。

f:id:crimsonbutterfly0zero0:20200625144238j:plain

⑥その他

この部分では上から「音量」「パン」「リバーブ」を選ぶことができます。

基本的には「干浄(ドライ？」でいいと思います。

f:id:crimsonbutterfly0zero0:20200625144303j:plain

歌手アイコンの真下の矢印をクリックするとシンガーを入れ替えることができます

f:id:crimsonbutterfly0zero0:20200625144429j:plain

「美化」になにかしら一括ブレス挿入機能があるのですが……基本的にはStudioVoICEも自動ブレス入れてくれるので使い所がよくわかりません。

f:id:crimsonbutterfly0zero0:20200625144519j:plain

プロジェクトを保存したい場合は「保存工程」をクリックしてください

それ以外のMIDIや音声ファイルは「○出」から選べるのですが、電話番号未認証だと使えないようです。

f:id:crimsonbutterfly0zero0:20200625144635j:plain

待望のピッチ編集機能追加！

なんと、右上の「参数」をクリックすることで……

f:id:crimsonbutterfly0zero0:20200820180955j:plain

ピッチを弄れるようになりました！

f:id:crimsonbutterfly0zero0:20200820181034j:plain

1.手書きモード

f:id:crimsonbutterfly0zero0:20200820181310g:plain

ペンツールで自由に描けるようになりました。

2.ポイントモード

f:id:crimsonbutterfly0zero0:20200820181330g:plain

UTAUやSynthVのような形式でポイントを置いてピッチが描けるようになりました！

开启AI互動模式(AI対話モード)

オンにしてキャラクターアイコンを押すと各シンガーがお喋りしてくれます。

（中国語読めないけど、雑談以外に編集のヒントとか喋ってる感じがある）

「ん？何かご用ですか？」

f:id:crimsonbutterfly0zero0:20200626030125p:plain

「中国語の曲を歌うのが一番好きだから、もっと英語を勉強しなきゃ」

f:id:crimsonbutterfly0zero0:20200626030128p:plain

「うん...私は普段あまり喋らないんだ」

f:id:crimsonbutterfly0zero0:20200626030131p:plain

そういえばAISingersの別エディタ、「77エディタ」でも元七七ちゃんが喋ってたのでこういう風にキャラクターが何らかの手段で喋ってれるのはトレンドなのかもしれませんね。

f:id:crimsonbutterfly0zero0:20200626025526p:plain

大まかな評価

良いところ

男声音源がある！

調整しなくてもある程度は良い感じにやってくれる！

悪いところ

Wi-Fi無いと使えない

音程外れる

ピッチ弄れない

弄れる機能が少ない

中国の電話番号無いと高音質機能、音声書き出しが使えない

ピンイン使えない

感想

CeVIOのFree版っぽいですね、エディタの外でVocalShifterなどでしっかり調整すればいい感じのボーカルになりそうな予感。

今のところは高音質版を試してないので何とも言えないんですが、どっちかと言うと歌声合成で遊びたい人向きな感じがします。デフォルトでリバーブも付いてるし。

2020-06-04

「初音ミクNT」の機能・仕様を解説してみる

クリプトンNT

１パラメータ編
NT Parameters
２UI編
３挙動編
４おまけ
- VOCALOIDトラック
感想

f:id:crimsonbutterfly0zero0:20200604205800p:plain

１パラメータ編

NT Parameters

NTにて新規実装されたパラメータです。

Note Gain

ノートごとのゲイン(≒音量)を増減できるパラメータです。

f:id:crimsonbutterfly0zero0:20200605150131g:plain

0%にした場合、前後の音のフェードイン/アウトはそのままで、該当する音の音量が限りなく0に近くなります

(語頭だと稀に子音が残る)

f:id:crimsonbutterfly0zero0:20200604210641p:plain

Note Gainについては音質にそこまで関与しないように思われます。

f:id:crimsonbutterfly0zero0:20200605192218p:plain

Consonant Rate

子音の長さを調整する値です。

本来の子音の長さの0.1~3倍の範囲で伸縮できます。

f:id:crimsonbutterfly0zero0:20200605150826g:plain

子音の長さが長すぎると前のノートの母音を侵食します。

なお、波形が表示される部分の緑色のバーはおおまかに「子音の開始位置」を表しています。(厳密に言うとAttack Speedが100の時のみ)

f:id:crimsonbutterfly0zero0:20200604211150p:plain

このバーに関しては、波形のレンダリング(後述)をオフにしても表示され続けるので、子音の大まかな位置が分かりやすく表示されます。

Attack Speed

母音のアタックスピードを調整できるパラメータです。

(厳密に言うとVCやVV接続部分の遷移時間を変更させてる可能性？)

「fast」に寄せると立ち上がりが早く、「slow」で遅くなります。

①語頭・語中の場合

f:id:crimsonbutterfly0zero0:20200605151621g:plain

②母音を連続した場合

f:id:crimsonbutterfly0zero0:20200605152504g:plain

③語尾の場合

f:id:crimsonbutterfly0zero0:20200605153209g:plain

特に、「3.」については「立ち上がりが早いと語尾のフェードが早く、遅いと逆に語尾まで音量が均一」という現象が確認されています。

Dynamics

ダイナミクスを調整できるパラメータです。

f:id:crimsonbutterfly0zero0:20200604213327p:plain

調査の結果、単にボリュームを調整できるパラメータであることが判明しました。(ゲイン調整済み)

f:id:crimsonbutterfly0zero0:20200605192941p:plain

Breathiness

息成分を調整できるパラメータです……と言いたいところですが、このパラメータを中途半端に(20〜90%辺り)掛けると音色が微妙になるので100%掛けて息成分だけにしない限り、余り使えません。

(EQでハイパスフィルタ掛けたっぽい感じになる)

f:id:crimsonbutterfly0zero0:20200604213632j:plain

調査の結果、「声から有声音を抜いている」訳ではなく、スペクトログラムに応じて「息成分をシミュレートしている」ように思われます。

f:id:crimsonbutterfly0zero0:20200605193344p:plain

Super Formant Shifter

声のトーンを変更できるパラメータです。

「cute」に寄せると可愛らしく、「cool」に寄せると張った声になります。

VOCALOIDに比べると、フォルマントの変化が緩やかになっているので、ある程度扱いやすくなりました。

f:id:crimsonbutterfly0zero0:20200604213855j:plain

Voice Voltage

声のハリを変更するパラメータです。

100%に寄せると明るく、-100%に寄せると暗くなります。

-100%は声質が良い感じに弱くなるので使いやすいのですが、100%に関しては(個人的に)聴覚上音量が大きく感じしかしないので、今のところは-100%ほど出番は無いように思われます。

f:id:crimsonbutterfly0zero0:20200604214144j:plain

調査の結果、高域と低域のどちらにパワーを偏らせるか調整できるパラメータであると思わしき結果が出力されました。(ゲイン調整済み)

f:id:crimsonbutterfly0zero0:20200605193920p:plain

Pitch Control

後述の「ピッチカーブを編集」モードで弄ったラインを眺めることができます。

ここからは特に弄れる要素はなく、単に「どれほどピッチが離れているか」を眺められる欄のようです。

f:id:crimsonbutterfly0zero0:20200604214701j:plain

Voice Drive

唸り声, グロウル効果を付与できるパラメータです。

使う際は、【Voice Drive】左隣の電源ボタンをクリックして青く点灯したことを確認しましょう。

【-+スライダー】にて初期値を変更できます。(左端に寄せて初期値を【0】にすることを推奨)

f:id:crimsonbutterfly0zero0:20200604215109p:plain

Rough Voice……軽く唸りながらやや喉声っぽい感じ(+が増えると強くなる)
Pop Growl………喉声が入っていないクリーンな唸り(3になるほど強くなる)
Growl……スクリーモとかで使うデスボイス
Grunt……Growlよりもやや喉を下げたデスボイス
Guttural……思いっきり喉を下げたデスボイス

２UI編

新しい描画ツール

Piapro Studioに存在した既存のツール以外に、ピークを描けるツールが増えました

使い道は……クレッシェンドとかを手軽に描けるのではないでしょうか……。

f:id:crimsonbutterfly0zero0:20200604220143j:plain

ピッチカーブを編集

ペンツール、ラインツール、カーブツール、ピークツールを使ってピッチをピアノロール上に描くことができます。

f:id:crimsonbutterfly0zero0:20200604215831j:plain

このモードに入る場合は「ノート」の該当箇所、ショートカットキーの「tab」

f:id:crimsonbutterfly0zero0:20200604221034p:plain

右上の「PITCH」と書かれているボタンをクリックする必要があります。
f:id:crimsonbutterfly0zero0:20200604220300j:plain

ピッチを編集している間はノートが弄れませんので要注意。

※1初音ミクNTではビブラートを付与するUIをクリックするとpiapro studioが落ちるので手書きビブラートがほぼ必須になります。

※2アップデートで改善される模様

バックグラウンドレンダリング

波形をリアルタイムで表示してくれます。

NTパラメータを編集すると、その度に波形をレンダリングし直して表示してくれます。

(Voice Driveは後から処理するタイプのエフェクトなので更新されない)

f:id:crimsonbutterfly0zero0:20200604220602j:plain

重い場合もあるので、オフにする場合はトラックのこの部分や

f:id:crimsonbutterfly0zero0:20200604220801p:plain

波形が表示される部分にある青い波形マークをクリックすることで止めることができます。

オートエンベロープ

ある程度、発音を自動調整してくれる機能です

プロト版では子音とノート先頭部分を明瞭化してくれるみたいです(20%くらい)

f:id:crimsonbutterfly0zero0:20200605145435g:plain

３挙動編

まさかの単音階音源！？

色んな音階にノートを設置した後、ピッチでC4に全部持っていくと全て同じ波形になりました。

※追記　実際のところ5音階音源らしいのですが、急激なピッチシフトが行われたときに一番近いサンプルで合成されるようになってるみたいです！

f:id:crimsonbutterfly0zero0:20200605195142p:plain

歌詞の表示方式

f:id:crimsonbutterfly0zero0:20200604222811j:plain

歌詞と発音記号の表示が別々になってしまったので編集する際はどちらか片方のみの表示になりました。

(もしかしたらヤマハの特許の可能性？)

発音記号

発音記号に関してはVOCALOIDに引き続き、X-SAMPAを採用。

ただ、いくつかの発音記号などが使用不可に。

【Sil】……使用可能(小さい「っ」など)

【br1~5】……使用可能

【Asp】……使用可能(ノートにピッチが引っ張られる)

【?】……使用不可(実質意味のない歌詞を入力したときと同じ挙動になる)

【_0】……使用不可(代用するならBreathinessが妥当？)

無声化？

前のノートの長さが短い場合、Consonant Rate(子音速度)をLongにすることで無声化っぽい感じになる時があります。

f:id:crimsonbutterfly0zero0:20200604221300j:plain

子音単体ノート

s, S, hなどは使用可能。

それ以外はノートの最後にほんの少し音が鳴る程度。

f:id:crimsonbutterfly0zero0:20200604222603j:plain

語尾に「g」を置いたからといって、軟口蓋を閉鎖してくれたりはしないので、そういった音が欲しい場合はノートを置く→要らない音を後から削るという方法を使うしかなさそうです。(今のところは)

発音記号の編集

１つのノートに2つ以上の発音記号を入力すると大体の場合反応しなくなります。

発音記号に【母音+子音】(例：【a s】)と入力すると、ノートの開始位置から鳴るのが子音、それ以前が母音になります。

f:id:crimsonbutterfly0zero0:20200604223608j:plain

Consonant RateやAttack Speedで各種タイミングを調整することも可能です

※【a g】などと配置しても母音の閉じ方は変わってくれないので、基本的にはノート単体入力を推奨

４おまけ

VOCALOIDトラック

もしかしたら、クリプトンのVOCALOIDがNTエディタで使用可能になるかも知れませんね……！

f:id:crimsonbutterfly0zero0:20200604223857p:plain

NTエンジンかVOCALOID4エンジンか、サードパーティのボカロも使えるのかは不明ですが。

感想

重いのだけなんとかすれば結構使えると思う。

2020-06-03

【新規歌声合成エンジン】マイクロソフトがまさかのAIシンガーに参入！？

AIシンガー

まさかの新しい歌声合成エンジン！？
マイクロソフトの歌声合成
聞いてみた感想
機能
予想(妄想)
感想

まさかの新しい歌声合成エンジン！？

NEUTRINO, NT, SynthV R2, CeVIO Pro……大体の歌声合成の足並みが揃いかけたところで、また新しい歌声合成システムが発表されてしまいました！

現在、新しい音声合成エンジンはリリースされていませんが、現在している歌手にはMicrosoft xiaoiceがいます。
一部のトライアルユーザーは作品をアップロードしています。こちらから視聴可能です。link:https://t.co/FB2SXQaz3j pic.twitter.com/2EQd7oXlUs
— 黒木先生 (@Kuro_kitu) 2020年6月3日

現在、新しい音声合成エンジンはリリースされていませんが、現在している歌手にはMicrosoft xiaoiceがいます。
一部のベータユーザーは作品をアップロードしています。こちらから視聴可能です。

f:id:crimsonbutterfly0zero0:20200603193830j:plain

な、なんだってー！？

というか一部一般ユーザーが使ってるってどゆこと！？！？！？！？！？！

マイクロソフトの歌声合成

f:id:crimsonbutterfly0zero0:20200603193757p:plain

Xiaoice(シャオアイス/小氷)は、簡単に言うと「りんな」の中国語バージョンです。

仕組みはそこまで詳しく分かっていませんが、マイクロソフトの歌声合成のベースはHTSを使用しているので、この新規エンジンもベースはHTSを利用してると思われます。

※HTSは名古屋工業大学で開発している機械学習型の発話、歌声合成のベース。

SinsyやCeVIOの根幹技術にも使われている。

聞いてみた感想

今回新規で制作（？）された、何畅(HeChang/ホチャン)はXiaoice(シャオアイス/小氷)と違って可愛さより、歌い上げたときの凛々しさが際立っていると思います。

どっちかと言うとある程度歌が上手く、アーティストのような歌い方をするりんなのような雰囲気ですね。

あと、ベースがHTSなのもあってCeVIOみが結構ある音声なのも特徴ですね、音色はどっちかというとCeVIO Proに近い気がします。

機能

At present, this software does not have anything like pit, so all currently released demos are automatic https://t.co/mX1XkKl2Fa
— 黒木先生 (@Kuro_kitu) 2020年6月3日

現在、このソフトはピッチベンドなどのパラメータ実装されていないので、このデモはほぼ自動です。

どうやらソフトウェアのようですが、ピッチは実装されていないようです。

予想(妄想)

りんなに関しては歌声を合成する際、楽譜情報が必要無いらしいのですが、このエンジンはエディタ画面が無いのでどういった入力インターフェイスを備えているのかすごく気になります！

あとは、クラウドベースの合成になるのか、それともGPUを積んだパソコンで動くのかか……。

それ以外にも音素のタイミングなど入力機能は実装されるか……りんなで実験的に行っていた「歌に感情を適応する」仕組みはあるのか……謎は深まるばかり。

感想

マイクロソフトがAIシンガーに取り組んでるのは周知の事実でしたが、もしかしたらこれが一般人にも使えるかもしれない……と思うと非常にワクワクしますね！

あと男声音源があるのかも気になります！

2020-06-02

新規歌声DBを制作した「おふとんP」さんにアレコレ聞いてみた【インタビュー】

歌声データベース

NEUTRINOから始まった、AIシンガーブーム。

元になった東北きりたんデータベースを真似して歌声DBを作り始めた人が続々と現れました。

今回は、第二の男声音源DBを作成した「おふとんP」さんに話を伺いました！

f:id:crimsonbutterfly0zero0:20200601010928p:plain

本日はよろしくお願いします。では、軽い自己紹介をお願いできますか？

おふとんP：おふとんPと申します。

UTAUメインで活動しておりまして「薪宮風季」という男声音源を制作・配布しております。

直近だと、演歌・フォークソング向けの音源を制作しました。

薪宮風季　開発コード「enka_proto3」
精霊流しを少しだけ歌ってもらった
昭和歌謡を歌うために作ったけど開発コードは演歌だし歌ってる曲はフォーク pic.twitter.com/kksV1AjuVr
— おふとんP (@joumonsugi) 2019年11月4日

またボイスコーポレーターなど、声の依頼なども受け持っています。

フリーゲーム「Astraea」紹介PV：怪物役

それ以外にも「棋譜読みちゃん」という将棋の棋譜を読み上げるソフト用の音源を作成しました。

棋譜読みちゃんで喋らせたみた自分の音源。
こんな感じで読み上げます。 pic.twitter.com/UFxbxzXk4h
— おふとんP (@joumonsugi) 2019年8月6日

歌声合成以外にも様々な声に関する活動もなさっているんですね。

さて、早速ですがおふとんPさんはどうして歌声DBを作成されたんですか？

おふとんP：実のところ、知り合いの伝手で歌声DBを作成する機会を頂けたので、歌声DBがどういうものかは未だによく分かっていません（汗）

言うなれば「歌声DBを作りたい！」というよりは「新しいことに興味があった」という側面のほうが大きかったです。

なるほど、特に歌声DBをどうするか具体的な考えはなかったものの、丁度いい機会だったのでチャレンジした……という感じなのですね。

ではここで歌声DBについて軽い解説をしますね。

歌声DBとは、「機械学習用の歌声データベース」です。

大体50曲(約１時間)歌った音源をラベリング(≒原音設定)し、それにMusicXMLやMIDIなどの楽譜ファイルを同梱することで、大体の機械学習に使用することができるようになります。

一般公開されている機械学習系の歌声合成には、現在「Sinsy」「CeVIO」「NEUTRINO」「AISingers」などがあります。

（歌声DBの詳しい経緯などはこちらから↑）

おふとんPさんの歌声DBはどういった内容になっているんですか？

おふとんP：仕様は以下の通りになっています。

歌った原曲の数：46曲

WAV形式：96kHz/24bit

テンポ：原則BPM100統一

歌った曲：著作権切れの童謡中心

キー変更：原曲キー、オクターブ下げが中心

歌詞：原曲の歌詞+呪文歌詞

ありがとうございます。この「呪文歌詞」というのはどういうものですか？

おふとんP：原曲通りの歌詞で歌うのではなく、音素のバランスを重視して「無意味なひらがなの羅列」で歌う……といった方法です。

UTAU式に言うと「かんかかき……」という収録リストという方が馴染み深いと思います。

なるほど、これはUTAUやってる人には親しみやすい（？）形式ですよね。

この「呪文歌詞」で収録するに当たって苦労した点はありますか？

おふとんP：UTAUの収録で何度もやっていることなので抵抗はないのですが、難読部分があったのでそういった部分を正確に歌い切るのが難しかったですね。

普通の曲を歌うときは数回のリテイクで済むのですが、呪文歌詞についてはその３～４倍のリテイクをしてようやく大丈夫なものが収録できました。

体感としては、替え歌と連続音収録の延長線上にあるといった感じです。

あらら……本当にお疲れさまです。

それ以外に苦労した点はありますでしょうか？

おふとんP：制作で苦労したのはまず、ソフトや機材です。

今回は96kHz, 24bitで収録したのですが手持ちのソフトではこの形式で収録できず、普段使わない新しいソフトを使用しました。

MIDIの音やメトロノームを聞きながら歌う場合、DAWが限られてくるのが痛いですね。

その他にも、歌を歌うときにも「表現として成立したもの」を学習させたほうが良いと思い、呪文に気を遣いすぎて歌としてのっぺりしないように、それと同時に呪文としても成り立つように歌い上げました。

色々とこだわってらしたんですね。

それでは、「こういう事をやってきたから楽だった」という点はありますか？

おふとんP：今まで発声練習とUTAUの収録をやってきたので、そこまで大幅なリテイクをせずに済みました。

それに加え、音響・Mix関係の知識があったので収録がスムーズに進んだのも大きかったです。
特に、収録に際してDAWが使えるか否かでプロジェクトの初動速度が結構変わってくると思います。

初動速度といえば制作期間が結構掛かったと思うのですが、どういったスケジュールで進行していったんですか？

おふとんP：基本的にはMIDIを制作、そのMIDIをもとに歌う、そのデータをラベリング……という風にベルトコンベア式に進行していきました。

・制作期間
発足：３月
完成：５月半ば

録音：土日中心でゴールデンウィーク辺りに完成
ラベリング：配分と分担を決めて進める(４人)
MIDI：配分を決めて５０曲弱を２人で制作
収録用の呪文：ちていこさん

ところで、男声DBに関しては既に「夏目悠李DB」があるのですが、これとどうやって差別化を図ったのですか？

おふとんP：はい、夏目DBと差別化を図るために「フォークソング向けの渋めの声」で収録し、歌い方もそちらに寄せました。

なので、バリトンの高さは綺麗に出るのではないか……と思います。

おぉ～、いい感じにフォークソングを歌ってくれる声、楽しみですね。

もしこれで新しいAIシンガーを制作した場合は、また新しい薪宮風季くん……みたいな感じになるんですか？

おふとんP：いいえ。UTAU用の収録と歌の収録で結構声が変わってくると思うので、今のところは既存のキャラクターを付けるか、新規でキャラクターを付けるかは保留しています。

確かに、喋り声と歌声で結構声質とか変わってきますしね。

もし、仮にこのDBでおふとんPさんそっくりの歌声が作られたらどう思いますか？

おふとんP：自分の下手なところまで再現されそうで怖いです（笑）
それ以上に、こんな未熟な音源を使ってくれるなんて申し訳ないという気持ちですね。

もっと上手ければ、もっと良いものが作れるのでしょうけど。

今のところはまだ活用できてませんが、もし将来的に使えるようになって、出音を気に入って使っていただけるのであれば嬉しいです。

なるほど、私も男声は大好きなので楽しみですね。

ところで、このDBを使う際の規約に関して個人的な注意点はありますか？

おふとんP：はい、夏目悠李DBの規約を流用する許可をもらった上でそちらの禁止事項をやや細かめにしました。

ただ、個人の利用は商用以外制限してないのは夏目DBと同様です。

了解です。では規約に関してや、DBの中身に関して問い合わせたい場合はどちらに連絡すればいいですか？

おふとんP：基本的にはおふとんP宛でお願いします。

ホームページのコンタクトから繋がります。技術的なことに関してはそこから別の担当者さんに回します。

それでは最後に、宣伝・今後の活動予定などを教えていただければ。

おふとんP：UTAUに関しては、プラグインあるいは補助ツールを制作する予定です。

それ以外には、声に関する依頼を積極的に受けて行こうと思っています。

ナレーション、台詞など幅広く受け付けています。

SKIMAからも気軽に依頼できるので、何かご入り用であれば是非よろしくお願いします。

サンプルボイス

ナレーション

やんちゃな青年

いかつい男性

それ以外には、UTAUで喋らせる「HANASU」のやり方を解説した本があります。

紙の本は売り切れたのですが、電子版はまだ販売中ですので、UTAUで喋らせてみたい子がいるなら是非！

はい。それでは、本日はありがとうございました。

どういったプラグインを開発するか、声あての仕事など、活躍を楽しみにしてますね。

おふとんP：こちらこそ、ありがとうございました。

2020-05-03

男声歌声データベース制作の経緯

歌声データベース

きっかけ
発端
構想
収録者の決定まで
データベース作成の効率化模索
本格的な制作協議
制作終了まで
配布までの期間
配布後
感想
謝辞

きっかけ

NEUTRINOがリリースされたとき、私は考えました

「これ、東北きりたんDBの真似すればNEUTRINOのデータベース作ってもらえるのでは？」

今考えてみると凄い……突拍子もない考えですね、はい。

発端

個人的な研究用に明治大学の東北きりたんDBの中身を再び見たら……

「ん？これ私にも作れるんじゃね？？？」

という意味の分からないことを思い付いてしまいました。

midi, wavはもちろん、mono_labelもテキストエディタで開いたらめちゃくちゃ単純な仕組みだったので、これは普通に作れるぞと。

問題はこれを作ったところで誰かが使ってくれる保証があまりにも少ないので、一旦保留ということにしました。

構想

女声はきりたんがいるので、競合がまだいない男声データベースを作ることにしました。(私の好み的な意味のほうが大きい)

私自身は歌うのが嫌いではなのですが、収録が物凄い面倒というか疲れるタイプの人間なので誰か音源提供者がいないか身の回りで探すことにしました。

収録者の決定まで

候補は３人いました。

３人とも相互さんで、歌がある程度上手な男性さんです。

Oさんはスタジオに通う必要がありそうなので一旦保留、

Aさんはテストで1曲分試作することになり、

今回の収録者は環境が揃ってるけど一旦保留ということで。

テストにAさんでデータベースを1曲分作成し、明治大学の森勢さんにチェックを貰って本格的に進めていくことにしました。

データベース作成の効率化模索

森勢さんに教えてもらったところ、ラベリングにはWaveSurferというものが使われていることが判明しました。(あと、別の人にPraatというのも教えてもらいました)

でも、ぶっちゃけこのWaveSurferでラベリングするの……

すっごい面倒くさい

というわけで、なにか良い方法がないか考えました。

歌詞付きMIDIを利用して、これをoto.ini経由でlabファイルに変換できれば

歌詞付きMIDIからMIDI, MusicXMLファイルの生成が可能
WAVに合わせてMIDIを作り、そこからラベルを生成すれば後は微調整のみでOK

という風にめっちゃ効率化できると思い、プログラマさん(ちていこさん、CrazYさん)に助けを求めました。

これがoto2labの開発(していただいた)経緯です。

本格的な制作協議

ある程度制作に必要なベースが整ったので、男声DBを作ることにしました。

あと、「成功するかどうか分からない中、歌を延々と収録するのは流石に酷だ！」と思ったので、収録者のモチベ意地のためにある程度の報酬を渡すことにしました。

※終わりが見えない戦いである場合、報酬は非常に大事です

それに加え、もし歌声DBを公開しても利用されなかったら悲しすぎるので利用してくれそうな方をリストアップしました。

Mさん、Hさん、Nさん、D社、A社……そこまで大勢いる訳ではないですし、からといって扱ってくれる保証も無いですが営業は大事なので、念のために準備しました。

制作終了まで

4月から(ルイナの翻訳で)色々と忙しくなる予定だったので、4月までに制作するのを目標としていました。

結果、ベースはギリッギリ作れました。冗談抜きで死ぬかと思いました😇😇😇

配布までの期間

翻訳作業が物凄く忙しくなり、配布形態や規約整備の時間があんまり取れなかったので、各所に営業をすることにしました。

その結果、D社と黒木先生さんがデータベースを利用してくれることになりました。

そのあと、配布直前期にCHI-TAさんにもデータベースを扱って貰えることになりまして、フィードバックもいただきました。

配布後

最終的にいろいろと落ち着いた4月末になっての配布となりました。

早い段階で山本りゅういちさんに反応貰って「ｱﾋｪｯﾖｳ！！！」って感じになりましたし、それから機械学習ガチ勢の方にも広がったので、物凄い「ｱｯﾋｪﾋｬﾎｳｱｴｲ！！！」ってなりました。

あと、龍馬さんにも早い段階でフィードバックを頂きました。

感想

次はもうちょっとユルユルしたスピードで、英語DBとか韓国語DBとか作ってみたいな～と思いました(懲りない)(多分ArpabetとX-SAMPAでいいのかな？)

謝辞

最後に、歌声DBを制作するにあたってお世話になった方に感謝の言葉を申し上げたいと思います。

DB構築に必要なプログラムを作っていただいたCrazYさん、ちていこさん。

超絶スケジュールに付き合ってくれた収録者さん。

早い段階でデータベースを使って頂いてフィードバックをくれたCHI-TAさん、黒木先生さん、龍馬さん。

初期段階で色々と問い合わせに快く応じて頂いた森勢さん。

歌声DBの直接的な開発動機になったNEUTRINOを制作したSHACHIさん。

本当にありがとうございました！