【2022/07/05更新】読み上げソフト・サービスをまとめてみた【29+2種類】
注意
読み上げソフトはめっちゃ多いので調べてないものもあります、無いものがあったらコメントでこっそり教えて下さい、こっそり追加します。
一応、利用についてや規約に関しては細心の注意を払っていますが、間違ってる場合もあるので各サービス利用する場合は規約を自分で読み、各自で判断して下さい。
※なにかしらトラブルがあったとしても、この記事を根拠にしないで下さい。
あと、各サービスのデモとしてウェブに体験版が置かれている場合も多いのですが、サービスによっては出力した音声の二次利用を禁止しているので、規約を読んで各自で判断して下さい。
- 注意
- Aquest Talk(ゆっくりボイス,Softalk)
- VOICEROID(ガイノイドTalk・ギャラ子Talk・音街ウナTalk Ex)
- CeVIO/CeVIO AI
- A.I.VOICE
- Megpoid Talk(FineSpeech)
- SHABERU
- 唄詠
- AITalk
- VOICEVOX
- COEIROINK
- コエステーション/コエアバター
- VoicePeak
- Amazon Poly
- Google翻訳
- ボイスソムリエ
- Readspeaker(VoiceText, NeoSpeech)
- CoeFont STUDIO/CLOUD
- TALQu
- Voiceful
- スマホ標準読み上げ機能
- Windows標準 読み上げ機能
- Mac標準の読み上げ機能(VoiceOver)
- Googleクラウド TTS
- Clova Voice
- IBM Watson TTS
- Microsoft Azure TTS
- NTT FutureVoice Crayon
- iSpeech
- N2
- Acapella Group
- おまけ
Aquest Talk(ゆっくりボイス,Softalk)
同人・商用利用:可能(要ライセンス)
株式会社アクエストが開発しているソフト
いわゆる「ゆっくり実況」などで使われる例の声
AquesTalkの音声を利用した読み上げソフトSoftalk
こちらは非営利かつ個人の場合、無償利用が可能。
商用利用する場合は前述のライセンスを購入すること。
VOICEROID(ガイノイドTalk・ギャラ子Talk・音街ウナTalk Ex)
エンジンは株式会社エーアイが提供し、それぞれAHS, ガイノイド(よしもと), ヤマハ、インターネットが販売しているソフト
VOICEROIDには結月ゆかり、琴葉葵・茜、ガイノイドTalkには鳴花ヒメ・ミコト、VFlower(開発予定)、ギャラ子Talkにはギャラ子などのキャラクターがいる
商用利用:
VOICEROIDは要ライセンス(詳細はこちら)
ガイノイドは吉本興業に要問い合わせ(連絡先:contact@gynoid.co.jp)
音街ウナはインターネットに要問い合わせ。(問い合わせ窓口)
※1 東北きりたん, 東北イタコ, ついなちゃんは「商業利用目的でのキャラの吹き替え」はできません。あるいはキャラクターが出ないナレーションのみ可能です。
※2同人利用の範囲なら別キャラの声あてはOKです
※3東北ずん子はいかなる理由であっても商用利用はできません
同人利用:
VOICEROIDは商用ライセンスの要否に準じて可能
ガイノイドはガイノイドTalk利用規約に準じる
ギャラ子は(おそらく)「ギャラ子」名称およびイメージイラスト利用規約に準じる
音街ウナは音街ウナTalk Ex エンドユーザー使用許諾に準じる
CeVIO/CeVIO AI
株式会社テクノスピーチがエンジンを、ブイシンクがエディタを開発。
CeVIO Projectからさとうささら、すずきつづみ、タカハシ
/1st Place社からはIA, ONEが開発・発売されてる。
AHSからはCeVIO AI小春六花、弦巻マキ日本語・英語
1st Place社からはIA, ONEのアップデート版開発・発売されてる。
CeVIO AI ONE TALK -ARIA ON THE PLANETES-【ベクターPCショップ】
CeVIO AI IA TALK -ARIA ON THE PLANETES-【ベクターPCショップ】
商用利用:部分的に無許諾および申請で利用可能(詳細はこちらを参照)
同人利用:可能
A.I.VOICE
AITalk5エンジンを利用した株式会社エーアイの自社製品
現在、琴葉茜・葵
伊織弓鶴
結月ゆかり・紲星あかり
レプリボイス:足立レイ
丹下琴絵
などの音源が販売・制作決定されています
商用利用:要ライセンス
同人利用:可能(※こちらを見て個別に判断してください)
※企業の場合、A.I.VOICE Bizにてキャラクターを含めたコラボ契約も可能。
Megpoid Talk(FineSpeech)
インターネットが開発したソフトウェア
GUMIの音声以外にも男声、女声の読み上げも存在。
加えてトークのイントネーションをVSQxで出力できる機能もある(が精度はやや難あり)
商用・同人利用:可能
※1 法人・法人格・公的機関による利用の場合、非営利であっても利用料の支払いが必要
※2 社内利用の場合は利用料不要
ちなみにエンジンにはAnimoと呼ばれる会社が作ったFineSpeechを採用している
SHABERU
アキヒロ (@akihiro01051)氏の制作したOpen JTalkベースのソフト。
イントネーションなどの微調整は不可能だが、音響モデルの自作(音声データベース)が可能。
↓公式サイト
商用利用:ソフトウェア自体の商業利用は不可能。(詳細は本体付属のReadme参照)
唄詠
SHINTA(@shinta0806)氏の制作した、UTAU音源をゆっくり式に使用できるソフト。
商用利用:ライセンスにより不可だが、営利目的で使用したい場合は作者に事前相談をすることで対応可能な場合アリ。
それ以外の制約:各UTAU音源(キャラクター)の利用規約に準ずる。
AITalk
株式会社エーアイが開発している音声合成ソフト。いわばVOICEROIDの企業向け製品。
エーアイの公式サイトより引用
個人利用:恐らく不可(要問い合わせ)
※1 高額につき
※2 かんたん!AITalk®3及びAITalk® あなたの声®などを除く
かんたん!AITalk®3では、女声×4, 男声×1,関西弁女声×1, 関西弁男声×1が利用可能。
AITalk® あなたの声®では自分の声でAITalkの音源が制作可能(55万円)
※恐らく販売不可、感情表現に対応してるらしいが詳細不明
余談
・AITalkのいくつかの音源はVOICEROIDでも利用されており、以下の通りになっている
まき→民安ともえ(弦巻マキ)
すみれ→結月ゆかり
れいな→琴葉葵
たいち→水奈瀬コウ
あんず→月読アイ
こうたろう→月読ショウタ
VOICEVOX
ヒホ(@hiho_karuta)氏の制作したAI系読み上げソフト、イントネーション等の微調整が可能なのが特徴。ずんだもんや春日部つむぎ、男声数人が実装されいてる。
商用利用:「VOICEVOX:○○」を記載、明示、アナウンスすれば無料(一部キャラにて例外あり)
音源作成:VOICEVOXキャラクター付き音源企画提出フォーム
(常設)と、VOICEVOX Nemo(キャラクター無し音声、恐らく不定期)がある。
COEIROINK
オープンソースになっているVOICEVOXのUI部分を用いてシロワニさん(@shirowanisan)氏が制作したAI系読み上げソフト。つくよみちゃんなどの女声数名と、男声が1種類(おふとんP)実装。
公式サイトにて公式キャラの立ち絵が生成できたり、具体的な規約があったりかなりユニーク。
商用利用:可能(詳細は各音源の規約を参照)
音源作成:MYCOEIROINKにて自作可能。
コエステーション/コエアバター
東芝が開発したディープラーニングベースのアプリ(一般ユーザー向けではiOS限定)
アプリ版では読み上げた文章を基に学習し、自分と似た声を合成できるようにできる
エディタ版では様々な声から読み上げを製作可能。感情の割合をブレンド可能。
VOCALOIDで歌声ライブラリが制作された「蒼姫ラピス」が発売。
個人利用:コエアバター販売に伴い個人利用も可能(要問い合わせ)
商用利用:要問い合わせ(月額3万)
コエステアプリの同人利用:不可(利用規約の禁止事項[13-23]にて「複製・録音」が禁止されている」)
※コエステアプリで生成した音声を画面録画・録音してYoutube, ニコニコ動画、TwitterなどのSNSサービスや共有サービスにアップロードすることは禁止されています
デジタルボイス・プレミアム
前述のコエステの個人向け有償版
コエステーションエディタに加え、スマホアプリに制作した高品質データを提供。
東芝ホームページより引用
制作費用:50万円
※収録は都内近郊の(エイベックス)収録スタジオで行うらしいので、都内在住でない方は恐らくこれ以外にも交通費・宿泊費が別途必要です。
個人利用:恐らく可能(要問合せ)
商用利用:不明(要問合せ)
VoicePeak
Dreamtonicsが開発したソフトウェア。
現時点で男女各3種類の音源+女児1つの計7種類の声が存在。感情の割合をブレンド可能。
商用利用:可能
Amazon Poly
アマゾンが開発しているディープラーニングベースの読み上げソフト
日本語男女、英語男女、中国語女声、韓国語女声など計8言語使用可能
様々なスピーチスタイルを適応可能、カスタム音源も製作可能。
Amazon Polly のご紹介 | AWS (日本語字幕) (2:08)
商用利用:可能
価格:初年度は無料枠が存在
通常版………月/500万文字無料、超過した場合100万文字/約400円
Wavenet版…月/100万文字無料、超過した場合100万文字/約1,600円
Google翻訳
言わずとも知られたアレ
ページ上には特に利用規約がないので利用に関しては不明です。
余談
昔はGoogleの読み上げは後述のVoiceTextのSayakaが長らく使われていましたが、近年になってGoogle独自の音声合成(後述のGoogleクラウド TTSの低品質版)が使用されるようになった経緯があります
ボイスソムリエ
日立が開発したコーパスベースのソフト
www.hitachi-solutions-create.co.jp
日立の公式サイトより引用
個人利用:恐らく不可
※1 高額につき
※2 学生の場合、大学の生協経由でアカデミック版の購入が可能
商用利用:要ライセンス
同人利用:(購入できることが前提だが)要ライセンス
Readspeaker(VoiceText, NeoSpeech)
HOYAが開発したコーパスベース、ディープラーニング併用のソフト
読み上げのみならず、歌声などの声質変換なども手掛ける
2017年に合併したオランダのReadSpeakerと合併し、2020年に名称を改めるとのこと
個人利用:恐らく不可(要問い合わせ)
商用利用:要問い合わせ
※このサイトのデモンストレーション音声を出力して二次使用するのは禁止されています。過去にもいろいろな理由でこのデモが非公開になったこともあるので注意してお使いください。
余談
CoeFont STUDIO/CLOUD
東工大発のベンチャー企業「yellston」が開発している読み上げサービス
商用利用:可能
単価:1文字当たり0.05~0.5円(100万文字で5~50万円)
月額
Lite:500円~
Business:3万円~
Enterprise:要問合せ
追加料金:10円で1000ポイント(最低金額100円)
カスタムボイスの作成:
ベーシック……500円(収録時間15分)
ミドルレンジ……1000円(収録時間1時間)
ハイエンド……1500円(収録時間2時間)
TALQu
UTAU系&新人AI系VTuberの「Haruqa」によって開発されたAI系読み上げソフト
商用利用:それぞれ音声モデルの規約による
音源制作:可能(※1, ※2)
※1「Haruqaポイント」と呼ばれる「Haruqaに関係する創作」を一定の条件を満たして制作した場合に獲得できるポイントを対価に製作可能。
※2自作でタコトロン2モデルを制作する、Haruqaさんの配布しているColab用ノートブックを利用しての自作も可能
Voiceful
VOCALOIDのMaikaなどを開発したVoctro Labsの読み上げ・歌声合成・声質変換……etcのソフト。ディープラーニングベース。
Voiceful demo - "Make a celebrity talk or sing"
音声合成、歌声合成サービスの提供以外にも、Unityのアプリやゲーム向けに音声合成エンジンを組み込めるVoiceful Charactorsも販売
それ以外にもウェブのデモにて、声質変換、音声合成(発話・歌声)、音声ファイルのピッチ変更・時間伸縮などが可能。
ウェブ版のデモ利用:不明(規約が見当たらないので要問い合わせ?)
個人利用:Voiceful Charactorに関しては可能、それ以外のサービスは不明(要問い合わせ)
商用利用:Voiceful Charactorに関しては可能、その他不明(要問い合わせ)
Voicerful Charactorsのカスタム音源制作:要問い合わせ
スマホ標準読み上げ機能
iPhoneの場合はSiri, Androidの場合はGoogleの読み上げや各社の読み上げアプリが利用可能な場合がある。
利用規約は各機種の契約書、OSの仕様書などを各自読んで下さい
Windows標準 読み上げ機能
いわゆるナレーター機能(棒読みちゃんなどでも利用可能)
商用利用:不明
(こちらのブログ記事が参考になるかも知れませんが各自で判断して下さい)
Mac標準の読み上げ機能(VoiceOver)
商用利用:不可(ソフトウェアライセンス契約によって禁止)
Googleクラウド TTS
ディープラーニング(WaveNet)ベースの読み上げサービス
Google翻訳読み上げの超上位版
180言語・男・女声の読み上げが利用可能
商用利用:可能
個人利用:可能
価格:
通常版………月/500万文字無料、超過した場合100万文字/約400円
Wavenet版…月/100万文字無料、超過した場合100万文字/約1,600円
Clova Voice
韓国のNAVERが開発したディープラーニングベースの読み上げサービス
商用利用……要問い合わせ
同人利用……可(個人コンテンツ制作目的である限り無料で利用可能)
詳細や細かい利用規約はこちらから↓
IBM Watson TTS
商用利用:可能
個人利用:可能
価格:
ライト版(無料アカウント)……月/1万文字
標準版…1000文字ごとに約2円(2.24円)
プレミア版:要問い合わせ
Microsoft Azure TTS
マイクロソフトが開発したディープラーニングベースの読み上げサービス
Microsoft Azure Text to Speech
商用利用:可能
個人利用:可能
カスタマイズ音源:製作可能
価格:やや複雑なので公式サイトを参照
NTT FutureVoice Crayon
NTTが開発したディープラーニングベースの読み上げサービス
個人利用:恐らく不可(要問い合わせ)
iSpeech
iSpeech社が開発したコーパスベースの読み上げサービス
N2
Android限定で読み上げアプリとしても配信されている
商用利用:不可(利用規約による)
同人利用:不可(利用規約による)
Acapella Group
Acapella Groupが開発したディープラーニングベースの読み上げサービス
https://www.acapela-group.com/demos/
利用について:デモが違法、有害、脅迫的、虐待的、嫌がらせ、不法、中傷的、低俗、わいせつ、わいせつ、他人のプライバシーの侵害、憎悪的、人種的、民族的、その他好ましくないコンテンツへの利用は禁止、あとはこちらを読んで各自判断して下さい。
おまけ
MUTA
厦门优他动漫科技有限公司が開発した歌声・発話合成ソフト
現状で、トーク機能に対応してるのは中国語音源(というより中国語音源しか無い)
Alter/Ego(ChipSpeech)
PLOGUEが開発した歌声・発話合成ソフト
スピーチに対応してるのは英語音源のBONESのみ
※BONES自体は日本語歌唱に対応、あとはフランスのVOXWAVE製音源のALYSが対応
感想
VOICEROIDのみならず、企業向けのTTSソフトでも
大手からTTSのベースを提供してもらう
↓
自社製品に組み込む
↓
一般ユーザーから金を取る
みたいなビジネスって結構あるのね……有名でないだけで。
有償版のUTAUで人生が変わった話【買い方もあるよ】
多分タイトルを見た人は
「UTAUって無償じゃないの!?」
「有償版とかあるの????」
「人生変わったとかオーバーすぎるだろ」
って思った人が大半だと思うんですが、実はあるんです!
とはいえ、UTAUはフリーのソフトウェアなのでお金を払う必要はありません、
「新しい機能がほしい!」
「飴屋PさんのUTAU開発支援をサポートしたい!」
「新規エンジン使いやすい!感謝の気持ちを伝えたい!」
と思うのであれば、飴屋さんへのお布施代わりにでもいかがですか?
1.有償版とフリー版UTAUの違い
UI面
まず、上のツールバーやボタンがあるUIの色が違います
・無償版
(Wikipediaより引用)
・有償版 (灰色のグラデっぽくなってる)
バージョン情報がちょっとカラフルになります
あとなんかユーザーID的なのが出てきます(多分ライセンスコード毎に違うやつ)
・無償版
・有償版
機能面
音声やfrqをレンダリングする際、複数のバッチを同時実行出来るようになります
(多分「resamplerを高速化するツール」的なもの、最大で12まで設定可能)
Mac版のUTAU-Synthで実装されている「自動連続音化」が実装されます
(これ連続音とCVVC併用するとき地味に便利そう)
画面下部に音声波形を表示してくれます(レンダリングが済んだ部分のみ)
それ以外にも「単独音+PrefixMapを優先させる」というボタンもあったんですが………良い使い方がわからないので、このボタンの便利な使い方がわかる方はこっそり教えて下さい
(まだ昔、単独音が主流だった頃[C4/あ]みたいなPrefixがあった時代の名残かもしれません)
2.有償版の買い方(飴屋さんへのお布施のやり方)
①Vectorに会員登録して、こちらからUTAUをカートに入れます
②必要な情報を入力して確定します
③クレジットカード情報を入力します
クレジットカードが無い場合、VisaデビットやKyashを利用するのがおすすめです!
銀行口座がない場合はKyashを特におすすめします
というのも……
- 手数料無し
- 保護者の同意があれば未成年でも発行できる
- 前払い式の実質デビットカードなので金銭トラブルリスクが低い
- ファミマやローソンなどのコンビニでチャージ可能
- リアルカードを発行すれば実店舗でも使える
類似品のVプリカは手数料がかかりますし、使用する度にブラウザを開かないといけないので、スマホアプリで管理できるKyashは便利だと思います
更に、予めお金を入れておけばPixiv Fanbox、BOOTH、課金などの支払いをする場合にわざわざコンビニまで行く必要がなくなるのですごく楽です!
(Kyashさん案件ください)
④支払いが終わるとメールが届くので、そこからVectorのページにアクセスしてライセンスキー情報を確認します
⑤UTAUを開いてライセンスキーを入力します
⑥おめでとう!!!!!
感想
標準エディタでこういうのができるのって思った以上に便利やんけ?
【ネタ記事】非公式で制作されたDeepVocalのUIコンセプト、ガチ過ぎる件について
追記:デザイン系の企業が手の混んだ釣りをやっただけの可能性あるので、この記事はあくまで楽しむ程度にしておいて下さい。
(※この動画が非公式なだけでDeepVocalのUIを本当に担当した可能性はあります)
追記2:「Lain」という個人が制作したあくまでコンセプト主体の動画ということが判明したので本気にしないで下さい(BoxStarさんには既にQQで見せてあるらしいです)
I made a UI concept of DeepVocalhttps://t.co/R8U9t0FuCe#DeepVocal#UIconcept
— Lain Hikaru (CY) (@LainMusic) 2019年11月2日
①謎の団体「MX Design」とは!?
このDeepVocalの動画を出しているのは「DeepVocal」でもなく、「BoxStar」でも無く、「MX Design」という謎の団体です
一体どういう団体なのでしょうか、取り敢えずこのチャンネルには概要欄があるので表示してみることにします。
どうやら、台湾所属のUIなどを制作している企業のようです。
このサイトの概要を以下の制作をメインとするデザイン系企業のようです
- デジタルコンテンツ(モーショングラフィックス、アプリ、ウェブサイト、3Dアニメ)
- グラフィック(CI、パッケージ、展示、広告宣伝)
- サイネージ(看板、案内板)
ざっと見た感じで有名な企業からのオファーも結構ありました
台湾で運営されてる音楽聴き放題サービス「KKBOX」13周年のPV
IKEAの広告用モーショングラフィックス
それ以外にも、リプトンのパッケージデザインを担当した結構のツワモノのようです
DeepVocalの動画をYoutubeにアップロードしたということは、デザインやアプリの一部をこちらの企業に委託したか、あるいは完全委託したというのが妥当な感じがします。
あくまで釣りなので、この企業が携わってるわけではないです。
(※先述のLain氏が勤めてる会社って可能性はあります)
②UI大幅改善!どこが変わったの?
変更点その1
まず、見た目が違います
誰だお前
変更点その2
今のDVは再生ボタンやツール系統が上部に固定されています
コンセプトUIでは、シンガーを編集するスペースの上部に各種ボタンが付随してます、これは使いやすそう……だったのに……。
変更点その3
エディター自体の色んな場所にアンチエイリアスが掛かるようになってます
変更点その4
ミュート、ソロボタン、パン、音量などは前々からあったのですが、見た目が大幅に変わり、キャラクターのアイコンが表示されています
あと、シンガーの名前が表示されてるのでここから音源を選択出来る……と良かったんですけどね……。
変更点その5
デモを見る限りでは、パートを選択した時点でUIの色が切り替わっていたので、「音源ごとにテーマカラーを設定できる」とかあれは最高にアツかったです
変更点その5
基本UIが明るくなった分、ダークモードが実装されるといいな……って感じでしょうか
③ここに来てまさかの新音源!?
デモを見る限りではおなじみの「幻晓伊(Huan Xiao Yi)」以外にも「U Chan」と「Liny」の2音源があるのが確認されます
シルエットだけではよく分かりづらいのですが、こちらは恐らくLain Hikaru氏のTwitterアイコンのキャラが元ネタで
こちらはケモミミ要素を持ち合わせた女声音源であることが伺えます。
まだ全体ビジュアルは不明ですが、こちらのTwitterアカウントと関連したプロジェクトではあるようです
もしかしたら、Sharpkey時代に制作した音源だったり、MX Designが新規制作した音源の可能性はあると思います
Sharpky時代.......ケモミミ属性……女声……黄色主体のデザイン……
どこかで見たことあるような気がするんだよなぁ……
結論
コンセプトに関しては壮大な釣り結果的になってしまったけど、DeepVocalの改善は今後発表予定なので色々と楽しみ。
でもこれBoxStarさんのハードルめっちゃ上がったんじゃね?
おまけ
某所からDeepVocalの新規デザインが流出?してるみたいです
いや……これ……Vファイ……やっぱなんでも無いです。
DNN以上の高品質音声合成!?新技術NESを利用したClova Voiceの破壊力!
目次
LINEの親会社、NAVERがこれまた凄い音声合成システムが発表しました
その名も「NES(Natural End-to-End Speech Synthesis)」です!
(日本語に翻訳するなら「端から端まで自然な発話合成」)
取り敢えず、早速どういう感じの音声なのか聞いてみましょう
韓国のNAVERが作った音声合成AI「NES」を使って制作した「クローバーボイス」がヤバイ……
— アマノケイ (@aman0_kei) November 25, 2019
録音データ40分でここまでリアルになるの???
無理やり日本語喋ってもらっても破綻ないし、「喜び」「悲しみ」もある上に個人的なコンテンツ制作における利用なら無料とか強すぎ…https://t.co/R4dk9bVApu pic.twitter.com/NYhjrj8RSM
※Clova Voiceにより出力
どうでしょう!?後半の韓国語は「意味ワカンネ」って感じだとは思いますが、前半の日本語は「韓国語訛りの日本語が波形に破綻なく合成できてる」感じがしませんか?
それだけではなく「普通」「喜び」「悲しみ」といった3つの音色を利用できます!
Clova Voiceの凄いところ
①サンプル時間がものすごく短い!
品質だけを比較するならば、Wavenetや機械学習系の発話合成の方が細かい部分は勝ってるかもしれません(特にClova Voiceは悲しみの息成分が微妙)
ただ、Clova Voiceは「ネイバー独自のspeaker adaptation(話者適応)技法を使用して、約40分レベルの音声録音だけで、高品質の音声合成製作が可能」とのことです。
※話者適応……多人数の収録を基に「平均声」を作成し、目標とする声質に寄せていくタイプの音声合成
そう、40分程度の収録でここまでのクォリティが出せるのです!
②新技術!「NES」
実のところ、NAVERはDNN(深層学習)には昔から手を出しています
例えば、LINEの「クローバースマートスピーカー」などに使われているのは「HDTS(High-quality DNN Text-to-Speech)」というDNNの発展版らしいです。
これは公式サイトによると「特定の分野に必要な声の特性を生かし、最高品質の
合成音を作る技法」と書かれており、恐らく「スマートスピーカー」としての機能が生かせる範囲で重点的な収録を行ったものと思われます。
一方で「NES」は「分野での制約なしに短い録音時間で人に近い自然な声を製作し、提供することができます」とあります。
それ以外にも、「リアルタイムの音声生成が可能なNeural Vocoder」や、Clovaの技術を利用した「感情を反映した音声合成機」などの技術を組み合わせてあの様なリアルな音声を生み出しているようです。
③様々なスタイルの音声が利用可能!
このサイトで一般ユーザーが使えるのは「喜び」「悲しみ」を含めた3種類の声質ですが、それ以外にも
- 「寝る前の読み聞かせに最適な優しい声」
- 「ニュースの読み上げに最適な硬い声」
- 「砕けた友達の声」
- 「淡白な一般人の声」
などが提供される予定とのことです!(※有償サービス版)
④有償サービス版がめっちゃ安い!
有償版は非ログイン型でのAPIを提供していて、動画ダビング、朗読、音声案内、ニュースサービス...etcでの「高音質の音声が必要な事例全般」での使用を想定しているそうです。
今の所提供が可能なのは韓国語の女性のみ&1回毎200文字が上限ですが、1回/5ウォン(訳0.5円)とめちゃくちゃ安いです!
ちなみに、様々なオプションをつけることも、アプリ毎に1日最大500万回まで呼び出し上限を設けることができるそうです。(500万回以上については別途相談可能)
⑤ウェブでのデモ音声は無料で使用可能!
なんとこの音声、無料で利用できちゃいます!
(韓国語訛りの日本語読み上げ音声の使い道があるかは置いとくとして)
- Clova Voiceの合成音は、個人的なコンテンツ制作の目的に限って無料使用が可能です。企業や団体での使用のためには、アフィリエイト提案申し込みにお問合せください。
- Clova Voiceの合成音の使用時にクレジット(Clova Voice)の明記が求められます。
- Clova Voiceを使用して、違法な内容または反社会的な内容(名誉毀損的内容、わいせつな内容、悪口などの暴力的な内容、性差別的な内容など)の合成音を生成をしてはならず、そのように使用したことが確認された場合、今後の利用に制裁を受けることがあります。
というわけで、ルールを守って楽しく使いましょうね!
Clova Voiceに対するQ&A
①Q:どうしてClova Voiceを作ったの?
A:病院や地下鉄などで色んな音声が使われているがその利用には費用と時間がかかる。
音声合成用のデータを作成するとしても既存技術では40~100時間の収録が必要だったのでそれを減らすための技術を開発したかった
②Q:NESの定義は?
A:Natural End-to-End Speech Synthesisの略。
40分で400の文章を読み上げることで肉声に一番近い音声を生成できます。
この技術で時間と費用を画期的に減らした、音声サービス開発やビジネスの大きな助けになった。
③Q:これからの目標は?
今は400文を読み上げないといけないけど、これから先は100文、最終的に1文で済ませられる音声合成器を作るのが目標。
英語や中国語などの言語拡張も行って行く予定。
あと、短い録音で自分だけの「ボイスフォント」を作れるようになると思う。
今後のビジネスについて
Clova Voiceは今ビジネスパートナーを募集しており、ソリューション、技術購入のお問い合わせや、これを活用した新しいビジネスサービスの提供を待っているとのことです。
今の段階で日本語や英語の音声合成をやってくれるかはわかりませんが、NESを使った音声合成に興味がある企業さんがいたら問い合わせてみるのも悪くないかもしれません。
余談ですが、Clova Voiceの使用例には以下のようなものが挙げられています
- 企業の声:その会社だけの特色のある声で会社紹介、広告、売り場案内など、様々に活用してみてください
- 音声予約サービス:反復的で即時的な顧客対応が必要な場面にて、自然で親切丁寧な音声を活用してみてください
- オーディオコンテンツ:自然な音声で、人間が録音するのよりも簡単にオーディオコンテンツを制作してみて下さい
- 音声チャットボット
- 外国語辞書
- 朗読
- 動画の吹き替え
- ゲームキャラの音声(!?)
- 美術館オーディオガイド
感想
日本語でイケボの男性Clova Voice出ないかなぁ~
DeepVocalに連続音(VCV)形式のUTAU音源を移植してみた
発端
すべてはこの動画より始まりました
DeepVocalに無理やり連続音を導入してみた
— アマノケイ (@aman0_kei) August 17, 2019
mono-pitch VCV test with DeepVocal (in not officially supported way)
UST,原曲:耳ロボP 様
Vo:王縄ムカデ 5音階連続音(G3#のみ)
音源:Calarud 様 pic.twitter.com/mQIM5ORRkw
先日、DeepVocalに無理やりUTAUの連続音音源を移植し、かつ連続音(VCV音素)で歌わせて見ました。
これが案外良い感じに行ったのですが、手動で音源を作るとものすごく労力がかかるので「どうにかツールを使って楽に、かつ既存音源の原音設定を利用できないかな……」と思って、ちていこ様に相談したところ、ツールを作っていただきました。
加えて、開発者様のBoxStar様に試作品をお見せしたところ、唯一の課題であった「音素の繋がりが悪い」点が現在クローズ配布中のアルファ版で直していただいたので実用で来そうな感じがしたのでリリースに漕ぎ着けました。
原理
DeepVocalでは現状CVVC形式しか対応してないので、こんな風にしか接続できません
そこでアマノケイさんは考えました、なんとかして連続音(VCV)を使うことはできないかと。
その結果がこちらです。
はい、結合する位置を前の部分にずらしてみました。
見た目としてはCVVCだけど、実質連続音(VCV音素)にしちゃおう!って感じです。
VVCVの長所・短所
・長所
①日本の大多数の日本語UTAU音源はVCVなので、CVVC音源の移植以上に簡易的な移植が可能になる。(ユーザー拡大の切っ掛けになればいいな……)
②モデル構築の際、「無声音が含まれてます」などのエラーが何故か全く発生しない
③既存ツールでoto.iniをdvcfgに変換した際に発生する1.CP、2.PPなどの位置エラーがほぼ発生しない。
④日本語の「ラ」行など、ごく僅かな時間しか鳴らない子音が綺麗に鳴る。
・短所
①子音の長さを調整できない。
②あくまで裏技なので、母音の繋ぎ方が綺麗にならない可能性がある。
③母音のつなぎ目が綺麗に鳴るのが、現在BoxStarさんがTwitterとDeepVocalフォーラムにてクローズ配布中のDVエディタVer1.1.5&DVTB Ver1.1.4であること。
命名の経緯
連続音(VCV音素)の接続をその前の区間でVV音素を使って行うイメージ
なので「VVCV」という名前をつけました
だってそうした方が呼びやすいしかっこいいじゃん
シンボル(エイリアス)規則と標準VVCV音素
・語頭音素
タイプ:CV
すべての「-CV」音素を実装
・VVCV音素
タイプ:CV
例えば「a しゅ」を表記すると「ashu」になります。
「ashu」の内、「ash」が子音扱い(設定区間は「VC」)、「u」が母音となります。
音素の接続はすべて母音間で行われるので、「ash」などはすべて「有声子音」とみなして、「Voiced consonant」リストに入れます。
・VV音素
タイプ:V_X
これは、語頭音素とVVCV、またはVVCV間音素を滑らかにつなぐための音素
母音が「い」の場合「i_X」になるので、例えば上の「ashu」と繋ぐ場合は「i_ash」という表記になります。
※表記上はVCですが、あくまで仕様に則った上での表記で中身は「VV」です
VVCV音源制作方法
VVCV音源使用方法
未実装要素「連続音のVVCV化」
①「e あ」を「eea,ee,a」と記述(nnはナ行子音と共通なので新規で作る必要なし)
②CVを「eea」中身を「e あ」にする
③直前の母音と結合するための「e_ee」(e)を作成
④直後のVV部分の結合はすでに共通部分を作ってるので問題なし
⑤「ea」を入力すると「eea」を参照するように発音記号辞書で設定する
あとがき
VVCV考案の初期段階でインスピレーションを与えてくれた男声UTAU音源「大縄ムカデ」の製作者、Calarud様。
ある程度アイデアがまとまった段階でツール制作に応じて頂いた、ちていこ様。
VVCV形式での音素接続を考慮してDeepVocal側での調整をして頂いた、BoxStar様。
VVCV音源の試作品デモの際使用した女声音源「梶ゆみる」での公開を快諾して頂いた同音源製作者、みのがしさらん様。
この場をお借り致しまして,お礼申し上げます。
VVCV音素の使い方【DeepVocal用連続音(VCV音素)】
入力方法
基本的には「直前の母音」+「ヘボン式ローマ字」で入力します。
たとえば「うた」と入力する場合はこんな感じになります。
ただ、この方法で手入力をするのは辛いと思うので、この形式を簡単に利用できる方法を書いていきます
簡易的な使い方
必要なもの
・最強プラグイン(Bizz様制作)
「iroiro2.zip」を解凍してUTAUのプラグインフォルダに入れてください。
・置き換えリスト
予め、最強プラグインの「Replace」→「tikan」ファイル内に「Kana2Hebon_Romaji.txt」「VVCV_Vowel.txt」のを両方入れておいてください。
標準だと「C:\UTAU\plugins\iroiro2\Replace\Tikan」
※大体のUTAU用ローマ字変換プラグインは訓令式なので使用不可
・UtaFormatix
USTファイルをDV用にVSQxファイルへと変換するとき必要です
手順
①最強プラグインでUSTを単独音にし、「bre」や「a R」などの特殊音素も削除します
②文字系タブの「文字置換」から、先程tikanフォルダに入れた「Kana2Hebon_Romaji」を選択してローマ字に置き換えます
(真っ赤になりますが気にしないこと)
③次に、「ローマ字連続」を実行します
④そして、半角スペースを消去するために「歌詞部分削除」に半角スペース「 」を入力して実行します
⑤最後に、文字系タブの「文字置換」から、先程tikanフォルダに入れた「VVCV_Vowel.txt」を選択して実行します。
その後、USTフォルダを保存します。
⑥保存したUSTフォルダをUtaFormatixでVSQxに変換します。
一番左の矢印をクリックするか、ドラッグ&ドロップでUSTを読み込ます。
その後、V4のアイコンをクリックし、「OK」ボタンの左隣に配置されている「Keep Original」をクリックして適当な場所にVSQxを保存します
⑦VSQxファイルをDeepVocalエディタで読み込みます。
UTAUで見たのと同じ形式になっていれば成功です
DeepVocalで擬似的な連続音「VVCV音素」を実装する方法
必要なもの
UTAU用連続音音源(oto.ini付き)
DeepVocal Toolbox
「OTO→DVCFG簡易変換ツールVVCV.xlsm」(ちていこ様制作)
「VVCV用参考シンボルリスト.xlsx」(ちていこ様制作)
下準備
まず、適切な原音設定がなされた連続音用のoto.iniを用意し、以下の項目を満たしてないかチェックします。
・右ブランクの値が0以上
・固定範囲の値が0以下
・先行発声の値が0.02以下
・オーバーラップの値が先行発声の値以上
・先行発声の値が固定範囲の値以上
・固定範囲の値が右ブランク×-1の値以上
・左ブランクの値が65未満
もしある場合は、エラーが出るのでSetParamなどを用いて整備してください。
※このエクセルファイルでは、oto.iniの右ブランクの値がマイナス(=左ブランクからの相対値)の場合にのみ、正しく変換可能です。setParamを使用して、右ブランクの値をマイナスに変更してください。
VVCV音源制作
①まず、「OTO→DVCFG簡易変換ツールVVCV.xlsm」を開き、oto.iniの内容をすべてコピーした後、OTOシートのA1セルを選択、ペーストします。
②次に、音名欄に音階を入力して「実行」をクリックします。
※エクセルのマクロを有効にしないと動きません
③すると、「OTO→DVCFG簡易変換ツールVVCV.xlsm」の置いてあるファイルと同じ場所に「voice.dvcfg」ファイルが生成されるので、音源フォルダ中のwavファイルが置いてある場所に設置します
④次に、DeepVocal ToolBoxを開き、「Phonetic Dictionary」を開きます。
⑤「VVCV用参考シンボルリスト.xlsx」の各シートのデータをそれぞれのタブにコピペします
※現段階でデータがあるのは①~④のタブ/シートのみ
追記:バージョン0.81ををお持ちの方は、1番目のタブに以下のデータも入力してください(0.81m以降は修正されてるので必要なし)
a,a,a
i,i,i
u,u,u
e,e,e
o,o,o
n,n,n
⑥「Build Voice Config」を開き、「Wav Location」ボタンを押してdvcfgの置いてあるファイルを参照します
そして、「-a」「-i」「-u」「-e」「-o」「-n」をそれぞれ選択してCopyボタンを押しtて、「a」「i」「u」「e」「o」「n」とそれぞれハイフンがないエイリアスを作成してください。
⑦最後に、「BUild Voice Bank」を開き、「+」ボタンでdvcfgファイルが置いてある場所をすべて参照します。
「Model Symbols」に関しては上の選択肢にチェックを入れ、「Model File Location」ボタンをクリックし、適当な場所を指定します。
そして、「Build Voice Model Files」をクリックすると、音声モデル生成ログの記録場所を求められるので、適当な名前と場所を指定するとモデル生成が始まります。
結構長いので気長に待ちます。
モデル生成中、このようなエラーが出る場合は⑥に戻って原音を調整し直す(「2.PP」の位置を少し右に動かすと直る場合が多い)か、wavファイルを再録した上でモデル生成をやり直してください。
音程が不安定な場合、ビブラートが掛かっているwavだと失敗する確率が高いです。
※VVCV音源に関しては、その他の原因でエラーが出てくる確率が非常に少ないので(筆者に至っては出現率0%)余り気にしないでもよろしいです。
⑧モデル生成がすべて完了したら「Pitch Symbols」に仕様音階をコンマ「,」区切りで入力し、「Singer Name」に音源名(日本語も可能)を入力した後、「Voice Bank Location」を押して適当な場所を指定します。
そして、「Build Voice Bank」をクリックするとまたログの生成場所を求められるので適当に指定します。
⑨暫く待つと、音源作成が終了し、「SKC」「SKI」「voice.sksd」の3つのファイルが生成されるので、それらを1つのファイルにまとめて「C:Program Files (x86)DeepVocalsingers」に設置します。
これでVVCV形式で音源が使用できるようになります。
VVCV音素の使用法
こちらからどうぞ