動画や作品にナレーションを入れたいけれど、「自分の声を録音するのは恥ずかしい」「機材や環境が整っていない」…そんなときに頼れるのが、無料で使えるテキスト読み上げソフト VOICEVOX です。(基本的に無料で商用・非商用問わず使用できますが、クレジット表記が必要だったり、キャラクターによっては連絡などが必要な場合があります。)
AIによる音声合成技術を使っているため、抑揚やイントネーションも自然で、文章を入力するだけで自然な読み上げ音声を作成できます。以下に実際作った音声データがありますので再生してみてください。(ずんだもんというキャラクターの声が再生されます:うまく再生されない場合は再読み込みしてみてください。)
有名キャラクター「ずんだもん」の声をはじめ、複数の声質が用意されています。かわいい、かっこいい、キャラクターの個性があるような声が多く、アニメを作ったり、サブカル系のコンテンツを作りたいときにぴったりだと思います。(最近VOICEVOX Nemoという、ビジネスシーンや教育現場などに向けた、落ち着いた音声も作られているようです。)Blenderで動画制作をしている方や、配信・解説動画のナレーションを簡単に作りたい方にもぴったりです。
文章を打ち込むだけでスムーズに読んでくれることも多く、体感では半分くらいはそのまま使えるクオリティ。ただし、より聞きやすく自然なセリフにするには、イントネーションや間の取り方を少し調整するのがコツです。この記事では、私が実際に行っている調整方法をわかりやすく紹介していきます。
インストール方法

インストールは以下のサイトのダウンロードのボタンを押してソフトダウンロードしてください。

ダウンロード選択画面
- OS
- Windows or Mac or Linuxを選択
- 対応モード
- DirectML対応のGPUを搭載した WindowsPC と、Nvidia製GPU搭載の LinuxPC に対応しているので、対象のGPUを持っている方はGPU版が使えます。
- パッケージ
- インストーラーを選択
ダウンロードされたファイルを実行するとインストールが開始されると思いますが、特にこだわる部分がなければ次へ次へで通常にソフトがインストールされます。ダウンロードできなかったときはVOICEVOXのQ&Aのページなどに対処がかいてあります。

GPUを使うときはデスクトップアプリを立ち上げた後、
設定 > オプション
でエンジンモードをGPUに設定します。最初はCPUに設定されているので気を付けてください。
基本的な使い方
基本的な使い方の流れ
- キャラクターを決める
- テキスト読み込みor打ち込み
- パラメータ変更
- アクセント調整
- イントネーション調整
- 長さ調整
- 書き出し・データ保存
このような流れで作成していくといいんじゃないかと思います。以下工程ごとに解説しています。
①キャラクターを決める
キャラクターによっては利用規約が違うキャラもいるので、最初から使うキャラクターの候補を絞って、実際利用できるかをきちんと把握した方がいいです。
キャラクターを決めるときは公式サイトのトップページで利用規約を見ながら決めると良いです。

- 音声サンプル…3種類くらいあります。
- スタイル…キャラによっては複数のスタイルがあります。例えばずんだもんは「なみだめ」というスタイルがあって、「ごん゛に゛ち゛は゛」のような言い方の面白い発声になります。いろいろやってみると面白いです。
- 利用規約…これが重要です。大体はクレジット表記で商用非商用問わず無料で使えるんですが、中には報告が必要だったり、NGな事項があったりするので、各キャラクターごとにきちんと詳細まで確認してください。
デスクトップアプリを立ち上げる

インストールしたVOICEVOXアプリを立ち上げると、左のような画面になっているか、またはテキスト入力画面だけが表示されているかもしれません。
テキスト入力欄にマウスをクリックすると左のように全体が表示されます。
キャラクターを選択する

テキスト入力欄の左側のキャラクターアイコンをクリックすると、選択できるキャラクター一覧表が出てきます。
スタイルも選択できます。
②テキスト読み込みor打ち込み
テキスト入力

テキスト入力欄に直にテキストを入力。
または、上部メニュー
ファイル > テキスト読み込み
で、メモ帳などのテキストファイルをいっぺんに読み込むこともできます。
右の+のボタンでテキスト入力欄を増やすことができます。
読み方を修正する方法
下の、アクセントなどが表示されてる文字の部分をクリックすると、ローマ字や、漢字などの読み方を変更することもできます。
再生
再生するときは、左下の▶ボタンで再生します。
③パラメータ変更

画面右のパラメータを変更していきます。
どういう状況か。ゆっくりしゃべっているのか、怒って感情的になっているのか、など、その話し方を調整する感じです。(またはキャラクターのしゃべり方・口調の調整)
ちなみにこのパラメータはテキスト入力欄の一行ずつに適用されます。プリセットに登録して全体に適用する方法も後述します。
- 話速
- 数値が大きいほど読み上げ速度が速くなります。
- 音高
- 数値が大きいほど声が高くなります。感情が高ぶって高くなったり、あるいは怒りでドスが効いたような低い声になったり、と感情の表現に使われます。(自分は以前APIで使ってたときに小動物っぽいかわいい声を作りたくてここをよく調整してました。)
- 抑揚
- 数値が小さいほど棒読みに近くなり、大きいほど抑揚がついて読み上げられます。無感情なキャラとか、方言をしゃべってるかのようなキャラとか作れます
- 音量
- 音声の音量の調整
- 間の長さ
- 文中の無音の長さを変更できます。「、」などの間の長さが調整できます。
- 開始無音・終了無音
- 音声の先頭や末尾の無音の長さを変更できます。
変更したパラメータをプリセットに登録

上部メニュー
設定 > オプション > 操作
プリセット機能をONにすると、調整したパラメータをプリセットとして登録することができます。
これで何回もパラメータの調整をしなくてもプリセットを登録することで、同様のしゃべり方をさせることができます。
④アクセント調整
次はアクセントを調整します。イントネーションや長さを先に調整しても、アクセントやワードの切り方などを調整すると元に戻ってしまうので、最初にアクセント調整などをした方がいいです。

日本語のアクセント
例えば、「箸」と「橋」はアクセントの位置が違います。日本語の「アクセント」というのは、英語のように強く発音する場所ではなく、音の高さ(ピッチ)の変化がポイントになります。最初に音が高いのが「箸」。最後に音が高くなるのが「橋」です。
ちなみに、自分は音痴というか音の高低がよくわかりません。でも、単語って5文字程度のものが多いので、どの部分が高いかは、5択くらいで試してみたら結構当たります。
画像の中に、緑の●があると思うんですが、そこがアクセントの位置になるので、ちょっと発音違うな―って思ったら移動させてみてください。
アクセント調整、発音修正の例

例えば、「悪銭身に付かず」というテキストを入れてみます。
すると、最初にAIが間違えて
「あくせんみに」「つかず」という切り方をしていて、発音がおかしくなっています。
これを修正していきます。


単語を切る
アクセン と ミニ の間をクリックして、ワードを切ることができます。

単語をつなげる
逆に、離れたワードをくっつけることもできます。ミニ と ツカズ のワードの間をクリックするとつながります。

アクセントの位置を変える
「身に付かず」は「に」にアクセントがある気がするのでそこにアクセントを変更します。こういう流れで大体はうまくいきます。
疑問形の発音がうまくいかない場合

上部メニュー
設定 > オプション > 実験的機能
疑問文を自動調整をONにしてみると疑問文のような音声に近くなります。
「?」をつけて、疑問文にしてテキストを打ち込みます。

例えば「おなかがすいてるの?」と入れてみました。すると、だいぶ最後の音を伸ばすようになっています。これを少し短くします。
また、自分が思うにイントネーションも最後の文字が少し音が高い気がするので、ほんの少し下げたりして調整します。
修正前
修正後
イントネーションはともかく、最後の音が長いのをちょっと修正すれば、大体うまくいくんじゃないかなと思います。
⑤イントネーション調整
アクセント位置やワードの切り方を変えて試してもやっぱり発音がおかしい、または、このキャラクターのこのセリフにどうしてもこだわりたい!という場合、最後の手段としてイントネーションを変更することもできます。
「最後の手段」と言ったのは、かなり調整が難しく、うまくいかなくなる場合もあるからです。自分も何回かやってますが、まだ全然慣れません。おそらくですが音感がある人の方がうまくできるんじゃないかと思います。音感がないと、次の音が上がってるんだか下がってるんだかすらわかりません…。
音感が無い人でもなるべく失敗しないポイントだけ書いておきます。(音感がある人はおそらくすぐできるんじゃないかと思います…。)

- 全体の流れを見る
- 人のしゃべる声ってリズムがあるので、それを意識してみてください。例えば左側の画像でも、音程がグラデーションに変化していくというか、連続的に変化していますよね。音の高低を変化させるときも、この流れの中で違和感なく変化させることが重要になってきます。
- 変更する範囲は小さく
- 全体を動かそうとすると地獄になります。かなり難しいので5文字以内とか、最後の部分だけとか、範囲をせばめてそれ以上はなるべく動かさないようにした方がいいです。(どこか一文字だけ、ちょっと高くしたり低くしたら直った、みたいになったらいいな…くらいでまず一文字変えてみるとか。)
- 高低の範囲も小さく
- 多くの場合、高低を変更するとき、本当に微妙な調整になることが多いと思います。たとえば、6.01から6.05へとか。大きく変更しても音が外れることが多いです。
あとはもう何回も変更してみて聞いてみる、を繰り返すしかないんですよね…。音感がないと、頑張って調整しても、今度は抑揚がなくなったりするので。やっぱり理想はアクセント調整やワードの切り方調整でなんとかそれっぽい発音にして、OKとすることですね。
音感が無いけどどうしてもこだわりたい!!そういう根性のある方は、やってみますか。音感トレーニング。次のリンク先に良さそうな動画があったので、紹介しておきます。
⑥長さ調整
音を伸ばしたり、間をあけたりできます。
以下の「NOと言うのは、大事なのだ」というセリフを例にして説明してみます。

- オ
- NOの「オ」です。母音の場合は1音として長さを調節できます。今は「ノォ」のような発音ですが、この数値を上げていくと、「ノォォ」という風に伸ばすことができます。
- 「、」
- 読点です。間をあけたいときは「、」やスペースを打つと、間が空きます。この間の長さも調節できます。
- ダ
- 最後の「なのだ」の「だ」です。母音と子音があるときは●が半分に割れて、左側(子音)と右側(母音)にわかれて長さが調節できます。
- この場合母音の「A」の音が長めになっています。「なのだ(ァ)」みたいにちょっと息が出て終わるような感じです。
- 最後を「なのだ!」のように勢いよく切りあげたい場合はこの数値を下げます。
⑦書き出し・データ保存

上部メニュー > ファイル を開くと書き出しやデータ保存のメニューが出てきます。よく使う機能だけ解説します。
音声書き出し
- 音声書き出し
- プロジェクトにあるセリフを全て書き出します。フォルダを指定すると、その下に一行ずつ書き出してくれます。
- 選択音声を書き出し
- 選択されたセリフ1つだけの音声データを書き出します。
データ保存
- プロジェクトを名前を付けて保存
- 新規で作ったプロジェクトを保存するときのコマンドです。「●●●●.vvproj」という形式のVOICEVOXファイルが出来ますので、名前をつけて場所を指定して保存します。
- プロジェクトを上書き保存
- 変更を、今のプロジェクトに上書き保存するときに使うコマンドです。
- プロジェクトを読み込む
- 「●●●●.vvproj」という形式のVOICEVOX用ファイルを読み込んでプロジェクトを再開できます。
せっかく調整した音声が消えたら悲しいので、こまめに保存しましょう。
クレジット
ブログ記事内で作成した音声/VOICEVOX:ずんだもん



コメント