blog

voicevox 使い方|2026年版ガイド

VOICEVOXとは?使い方を理解する前に知っておくべき基礎知識

VOICEVOXは、ヒホ(Hiroshiba)氏が開発した無料の音声合成ソフトウェアです。ずんだもん・四国めたん・春日部つむぎをはじめとする個性豊かなキャラクターボイスで合成音声を生成でき、商用・非商用を問わず幅広い用途で利用されています。本記事では、インストールから基本操作・応用テクニック・API連携まで、VOICEVOXの使い方を体系的に解説します。音声合成サービスを実運用で扱う立場から、実際の運用で気づいた注意点も合わせてお伝えします。

VOICEVOXが生成する合成音声の波形イメージ
VOICEVOXが生成する合成音声の波形イメージ

VOICEVOXのインストール方法

VOICEVOXはWindows・macOS・Linuxの3プラットフォームで動作します。公式サイト(voicevox.hiroshiba.jp)からインストーラーをダウンロードするだけでセットアップが完了するため、技術的な知識がなくても始められます。

Windows版のインストール手順

  1. 公式サイト(voicevox.hiroshiba.jp)にアクセスし、「ダウンロード」ボタンをクリックする。
  2. 「VOICEVOX 本体」のWindows版(GPU版またはCPU版)を選択してダウンロードする。
  3. ダウンロードしたインストーラー(.exe)を実行し、画面の指示に従ってインストールする。
  4. インストール完了後、デスクトップのショートカットまたはスタートメニューからVOICEVOXを起動する。

GPU版とCPU版の違い

項目 GPU版 CPU版
推奨環境 NVIDIA製GPU(CUDA対応)搭載PC GPU不要・どのPCでも動作
音声生成速度 高速(リアルタイムに近い) やや遅い(数秒〜10秒程度)
音声品質 同等 同等
推奨ユーザー 大量生成・業務用途 個人・ライトユーザー

NVIDIA製GPU非搭載のPCにGPU版をインストールしても正常に動作しません。自分のPCにGPUが搭載されているか確認できない場合は、CPU版を選んでおくのが安全です。音声品質は両者でまったく同じです。

macOS・Linux版について

macOS版・Linux版も公式サイトから同様にダウンロードできます。macOS版はApple Silicon(M1/M2/M3)にも対応しており、CPU版として動作します。Linux版はtarball形式での提供となるため、解凍後に実行ファイルを直接起動します。

VOICEVOXの基本的な使い方:画面構成と操作フロー

VOICEVOXの操作は「テキストを入力してキャラクターを選び、音声を生成・書き出す」というシンプルな流れです。まずは画面構成を把握してから、実際の操作手順を確認しましょう。

メイン画面の構成

①キャラクター選択パネル
話者・スタイルを選ぶ
②テキスト入力エリア
読み上げる文章を入力
③アクセント調整パネル
読み・アクセントを細かく編集

④再生・書き出しボタン
音声プレビュー → WAVファイルとして保存

音声を生成するまでの基本手順

  1. キャラクター(話者)を選ぶ:左側のキャラクターリストから話者名をクリック。「ノーマル」「あまあま」「ツンツン」などのスタイルが話者ごとに用意されています。
  2. テキストを入力する:中央のテキスト入力欄に読み上げさせたい文章を打ち込みます。Enterキーで改行すると、行ごとに別のセリフブロックとして扱われます。
  3. 読み・アクセントを確認する:テキスト入力後、自動でアクセント解析が走ります。不自然な読みや誤変換があれば、アクセント調整パネルで修正できます。
  4. 再生ボタンで試聴する:▶ボタンをクリックして音声を確認します。イントネーションが気になる場合はこの段階で修正します。
  5. WAVファイルを書き出す:「書き出し」ボタン(または「ファイル」メニュー → 「音声を書き出し」)を選択し、保存先を指定してエクスポートします。

アクセント・読み・イントネーションの調整方法

VOICEVOXの最大の強みのひとつが、アクセント・ピッチ・読みを手動で細かく制御できる点です。自動解析だけでは不自然になりやすい固有名詞や専門用語も、調整機能を使えば自然な読み上げに近づけられます。

アクセント調整の操作手順

  1. テキスト入力後、下部に表示される「アクセント」タブをクリックする。
  2. 単語がモーラ(音の単位)ごとに分割されて表示される。
  3. アクセント核の位置(下がり目)を示す縦棒をドラッグで左右に動かして変更する。
  4. 「再生」で確認し、自然に聞こえるまで繰り返す。

読み仮名の修正方法

固有名詞や略語が誤読みされる場合は、「テキスト」タブでその単語をダブルクリックすると読み仮名の編集モードになります。正しい読み仮名をひらがなで入力してEnterキーを押せば即座に反映されます。

ピッチ・話速・音量・抑揚のパラメータ調整

各セリフブロックの右端にある「詳細設定」アイコンをクリックすると、以下のパラメータをスライダーで調整できます。

パラメータ 効果 初期値 調整範囲
話速 読み上げ速度の変更 1.0 0.5〜2.0
音高(ピッチ) 声の高さの変更 0 −0.15〜+0.15
抑揚 イントネーションの強弱 1.0 0〜2.0
音量 出力音量の調整 1.0 0〜2.0
無音時間(前後) 発話前後の間の長さ 0.1秒 0〜1.5秒

音声合成サービスを実運用で扱う経験からいうと、「抑揚」を1.2〜1.5程度に上げ、「話速」を0.9程度に落とすと、動画ナレーション用途では聞き取りやすさが格段に向上します。逆にBGM付き動画では無音時間を短くしてテンポよく仕上げると視聴者の離脱を抑えられます。

複数キャラクターの使い分けとプロジェクト管理

VOICEVOXでは一つのプロジェクト内で複数の話者を切り替えながら台本を作成できます。掛け合い台本・ナレーション+キャラクター声という構成も、行ごとにキャラクターを設定するだけで実現できます。

プロジェクトの保存と読み込み

  • 保存:「ファイル」→「プロジェクトを保存」でVVPROJ形式(JSON)として保存。テキスト・アクセント情報・話者設定がすべて含まれます。
  • 読み込み:「ファイル」→「プロジェクトを開く」で過去のプロジェクトを再編集できます。
  • テキストの一括書き出し:「ファイル」→「テキストを読み込む」でテキストファイルを丸ごとインポートし、一括でセリフブロックを生成することもできます。

連続書き出し(一括エクスポート)の手順

  1. 複数のセリフブロックを作成し、書き出したいブロックを選択する(Ctrl+Aで全選択可)。
  2. 「ファイル」→「音声を一括書き出し」を選択する。
  3. 保存先フォルダを指定してOKをクリックする。
  4. セリフブロックの番号順にWAVファイルが個別に生成される(例:001_ずんだもん.wav)。

一括書き出しはYouTube動画・ゲームのセリフ収録・Podcast制作など、大量のセリフを処理する場面で特に有効です。ファイル名に連番が付くため、動画編集ソフトへのインポートも整理しやすくなります。

VOICEVOX ENGINE(HTTP API)の使い方

VOICEVOXはGUIアプリとしての利用だけでなく、HTTP APIを通じてプログラムから音声生成を呼び出すことができます。VOICEVOX本体を起動すると、バックグラウンドでローカルサーバー(デフォルト:http://localhost:50021)が立ち上がり、各種エンドポイントが使えるようになります。

APIを使った音声生成の基本フロー

① audio_query
テキストから
音声クエリ生成
② synthesis
クエリから
WAV生成
③ WAV受信
バイナリを
保存・再生

Pythonによる実装例

以下はPythonのrequestsライブラリを使った最小構成のサンプルです。VOICEVOXを起動した状態で実行してください。

import requests
import json

BASE_URL = "http://localhost:50021"
TEXT = "こんにちは、VOICEVOXのテストです。"
SPEAKER_ID = 3  # ずんだもん(ノーマル)

# Step1: audio_query でクエリ生成
res = requests.post(
    f"{BASE_URL}/audio_query",
    params={"text": TEXT, "speaker": SPEAKER_ID}
)
query = res.json()

# Step2: synthesis で音声合成
res = requests.post(
    f"{BASE_URL}/synthesis",
    params={"speaker": SPEAKER_ID},
    data=json.dumps(query),
    headers={"Content-Type": "application/json"}
)

# Step3: WAVファイルとして保存
with open("output.wav", "wb") as f:
    f.write(res.content)

print("音声ファイルを生成しました: output.wav")

主要APIエンドポイント一覧

エンドポイント メソッド 役割
/speakers GET 利用可能な話者・スタイル一覧の取得
/audio_query POST テキストから音声クエリ(JSON)を生成
/synthesis POST 音声クエリからWAVデータを生成
/accent_phrases POST アクセント句の解析・修正
/mora_data POST モーラ単位の音素・音高データ取得
/version GET VOICEVOXエンジンのバージョン確認

APIドキュメントはVOICEVOX起動中にブラウザで http://localhost:50021/docs にアクセスすることで、Swagger UIとして確認できます。全エンドポイントをブラウザ上から直接テスト実行できるため、開発初期の動作確認に重宝します。

VOICEVOX Engineの独立起動(Docker・CLI)

GUIアプリを使わずにエンジン部分だけを起動させたい場合、コマンドラインでVOICEVOX Engineを単体実行することも可能です。サーバー運用や自動化パイプラインに組み込む際に活用できます。

Dockerを使った起動方法

# CPU版
docker pull voicevox/voicevox_engine:cpu-ubuntu20.04-latest
docker run --rm -p 50021:50021 voicevox/voicevox_engine:cpu-ubuntu20.04-latest

# GPU版(NVIDIA GPU搭載サーバー)
docker pull voicevox/voicevox_engine:nvidia-ubuntu20.04-latest
docker run --rm --gpus all -p 50021:50021 voicevox/voicevox_engine:nvidia-ubuntu20.04-latest

起動後は同様にlocalhost:50021でAPIが利用できます。LinuxサーバーにデプロイしてWebアプリから呼び出す構成や、CIパイプラインでの音声ファイル自動生成にも応用できます。ただし商用利用の場合は後述する利用規約の確認が必須です。

VOICEVOXの利用規約・商用利用のルール

VOICEVOXはソフトウェア本体が無料ですが、各キャラクターボイスには個別のキャラクター利用規約(利用ガイドライン)が設けられています。商用利用を検討する際は必ず各キャラクターの規約を個別に確認してください。

利用規約の基本的な考え方

  • VOICEVOX本体(エンジン・コア):LGPLまたはMITライセンスで公開されており、ソフトウェアとしての改変・配布に関するルールはここで規定されます。
  • 各キャラクターボイス:それぞれの制作者・運営が定めた「キャラクター利用規約」に従います。商用利用の可否・クレジット表記の要否・18禁コンテンツへの使用可否などがキャラクターごとに異なります。
  • クレジット表記:多くのキャラクターで「VOICEVOX:○○(キャラクター名)」の表記が推奨または必須とされています。

代表的なキャラクターの利用条件(概要)

キャラクター 商用利用 クレジット表記 備考
ずんだもん 可(条件付き) 推奨 VOICEVOX:ずんだもんの表記を推奨
四国めたん 可(条件付き) 推奨 法人案件は別途確認推奨
春日部つむぎ 可(条件付き) 推奨 各規約ページで最新情報を確認
雨晴はう 可(条件付き) 推奨 キャラクターの品位を損なう使用は不可
WhiteCUL 可(条件付き) 推奨 最新規約は公式ページを参照

上記はあくまで執筆時点の概要です。各キャラクターの利用規約は随時更新されるため、実際に商用利用する前は必ず各キャラクターの公式利用ガイドラインページを直接確認してください。音声合成を業務で活用する場合、規約違反リスクは著作権侵害につながりかねないため、確認の手間を惜しまないことが重要です。

VOICEVOXの活用事例と実践的なテクニック

VOICEVOXが実際にどのような場面で活用されているかを整理し、より効果的な使い方のヒントをまとめます。

主な活用シーン

  • YouTube動画のナレーション:解説動画・ゆっくり実況・ランキング動画などでのナレーション生成。顔出しなしで動画制作が完結する。
  • ゲーム・インタラクティブコンテンツ:ビジュアルノベルやインディーゲームのキャラクターボイス収録。APIを使えばリアルタイム生成も可能。
  • Podcast・ラジオ番組:台本を読み上げてBGMと合わせるだけでコンテンツが完成。
  • プレゼンテーション・研修動画:スライドに合わせたナレーション生成。録音環境が整っていなくても高品質な音声が得られる。
  • アクセシビリティ対応:テキストコンテンツの音声化による視覚障害者向けサポート。
  • プロトタイプ開発:音声UIのモック作成や、本番の音声収録前の仮音声として利用。

動画制作に活かす実践テクニック

実際にナレーション動画を多数制作してきた経験から、以下の点が品質向上に直結します。

  • 句読点・改行で呼吸を入れる:「。」や「、」の後に自然な間が入ります。長い文は短く区切ることで、リズムよく聞こえます。
  • 括弧や記号は読み仮名を明示する:「(カッコ書き)」や「%(パーセント)」などは誤読みされやすいため、読み仮名を直接入力するか、テキスト側でひらがなに変換してから入力します。
  • 数字は漢数字・アラビア数字を使い分ける:「2024年」より「二〇二四年」のほうが読み上げが安定するケースがあります。数字の読み上げに違和感がある場合は試してみてください。
  • 話速は動画の種類に合わせて調整する:解説動画は0.9〜1.0、ゆっくり実況は1.0〜1.1が扱いやすい範囲です。
  • 無音部分は動画編集側で制御する:VOICEVOX側で無音時間をゼロにして書き出し、動画編集ソフト(DaVinci Resolve・Premireなど)でクリップ間のタイミングを調整するほうが柔軟です。

音声合成ツールとしての位置づけ:VOICEVOXの強みと限界

音声合成・ナレーション生成を業務レベルで扱う観点から、VOICEVOXの特性を整理しておきます。

観点 VOICEVOXの強み 留意すべき点
コスト 完全無料・ローカル動作 商用利用時は規約確認が必要
音声品質 キャラクター性が高く個性的 リアルな人間の声とは質感が異なる
カスタマイズ性 アクセント・ピッチを細かく制御可能 感情表現の幅は話者スタイル依存
API連携 ローカルHTTP APIで自動化しやすい クラウドAPIではないためスケールに限界
言語対応 日本語特化・品質が高い 多言語対応は非常に限定的

特にYouTube・同人ゲーム・個人制作の動画コンテンツ分野では、VOICEVOXは現時点で最もコストパフォーマンスの高い選択肢のひとつです。一方、企業のブランドボイスとして自然な人間音声に近いクオリティが必要な場合や、多言語対応・感情の細かな制御が必要な業務用途では、商用グレードの音声合成サービスを並用・比較検討することも視野に入れておくと良いでしょう。

テキストから音声波形が生成されるワークフローのイメージ
テキストから音声波形が生成されるワークフローのイメージ

よくあるトラブルと解決方法

起動・動作に関するトラブル

症状 原因 対処法
起動しない・クラッシュする GPU版をGPU非搭載PCで実行している CPU版をインストールし直す
音声が生成されない・エラーになる エンジンが起動に失敗している タスクマネージャーでVOICEVOXプロセスを終了し再起動。ポート50021が他プロセスに使われていないか確認
音声が途切れる・ノイズが入る PCのメモリ・CPU負荷が高い 他のアプリを閉じて再試行。GPU版に切り替えると改善する場合あり
固有名詞が誤読みされる 辞書に未登録の単語 アクセント調整パネルで読み仮名を手動修正。またはテキスト入力時にひらがなで読み方を記述する
APIが応答しない(ローカル) VOICEVOXが起動していない VOICEVOX GUIを起動してからAPIを呼び出す。またはEngine単体を別途起動する

音質に関するよくある疑問

  • 書き出したWAVの音量が小さい:VOICEVOXの音量パラメータを1.2〜1.5程度に上げるか、音声編集ソフト(Audacity等)でノーマライズ処理を行う。
  • WAV以外の形式で保存したい:VOICEVOX本体はWAV出力のみです。MP3などに変換したい場合はffmpegや音声編集ソフトで別途変換してください。
  • サンプリングレートは?:出力はデフォルト24kHz・モノラルのWAVです。動画編集で48kHzが必要な場合はDAW側でリサンプリングしてください。

まとめ

VOICEVOXは、インストールからテキスト入力・アクセント調整・書き出しまでを直感的なGUIで操作できる日本語特化の音声合成ツールです。個人利用はもちろん、HTTP APIを活用すれば業務の自動化・アプリへの組み込みにも対応できます。

使い方のポイントを改めて整理すると、次のとおりです。

  • インストールはPCの環境に合わせてGPU版・CPU版を選ぶ。
  • アクセント・ピッチ・話速の調整を使いこなすことで、自然度が大きく向上する。
  • 複数話者・一括書き出しを組み合わせれば、大量のナレーション制作にも対応できる。
  • HTTP APIとPythonなどのスクリプトを組み合わせれば、音声生成の自動化が実現できる。
  • 商用利用の前は必ず各キャラクターの利用規約を個別に確認する。

VOICEVOXはアップデートが継続的に行われており、新キャラクターの追加や機能改善が定期的に提供されています。公式GitHubリポジトリや公式サイトで最新情報を確認しながら、活用の幅を広げていきましょう。

関連記事

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

    AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

    AI規制・州法ルール形成の現在地——連邦停滞が生む「パッチワーク」構造 2026年6月4日、米下院のJay Obernolte議員(共和・カリフォルニア州)とL...

  • Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

    Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

    Supermicro AIサーバー受注390億ドル・70億ドル調達計画の要点 Super Micro Computer(ティッカー: SMCI、以下Superm...

  • AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

    AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

    NY州「AI合成パフォーマー」広告開示規制——全米初の法律が施行 2026年6月9日、ニューヨーク州でAI生成の「synthetic performers(合成...

View more