blog

AIブログ

VOICEVOXとは？仕組み・キャラクター・使い方を初心者向けに解説

Q: 生成した音声の著作権は誰のものですか？

現時点では法的に確立した判例が少ない領域です。各キャラクターの規約では生成音声の利用条件が定められていますが、著作権の帰属についての明示的な規定は規約によって異なります。

監修

VOICEVOX の料金・商用利用の条件は各正本で詳しく解説しています。本記事はVOICEVOX とは（仕組み・キャラクター・使い方）に特化します。

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

「動画にナレーションを入れたいけど、声優は雇えない」「無料で使える音声ソフトってないの？」——そんな方に向けて、この記事はVOICEVOXの正体・できること・始め方を専門用語をできるだけ避けてやさしく解説します。ひとことで言うと、VOICEVOXは「文章を打ち込むだけで、キャラクターの声で読み上げてくれる無料ソフト」です。

本ページはVOICEVOXの「とは（概要）」に特化し、音声合成の仕組み・主なキャラクター・インストールから基本的な使い方までを初心者向けに解説します。料金や商用利用条件を含めた全体像はVOICEVOXの料金ガイド（ハブ記事）をご覧ください。

VOICEVOXとは――無料で使える日本語音声合成ソフトの全貌

VOICEVOXは、ヒホ氏が開発した無料・オープンソースの日本語テキスト音声合成（TTS）ソフトウェアです。テキストを入力するだけで、個性豊かなキャラクターの声でリアルな日本語音声を生成できます。2021年のリリース以降、ゲーム実況・YouTubeナレーション・教育コンテンツ・ビジネス用途まで幅広く普及し、2024年時点では累計ダウンロード数は数百万を超えるまでに成長していたとされていました（現行値は公式未確認）。本記事ではVOICEVOXの仕組み・特徴・使い方・できること・できないこと・商用利用ルールまでを一気通貫で解説します。

🔥 VOICEVOXを使うとこんなに変わる（before → after）

ふだんの動画・コンテンツ制作がどう変わるか、具体的に並べてみます。

動画のナレーション：今まで＝声優や読み上げソフトに費用がかかる → 完全無料でキャラクターボイスのナレーションを何本でも作れる
実況・配信の声：今まで＝自分の声で話す・機材や編集に時間がかかる → テキストを打つだけで個性豊かなキャラクターの声に変換
プログラムからの自動読み上げ：今まで＝外部の有料音声APIを契約 → REST APIでローカルから無料で連携し、システムに組み込める
オフライン作業：今まで＝クラウドAPIの通信環境やデータ送信が気になる → インストールすればネット接続不要・データも外部に出さずに使える

「あのナレーション、VOICEVOXで作れそう」と思えたら、まずは無料でインストールして試すのが近道です（本文「インストールと基本的な使い方」参照）。

VOICEVOXの基本情報

まず押さえておくべき基本スペックを整理します。

項目	内容
開発者	ヒホ（Hiroshiba）氏
初回リリース	2021年7月
ライセンス	エンジン：LGPL-3.0 / エディタ：LGPL-3.0 / 音声ライブラリ：キャラクターごとの個別規約
対応OS	Windows・macOS・Linux
価格	無料（エンジン・エディタ本体）
API提供	あり（ローカルREST API）
収録キャラクター数	40以上（2026年7月時点・公式サイト掲載値。追加ライブラリ含む）
音声フォーマット	WAV（16bit / 24kHz）

ソフトウェア本体は完全無料で、商用・非商用を問わず利用できます。ただし音声ライブラリ（キャラクター）ごとに利用規約が異なるため、商用利用の際はキャラクターの規約を別途確認する必要があります。

VOICEVOXの仕組み――どうやって音声を作るのか

VOICEVOXはディープラーニングベースのTTSエンジンを内蔵しており、入力テキストからリアルタイムに音声を合成します。処理の流れは次のとおりです。

①テキスト入力
日本語テキスト

→

②テキスト解析
形態素解析・
アクセント推定

→

③音響特徴量生成
ピッチ・音量・
話速の計算

→

④ボコーダー
ニューラルボコーダーで
波形合成

→

⑤WAV出力
音声ファイル

技術的な特徴として、フロントエンドにOpenJTalk系の形態素解析と独自のアクセント推定モデルを組み合わせ、音声合成にはVITS（Variational Inference with adversarial learning for end-to-end Text-to-Speech）をベースとした独自モデルが使われています。このためピッチ・テンポ・音量を細かく調整でき、従来のルールベースTTSより自然な抑揚を実現しています。

処理はすべてローカル（オフライン）で完結します。音声データがクラウドに送信されないため、プライバシー上の懸念が少なく、企業や教育機関でも導入しやすい点が評価されています。

主なキャラクター（話者）一覧

VOICEVOXの最大の特徴の一つが、個性的なキャラクターによる多彩な声のバリエーションです。本体に同梱されている代表的な話者を以下に示します。

キャラクター名	声の特徴	主な用途イメージ
四国めたん	落ち着いた女性の声。複数のスタイル（ノーマル・あまあま・ツンツンなど）を持つ	ナレーション・教育動画
ずんだもん	子どもっぽく元気な声。VOICEVOXの象徴的キャラクター	エンタメ・ゲーム実況
春日部つむぎ	明るく若い女性の声	YouTube動画・ポッドキャスト
雨晴はう	穏やかで優しい声	教育・福祉・案内
波音リツ	クールな女性の声	プレゼン・ビジネス動画
玄野武宏	低めの男性の声	ナレーション・解説
白上虎太郎	元気な若い男性の声	ゲーム・エンタメ
青山龍星	落ち着いたダークな男性の声	シリアスなコンテンツ

これら同梱キャラクターに加え、サードパーティ製の追加音声ライブラリをインストールすることでさらに多くの声を利用できます。各キャラクターには「ノーマル」「喜び」「怒り」「悲しみ」などの感情スタイルが設定されているものもあり、場面に応じた表現が可能です。

VOICEVOXでできること

テキストを読み上げる（基本機能）

GUIエディタにテキストを貼り付けて再生ボタンを押すだけで即座に音声が生成されます。アクセントや読み方を辞書登録で修正したり、フレーズ単位でピッチ・音量・話速・無音区間を視覚的に編集したりする機能も備わっています。

音声ファイルの書き出し

生成した音声をWAVファイルとしてローカルに保存できます。複数行を一括でファイル出力する機能もあり、長尺の台本をまとめて書き出すことが可能です。

REST APIによる外部連携

VOICEVOXはローカルサーバー（デフォルト：http://localhost:50021）としてREST APIを提供します。これを使えばPython・Node.js・Unityなど任意のプログラムからリアルタイムに音声を生成できます。実際にゲームエンジン（Unity・Unreal Engine）やストリーミングソフト（OBS）と連携する事例が多数報告されています。

カスタム辞書・アクセント調整

専門用語・固有名詞・外来語など標準辞書にない言葉は、ユーザー辞書として読み方とアクセントを登録できます。製品名や人名を正しく読ませたい企業用途でも活用されています。

マルチキャラクター・複数話者の使い分け

1つのプロジェクト内で複数のキャラクターを切り替えて使えます。対話形式のコンテンツや複数ナレーターが登場する教育動画などに対応しています。

VOICEVOXのインストールと基本的な使い方（概要）

公式サイト（voicevox.hiroshiba.jp）からインストーラーをダウンロードして起動するだけで、テキストを入力し再生ボタンを押せばすぐに音声が生成できます。入力から書き出しまで最短1〜2分で完了するシンプルなUIが、初心者層にも支持される理由の一つです。

インストール手順・画面構成・アクセント調整・複数キャラクターの使い分けまで、実際の操作を画面ごとに詳しく知りたい方はVOICEVOXの使い方完全ガイドをご覧ください。

商用利用とライセンスの考え方

VOICEVOXの商用利用は原則として可能ですが、注意点があります。

対象	ライセンス	商用利用	主な条件
VOICEVOXエンジン（コア）	LGPL-3.0	可	ライブラリとしてのリンク形式などLGPL要件を遵守
VOICEVOXエディタ	LGPL-3.0	可	改変時はソース公開が必要
各音声ライブラリ（キャラクター）	キャラクターごとの個別規約	条件付きで可（大半）	クレジット表記・ゾーニング・禁止コンテンツなどキャラクター規約を要確認

たとえば「ずんだもん」の音声ライブラリはピアプロキャラクターライセンス（PCL）に準拠しており、商用・非商用問わず利用可能ですが、政治的メッセージや成人向けコンテンツへの使用には制限があります。利用前に各キャラクターの規約ページを必ず確認してください。

なお、生成した音声をYouTubeやSNSにアップロードする際は、動画の説明欄に使用したキャラクター名とVOICEVOXを使用した旨を記載することが各規約で推奨（または必須）とされているケースがほとんどです。

音声合成の業務導入や自社サービスへの組み込みをご検討の方は、日本語特化AI音声合成「SakuraSpeech」を開発するクリスタルメソッドの無料相談をご利用ください。

VOICEVOXのメリットと限界

メリット

完全無料：エンジンもエディタも0円。月額費用が発生しない
オフライン動作：インターネット接続不要。データが外部に送信されない
日本語特化の高品質：日本語のアクセントや抑揚の再現精度が高い
キャラクターの多様性：声の種類が多く、コンテンツの雰囲気に合わせて選べる
API連携の自由度：プログラムから制御できるのでシステム組み込みも容易
活発なコミュニティ：追加ライブラリの公開・ノウハウ共有が盛ん

限界・注意点

日本語専用：英語・中国語・韓国語などの多言語対応は公式にはない
出力フォーマットがWAVのみ：MP3・OGGなどへの直接書き出しはできず、別途変換が必要
複雑な感情表現には限界：声優や人間のナレーションに比べると、微細な感情の機微はまだ差がある
PCスペックへの依存：GPUなしのローエンドPCでは合成に時間がかかる場合がある
長文の一括処理：非常に長いテキストをAPIで高速処理する際は独自の最適化が必要
商用利用はキャラクター規約確認が必須：エンジン無料≠全コンテンツ自由利用

VOICEVOXと他の音声合成ツールの比較

ツール	価格	言語	オフライン	API	特徴
VOICEVOX	無料	日本語	◎	◎（ローカル）	日本語特化・キャラクター豊富
CoeFont	無料〜有料プラン	日本語中心	△（クラウド）	◎	声のクローン作成機能あり
COEIROINK	無料	日本語	◎	◎	VOICEVOXエンジン互換・独自キャラ
棒読みちゃん	無料	日本語	◎	△	配信・チャット読み上げ特化
AivisSpeech	無料	日本語	◎	◎	Style-BERT-VITS2ベース・高自然度
Amazon Polly	従量課金	多言語	×（クラウド）	◎	多言語・エンタープライズ向け
Google Text-to-Speech	従量課金	多言語	×（クラウド）	◎	WaveNetベースの高品質

日本語コンテンツをローカル・無料で量産したい用途ではVOICEVOXが最有力の選択肢です。一方、多言語対応や声のクローン生成、エンタープライズ規模のAPI利用が必要な場合は、クラウド系サービスや商用TTSとの組み合わせが現実的です。

VOICEVOXの活用事例

YouTubeナレーション・ゆっくり解説

ずんだもんをはじめとするVOICEVOXキャラクターが登場する「ゆっくり解説」スタイルの動画は、YouTubeで数千万〜数億回再生を記録するチャンネルも存在します。テキストを書くだけで音声が完成するため、一人で動画制作のすべてをこなす個人クリエイターに特に重宝されています。

ゲーム・インタラクティブコンテンツへの組み込み

UnityやGodotとVOICEVOXのローカルAPIを組み合わせることで、ゲーム内のNPCや案内音声をリアルタイム生成するシステムを構築できます。台本が不確定なプロシージャルコンテンツとの相性が良く、インディーゲーム開発者に広く使われています。

教育・eラーニング教材

学校や塾が教材動画を内製する際のナレーション収録コストを削減する手段として採用が増えています。録音ブースや声優費用が不要で、テキストを修正するだけで音声を作り直せる点が大きな利点です。

業務・社内ツールへの組み込み

社内向けの自動電話応答システムや、製造現場での作業手順読み上げシステムにVOICEVOXエンジンをAPIで組み込む事例があります。オフライン動作のため、ネットワーク非接続の工場設備にも導入できるのが評価ポイントです。

音声合成・AI音声サービスとの組み合わせ

私たちDeepAIでは音声合成・音声クローン・ナレーション生成をサービスとして提供しており、VOICEVOXのような無料ツールが普及することで日本市場全体のTTSリテラシーが高まっていることを実感しています。VOICEVOXは個人・スモールビジネス向けの入り口として機能し、より高度な多言語対応・感情制御・リアルタイム低遅延が求められる用途でクラウドAPIや音声クローン技術が選ばれるという住み分けが生まれています。ローカル無料ツールとクラウドサービスを適切に使い分けることが、コスト最適化と品質確保の鍵です。

VOICEVOX関連プロジェクトと周辺エコシステム

VOICEVOXを中心としたエコシステムは本体だけでなく、多数の関連プロジェクトで成り立っています。

プロジェクト名	概要
VOICEVOX CORE	音声合成エンジン部分をライブラリとして独立させたもの。PythonやRustから直接利用可能
COEIROINK	VOICEVOXエンジン互換のエディタ。独自キャラクターを持ち、ユーザーが声を作成・公開できる
SHAREVOX	VOICEVOXフォークのエディタ。追加機能を持つ
AivisSpeech	Style-BERT-VITS2ベースの次世代エンジン。VOICEVOXと互換性のあるAPI設計
各種Unityプラグイン	VOICEVOXをUnityエディタから直接呼び出せるサードパーティ製プラグイン群

特にVOICEVOX COREはライブラリとして組み込み開発に使えるため、製品・サービスへの統合に向いています。GUIエディタが不要な場合は、COREを直接呼び出す形でシステムを構築するのが効率的です。

よくある質問

VOICEVOXはスマートフォンで使えますか？

公式のスマートフォンアプリは提供されていません。ただし、PC上でVOICEVOXサーバーを起動し、同一ネットワーク内からAPIアクセスすることはできます。スマホアプリとして完結させたい場合は、クラウドTTSサービスの利用が現実的です。

商用利用は本当に無料ですか？

エンジン・エディタ本体は無料で商用利用できます。ただし、各キャラクターの音声ライブラリには独自の利用規約があり、一部の用途（アダルトコンテンツ・特定の政治的コンテンツなど）は禁止されていることがあります。収益化YouTubeや企業プロモーションへの使用前に、使用キャラクターの規約ページを確認してください。

VOICEVOX COREとVOICEVOXエディタの違いは何ですか？

エディタはGUIを備えたエンドユーザー向けのアプリケーションです。COREはGUIを持たないライブラリで、開発者がプログラムから音声合成機能を直接呼び出すために使います。エンドユーザーが音声を作りたいならエディタ、システムや製品に組み込みたいならCOREを使うのが基本的な使い分けです。

生成した音声の著作権は誰のものですか？

VOICEVOXで生成した音声ファイルの著作権については、現時点（2024〜2025年）では法的に確立した判例が少ない領域です。各キャラクターの規約では生成音声の利用条件が定められていますが、著作権の帰属についての明示的な規定は規約によって異なります。商業製品として大規模に展開する場合は、法務専門家への確認を推奨します。

VOICEVOXは無料で手軽に始められますが、日本語特化のAI音声合成 SakuraSpeech も検討できます（※弊社クリスタルメソッド株式会社のサービス。利益相反を開示します）。音声合成の選び方・業務での活用シーンの全体像は音声合成とは（活用ガイド）にまとめています。

まとめ

VOICEVOXは、日本語に特化した高品質な音声合成をゼロコストで実現できるという点で、現時点でも唯一無二の存在です。オフライン動作・柔軟なAPI・多彩なキャラクター・活発なエコシステムが組み合わさり、個人クリエイターから企業の業務システムまで幅広いシーンで活躍しています。

一方で、日本語専用であること・WAV出力のみであること・感情表現の細やかさでは有料サービスに劣る面があることは念頭に置いておく必要があります。コンテンツ制作や社内システムへの組み込みなど、日本語音声が中心の用途ではまずVOICEVOXを試すのがコストパフォーマンス上の最適解と言えます。より高度な感情制御・多言語対応・声のクローン生成が必要になった段階で、クラウドTTSや専用サービスへの移行を検討するという段階的なアプローチが現実的です。

音声合成・音声AIの業務活用をご検討の方へ

クリスタルメソッドは、日本語特化のAI音声合成「SakuraSpeech」をはじめ、音声・音響AIの開発と業務導入を支援しています。ナレーションの自動化、自社サービスへの音声合成の組み込み、用途に合ったツール選定などのご相談を承っています。

無料相談・お問い合わせ：ご相談はこちら

Study about AI

AIについて学ぶ

CeVIO AIとは？できること・キャラクター・CS7との違い・商用利用

「歌声も話し声も1つのソフトで作りたい」「VOCALOIDやVOICEVOXとの違いが分からない」——そんな方に向けて、この記事はCeVIO AI（セビオエー...
VOICEPEAK（ボイスピーク）とは？できること・料金・商用利用の条件

「ナレーション動画に商用利用できる音声ソフトを探している」「感情表現のある自然な読み上げがほしい」——そんな方に向けて、この記事はVOICEPEAK（ボイスピー...
COEIROINK（コエイロインク）とは？無料AIトークソフトの使い方・商用利用条件

「無料で使えるキャラクターボイスの読み上げソフトを探している」「動画にナレーションを入れたいけど声優は雇えない」——そんな方に向けて、この記事はCOEIROIN...