blog

SakuraSpeech(サクラスピーチ)|日本語特化のAI音声合成 – ブラウザ・API・完全オフライン対応【2026年版】


SakuraSpeech(サクラスピーチ)は、入力したテキストを自然で表情ゆたかな日本語音声に変換する、日本語特化のAI音声合成(TTS:Text-to-Speech)サービスです。ブラウザですぐ使え、APIで自社サービスに組み込め、さらに完全オフラインで動くデスクトップ版まで用意しているのが特徴です。本記事では、音声合成の基本から、SakuraSpeechの3つの使い方・強み・料金までをまとめて解説します。

音声合成(テキスト読み上げ)とは|2026年の使われ方

音声合成(TTS)とは、文字テキストを人間の声のような音声に変換する技術です。かつては機械的な読み上げが中心でしたが、ディープラーニングの進化により、イントネーションや表情まで自然な「ナレーション品質」の音声を誰でも作れる時代になりました。

2026年現在、音声合成は次のような場面で日常的に使われています。

  • 動画コンテンツ・YouTubeのナレーション制作
  • ニュース・記事の音声読み上げ(耳で聴くコンテンツ)
  • アプリ・Webサービスへの読み上げ機能の組み込み
  • 社内研修・eラーニングの音声教材
  • 音声ガイド・アナウンス・受付対応

用途が広がる一方で、「日本語の自然さ」「自社サービスへの組み込みやすさ」「機密データを外に出さない安全性」といった実務での要件を満たせるかが、ツール選びの分かれ目になっています。

SakuraSpeechとは|日本語特化のAI音声合成(3つの使い方)

SakuraSpeechは、日本語に最適化した独自の音声合成エンジンを採用し、44.1kHzの高品質サンプリングで聞き取りやすく自然なナレーションを生成します。運営はバーチャルヒューマン・AI研究開発のクリスタルメソッド株式会社です。

利用シーンに合わせて、3つの提供形態から選べます。

提供形態 こんな方に 特徴
① Webサービス まず手軽に・制作現場で使いたい ログインしてブラウザから即利用。準備不要
② API 自社アプリ/サービスに組み込みたい REST APIで柔軟に統合。ストリーミング・バッチ対応
③ SakuraSpeechEdge クラウドにデータを出せない・オフラインで使いたい PC単体(CPU)で完全オフライン動作

共通の価値:クラウド(Web/API)でも、オフライン(Edge)でも、同じ高品質エンジンを利用できます。

3形態の違い(早見表)

観点 Webサービス API SakuraSpeechEdge
使い方 ブラウザ 自社サービスへ組み込み PCにインストール
接続 クラウド クラウド 完全オフライン
ボイス数 16種 16種 16種
ボイスクローン ○(Beta・ローカル完結)
GPU 不要 不要 不要(CPU)
提供状況 提供中 提供中 体験版を提供中

① Webサービス|ブラウザだけで音声合成

ブラウザからログインするだけで、すぐに音声生成を始められます。基本の流れは「テキストを入力 → ボイスを選ぶ → 生成 → 音声をダウンロード」だけ。標準エンジンで1回あたり最大3,000文字を音声化でき、出力は44.1kHz/16bitの高品質です。

Webサービスでできること:

  • テキスト読み上げ:16種のボイスから選んで音声化
  • ボイスクローン/カスタムボイス:オリジナルの声を作成・保存して繰り返し利用
  • パラメータ調整:速度(0.5〜2.0倍)・音量、対応ボイスでは感情表現も
  • ユーザー辞書:社名・人名・専門用語の読みを登録して読み間違いを防止

高速軽量版(特別仕様)のデモ

軽量モデルを使った高速軽量版(特別仕様)を、sakuraspeech.jp/lite-demo でログイン不要でその場で試せます。完全CPU実行でリアルタイム推論を行い、GPUを必要とせず入力したそばから音声化します(最大1,000文字)。低レイテンシ・大量処理が求められる用途のイメージをつかめます。

※ これは高速軽量版(特別仕様)のデモであり、標準サービスの音質・機能とは異なります。

② API|自社サービスへ音声合成を組み込む

SakuraSpeechはREST APIとして提供しており、自社のアプリ・サービス・業務システムに音声合成機能を組み込めます。認証はAPIキー方式(HTTPヘッダ X-API-Keyで、本番用・テスト用キーを発行できます。出力フォーマットはMP3/WAV/OGG(上位プランはFLAC/Opusも)。

主なエンドポイント

機能 概要
音声合成 テキストから音声を生成(ボイス・感情・速度・ピッチ・フォーマット指定)
ストリーミング合成 生成しながら逐次配信(SSE)。低遅延な読み上げに
バッチ処理 複数テキストをまとめて非同期生成。完了はWebhookで通知
ボイス一覧/プレビュー 利用可能なボイスの取得・試聴
ボイスクローン/ユーザー辞書 カスタムボイス作成・固有名詞の読み登録
使用量照会/ヘルスチェック 月間文字数の確認・稼働状況の確認

最小リクエスト例

curl -X POST https://sakuraspeech.jp/api/v1/tts \
  -H "X-API-Key: (あなたのAPIキー)" \
  -H "Content-Type: application/json" \
  -d '{"text":"こんにちは。サクラスピーチです。","voice":"kanon-sakura","format":"mp3"}'

APIの利用にはBloomMax以上、または法人プランが必要です。1リクエストあたり最大3,000文字を処理できます。

③ SakuraSpeechEdge|完全オフラインのデスクトップ版

ネットに繋がない。データを外に出さない。それでも、クラウドと同じ高品質。

SakuraSpeechEdgeは、インターネットに接続せずPC単体(CPUのみ)で動作するデスクトップアプリです。Web版と同一の音声合成エンジンをローカルで実行し、リアルタイムに音声を生成します(推論はONNX Runtime、GPU不要)。

オフラインだからこその価値

  • 通信ゼロの完全オフライン動作:入力テキストも音声データも、一切クラウドへ送信しません
  • クラウドが使いづらい現場でも高品質:自治体・医療・金融・法務・社内研修など、原稿や機密を外部に出せない環境に最適
  • セキュリティ設計:音声モデルはAES-256-GCMで暗号化して配布。ライセンス認証もオフラインで完結
  • 本人の声をアップロードしない安心:ボイスクローン用の音声もローカルで完結(Beta機能)

対応OS・動作環境

OS 要件
Windows Windows 10 以降
macOS macOS 13.5 以降(Apple Silicon/Intel 両対応)
Linux Ubuntu 20.04 / 22.04 / 24.04(Desktop)

動作の目安はメモリ4GB以上・空き容量約1.5GB。最大2,000文字/回の読み上げに対応し、ボイスクローンはCPUでも1〜2秒程度で生成できます。

※ SakuraSpeechEdgeは現在「体験版」を提供中です。正式版の提供形態・価格は別途ご案内します。体験版期間中の商用利用はできません。ボイスクローンは本人または許諾を得た音声をご利用ください。

SakuraSpeechの強み

日本語特化の自然な音質

日本語に最適化した独自エンジンと44.1kHzの高品質サンプリングで、聞き取りやすく自然なナレーションを生成します。

16種類のキャラクターボイス(感情対応あり)

さわやか・落ち着き・元気・可愛らしいなど、性別やトーンの異なる16種類のボイスを用意。このうち「花音咲良」「青空春斗」の2ボイスは、4つの感情(ニュートラル/喜び/悲しみ/怒り)に対応しています(他14ボイスはニュートラル)。

ボイスクローン

手元の音声サンプル(参照音声は最大15秒)から、オリジナルのカスタムボイスを作成できます。WAV/MP3/OGG/FLAC等に対応。自社キャラクターや特定の話者の声で、一貫したナレーション制作が可能です。

ユーザー辞書で読みを正確に

社名・人名・専門用語の読み(カタカナ)とアクセントを登録し、読み間違いを解消。全ボイス共通の「グローバル辞書」と、特定ボイスのみの「ボイス別辞書」を使い分けられます。

細かな調整

速度・ピッチ・音量を調整し、用途に合わせて声の印象を整えられます。

用途別の活用シーン

  • 動画・YouTubeナレーション:16種のボイスで、人手をかけずに高品質な読み上げを量産
  • アプリ・Webサービスの読み上げ機能:APIで自社プロダクトに組み込み(ストリーミング配信にも対応)
  • 社内研修・eラーニング:教材ナレーションを内製化
  • 機密を外に出せない現場(自治体・医療・金融・法務):SakuraSpeechEdgeで、原稿をクラウドに送らず完全オフライン生成
  • 自社キャラクターの声づくり:ボイスクローンで一貫したブランドボイスを構築

料金プラン

個人向け・法人向けのプランを用意しています(金額は税抜)。月間文字数はWebとAPIで共通してカウントされます。

プラン 月額 月間文字数 API 主な対象
Free ¥0 2,000 まず試したい方
Bloom ¥980 200,000 ライトに使う個人
BloomPro ¥1,980 500,000 Webをよく使う方
BloomMax ¥7,800 1,500,000 個人でAPIを使いたい方
Business ¥29,800 2,000,000 法人(SLA 99.5%)
BusinessPro ¥98,000 8,000,000 法人(SLA 99.9%)
Enterprise 要相談 カスタム 大規模・SLA 99.99%

商用利用の範囲(概要)

用途 Bloom系(個人) 法人プラン
個人での収益化(YouTube等)
受託制作・放送/配信
自社製品・サービスへの組み込み
OEM・マルチテナント提供 ✅(BusinessPro以上)

法人のお客様には、SLA(稼働保証)、請求書払い、NDA/DPA締結、SSO/SAML(Enterprise)などにも対応しています。

よくある質問(FAQ)

Q. オフラインで使えますか?

はい。完全オフラインで動作するデスクトップ版「SakuraSpeechEdge」を提供しています(現在は体験版)。入力テキストも音声も一切クラウドへ送信しません。

Q. GPUは必要ですか?

不要です。Webの高速軽量版デモも、オフライン版SakuraSpeechEdgeも、すべてCPUのみで動作します。

Q. 商用利用はできますか?

個人プラン(Bloom系)でもYouTube等での個人の収益化は可能です。受託制作・放送/配信、自社製品への組み込み、OEM提供は法人プランが必要です。

Q. 自分の声で音声を作れますか?

はい。音声サンプルからカスタムボイスを作るボイスクローン機能があります。なりすまし防止のため、本人または許諾を得た音声をご利用ください。

Q. 対応言語は?

日本語に特化しています。日本語ナレーションの自然さを最優先に設計しています。

まとめ

SakuraSpeechは、日本語特化・高品質を軸に、「ブラウザですぐ(Web)」「自社サービスに組み込む(API)」「機密を外に出さない(Edgeオフライン)」という3つの使い方をひとつのエンジンでカバーする音声合成サービスです。まずはWebの高速軽量版デモで音質を体感し、用途に合わせてプランや形態を選んでください。お問い合わせはsakuraspeech.jp、または info@crystal-method.com まで。

関連記事

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。国立がん研究センターとの共同研究やテレビ番組でのAI解説実績を持つAI研究者として、SakuraSpeechの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • 音声・音楽AIのイメージ

    SakuraSpeech(サクラスピーチ)|日本語特化のAI音声合成 – ブラウザ・API・完全オフライン対応【2026年版】

    SakuraSpeech(サクラスピーチ)は、入力したテキストを自然で表情ゆたかな日本語音声に変換する、日本語特化のAI音声合成(TTS:Text-to-Spe...

  • GPT-5.5 Claude エージェント ベンチマーク選定——日本企業が問い直すべき評価軸

    GPT-5.5 Claude エージェント ベンチマーク選定——日本企業が問い直すべき評価軸

    GPT-5.5がClaude Fable 5を上回った——「Agents’ Last Exam」とは何か 2026年6月、AIエージェント評価の文脈...

  • 米上院 金融AI 規制 公聴会——日本の銀行・証券への実務的示唆

    米上院 金融AI 規制 公聴会——日本の銀行・証券への実務的示唆

    上院 金融AI 規制 公聴会の要点——何が、なぜ今議題に上ったか 2026年6月11日午前10時(米東部夏時間)、米上院銀行・住宅・都市問題委員会(U.S. S...

View more