blog

Qwen TTS(音声合成)の使い方|できること・料金【2026年版】

Qwen TTSとは何か:概要と位置づけ

Qwen TTS(Qwen Text-to-Speech)は、Alibaba Cloudが開発するQwenファミリーの一部として提供される音声合成モデルです。テキストを自然な音声に変換する機能を持ち、オープンウェイト・APIの両形態で公開が進んでいます。Qwen全体像についてはQwenとはで整理していますので、本記事ではTTS機能に絞って技術仕様・実装・使い分けを深掘りします。

弊社では複数のLLM・音声モデルを実運用環境に組み込んでいますが、Qwen TTSはとくに多言語対応と感情制御の両立という点で他モデルと一線を画す存在として注目しています。バーチャルヒューマン用の音声レイヤーとして評価検証を進めており、本記事にはその知見を反映しています。

Qwen TTSのモデル系譜と主要バリアント

Qwen TTSは単一モデルではなく、用途・規模・ライセンスの異なる複数のバリアントで構成されます。現時点(2025〜2026年視点)で把握しておくべき系譜を以下にまとめます。

モデル名 公開形態 主な特徴 対応言語
Qwen-TTS(API版) Alibaba Cloud DashScope API 商用利用可・低レイテンシ・ストリーミング対応 中国語・英語・日本語・他多言語
Qwen3-Audio(旧称 Qwen2-Audio) HuggingFace オープンウェイト(Apache 2.0) 音声理解+生成の統合モデル。TTSとASRを同一アーキテクチャで処理 中国語・英語中心、多言語拡張中
CosyVoice 2(Qwen系) オープンウェイト(Apache 2.0) Alibaba TONGYI発。ゼロショット音声クローン・感情制御に特化 中国語・英語・日本語・韓国語 他
Qwen-TTS-Realtime(β) API(限定公開) WebSocket経由でリアルタイム音声対話。GPT-4o Realtimeに対応する位置づけ 中国語・英語

実務で頻繁に使うのはAPI版とCosyVoice 2の2系統です。APIはインフラ管理不要で即時利用できる反面、データが外部サーバーを経由します。CosyVoice 2はオンプレ・プライベートクラウドへのデプロイが可能なため、個人情報や機密音声データを扱うプロダクトではオープンウェイト版が選ばれる傾向があります。

Qwen TTSのコア技術:なぜ自然に聞こえるのか

Flow Matchingベースの音声生成

Qwen TTS(とくにCosyVoice 2)は、Flow Matching(フロー・マッチング)と呼ばれる生成モデルの手法を採用しています。従来の自己回帰型TTSが1トークンずつ順番に音声を生成するのに対し、Flow Matchingは確率的フローを使って音声全体を並列に近い形で生成するため、生成速度と品質のバランスが優れています。

具体的には、テキストをLLMベースのエンコーダーで意味表現に変換し、そこからメルスペクトログラムを生成、最終的にボコーダー(HiFi-GAN系)でwaveformに変換する3ステージ構成です。LLM由来の文脈理解を音声のプロソディ(抑揚・リズム・強調)に反映できる点が特徴です。

テキスト入力
自然言語・SSML
LLMエンコーダー
意味・文脈・感情の抽出
Flow Matching
メルスペクトログラム生成
ボコーダー
音声波形(WAV/MP3)

ゼロショット音声クローン

CosyVoice 2の最大の特長がゼロショット(追加学習不要)の音声クローンです。3〜10秒程度のリファレンス音声を渡すだけで、その話者のトーン・テンポ・音色を再現した音声を生成できます。バーチャルヒューマンやキャラクターボイスの実装では、ペルソナごとのリファレンス音声を用意しておくだけで個別ボイスが完成するため、収録コストを大幅に削減できます。

弊社検証では、日本語ネイティブスピーカーのリファレンス音声を使った場合、抑揚・母音の長さ・語末のイントネーションが他の主要TTSよりも再現精度が高いという結果でした(主観的評価・社内MOS評価による)。ただし、リファレンス音声に雑音が混入すると生成品質が下がるため、収録環境の管理が前提になります。

感情・スタイル制御

Qwen TTSはテキストベースの指示で感情スタイルを制御できます。「喜び」「悲しみ」「落ち着き」「活発」など複数の感情スタイルをパラメータとして渡せるほか、SSMLタグでの細粒度制御(ポーズ挿入・強調・読み方指定)にも対応しています。これにより、対話シナリオに応じてリアルタイムでトーンを切り替えるUXが実現します。

Qwen TTSが生成する音声波形と感情強度の概念図
Qwen TTSが生成する音声波形と感情強度の概念図

対応言語と日本語性能の実態

Qwen TTSの公式対応言語は中国語(普通話・広東語)・英語・日本語・韓国語・フランス語・スペイン語・ドイツ語・ポルトガル語など多言語に拡張されています。中国語と英語は学習データが最も豊富で、MOS(Mean Opinion Score)でも最上位クラスの評価を得ています。

日本語については、弊社の実運用評価では次のような傾向を確認しています。

  • 漢字の読み精度:固有名詞・専門用語は読み誤りが発生することがある。SSML読み仮名タグで補正が必要なケースは全体の5〜10%程度(社内テキストコーパスによる)。
  • 自然な口語表現:「ですね」「〜じゃないですか」など話し言葉の抑揚は比較的自然。ElevenLabsやVoicePeakと比べてもフラットになりにくい。
  • 長文の安定性:300文字を超える長文でも後半の品質が崩れにくい。これはLLMエンコーダーが文書全体の文脈を保持するためと考えられる。
  • 感情表現の振れ幅:日本語における感情スタイル(とくに「喜び」「驚き」)は中国語・英語と比べやや控えめ。誇張しすぎず自然という見方もできる。

API経由での実装方法

Alibaba Cloud DashScope APIの基本フロー

APIを使うには、まずAlibaba CloudアカウントとDashScope(Model Studio)のAPIキーが必要です。導入手順の詳細はQwen導入ガイドにまとめていますので、ここでは音声合成に特化したコード例を示します。なお、以前あった無料開発者API枠は2026年4月頃に終了しており、現在は新規向けの一時的なオンボーディング無料トライアル枠+無料チャットアプリ(Qwen Chat)という形態となっています。

以下はPythonでQwen TTS APIを呼び出す最小構成です(公式SDKを使用)。


import dashscope
from dashscope.audio.tts_v3 import SpeechSynthesizer

dashscope.api_key = "YOUR_API_KEY"

result = SpeechSynthesizer.call(
    model="cosyvoice-v2",
    text="こんにちは。Qwen TTSのテスト音声です。",
    voice="longxiaochun_v2",   # 日本語対応ボイスID
    format="mp3",
    sample_rate=24000,
    # emotion="happy",         # 感情スタイル(オプション)
    # speech_rate=1.0,         # 再生速度(0.5〜2.0)
)

if result.get_audio_data() is not None:
    with open("output.mp3", "wb") as f:
        f.write(result.get_audio_data())
    print("音声ファイルを保存しました")
else:
    print("エラー:", result.get_response())

ストリーミング再生が必要なリアルタイム対話では、SpeechSynthesizerのストリームモードを使います。WebSocketで接続を張り、テキストチャンクを送るたびに音声チャンクが返ってくる構成で、初音声までのレイテンシを数百ms以内に抑えることが可能です。

CosyVoice 2のローカルデプロイ

オンプレミスまたはプライベートクラウドで動かす場合は、HuggingFaceからCosyVoice 2のウェイトを取得してDockerまたはCondaで環境構築します。最低動作スペックの目安は以下の通りです。

項目 最小構成(CPU推論) 推奨構成(GPU推論)
GPU 不要(遅い) NVIDIA A10G / RTX 3090 以上(VRAM 16GB+)
RAM 16GB 32GB以上
ストレージ 30GB(モデルウェイト含む) 50GB以上(キャッシュ含む)
推論速度(日本語200字) 10〜20秒 0.5〜1.5秒

弊社では本番環境にA10G×2のサーバーを使用しており、音声クローン付きの日本語200字テキストで平均約0.8秒のレスポンスタイムを実現しています。バーチャルヒューマンの対話用途では、テキスト生成(LLM推論)と音声生成をパイプライン化してさらにレイテンシを削減しています。

ボイスIDと音声スタイルの選択

DashScope APIには20以上の公式ボイスIDが用意されており、言語・性別・年齢帯・スタイル(落ち着き・活発・ナレーション調など)で分類されています。日本語に対応した主なボイスIDを以下に示します(公式ドキュメントに基づく。最新のボイスID一覧はAlibaba Cloud Model Studioで要確認)。

ボイスID 性別・特徴 推奨用途
longxiaochun_v2 女性・明るく若い カスタマーサポート・キャラクターボイス
longcheng 男性・落ち着き ナレーション・企業案内
longshu 女性・ソフト ガイド音声・教育コンテンツ
(ゼロショット) 任意(リファレンス音声から生成) バーチャルヒューマン・ブランドボイス

他のTTSモデルとの比較ポイント

主要TTSとの詳細な機能比較はQwen比較記事で扱っていますが、音声合成の観点での位置づけを簡単に整理します。

比較軸 Qwen TTS(CosyVoice 2) ElevenLabs OpenAI TTS VOICEVOX(OSS)
日本語品質 ◎(LLM文脈理解) ○(日本語は改善途上) ○(安定しているが単調) ◎(日本語特化)
ゼロショット音声クローン ✕(固定ボイスのみ)
感情・スタイル制御 ○(スタイル対応キャラのみ)
オンプレ運用 ◎(オープンウェイト版) ✕(クラウドのみ) ✕(APIのみ)
多言語対応 ◎(8言語以上) △(日本語中心)
コスト オープンウェイト版は無料、API版は従量制 従量制(高め) 従量制(中程度) 無料

Qwen TTSの強みは「多言語・音声クローン・オンプレ」を同時に満たせる数少ないソリューションである点です。ElevenLabsはクローン精度が高いものの完全クラウド依存、VOICEVOXは日本語品質が高いが多言語・クローン機能がない、という隙間をQwen TTSが埋めています。料金体系の詳細はQwen料金ページを参照してください。

実装時のよくある落とし穴と対策

1. 読み誤り・アクセント問題

日本語テキストで固有名詞や英字混じりの文が多い場合、読み誤りが発生しやすいです。対策は以下の2つです。

  • SSMLの<phoneme>タグ:読み仮名を明示的に指定する。例:<phoneme alphabet="x-amazon-pron-kana" ph="クリスタルメソッド">Crystal Method</phoneme>
  • テキスト前処理:英数字・記号をアプリ側で日本語に変換してからAPIに渡す。「AI」→「エーアイ」のように変換辞書を管理する。

2. ストリーミング時のチャンク設計

LLMのテキスト生成と音声合成をパイプライン化する際、テキストを文字単位で渡すと音声品質が低下します。文節または文単位(句読点区切り)でチャンクを区切って渡すのが品質と遅延のバランスが良い方法です。弊社では句点「。」「!」「?」をチャンク区切りとし、1チャンクあたり20〜80文字を目安にしています。

3. 音声クローンのリファレンス品質管理

ゼロショット音声クローンでは、リファレンス音声の品質がそのまま出力に影響します。推奨スペックは以下です。

  • サンプルレート:44,100Hz以上(最低24,000Hz)
  • 録音環境:残響のない静音室。S/N比 40dB以上が目安
  • 長さ:3〜10秒。長すぎると話者の「平均的な音色」に収束しやすい
  • 感情:基本的にニュートラルなリファレンスで収録し、感情は生成パラメータで制御する

4. レートリミットとコスト管理

DashScope APIは従量課金(トークン・文字数単位)です。大量バッチ処理では非同期APIを使い、同時リクエスト数を制御してレートリミット超過エラーを回避します。また、同一テキストを繰り返し生成する場合はキャッシュ(生成済み音声ファイルのKVストア管理)を実装してコストを抑えます。最新の単価はModel Studio 公式料金ページでご確認ください。

バーチャルヒューマン向け音声合成インターフェースのイメージ
バーチャルヒューマン向け音声合成インターフェースのイメージ

バーチャルヒューマン・対話AIへの応用

弊社が主に手掛けるバーチャルヒューマン事業では、Qwen TTSは音声レイヤーの中核として機能します。具体的なアーキテクチャは次の通りです。

①ユーザー音声入力
ASR(音声認識)
②LLM推論
qwen3-max等で応答生成
③Qwen TTS
テキスト→音声変換
④アバター同期
リップシンク・表情生成

このフルパイプラインでQwenファミリー(LLM+TTS)を統一することで、LLMの感情トークン出力をTTSのスタイルパラメータに直接マッピングできます。例えばLLMが「共感的な回答」と判断した場合、そのシグナルをそのまま音声のトーンに反映するといった連携が可能です。これはAPIベンダーを分散させた場合には追加の変換レイヤーが必要になる部分で、Qwen統一構成のメリットが出やすい点です。

まとめ

Qwen TTSは、LLMベースの文脈理解・ゼロショット音声クローン・多言語対応・オープンウェイト利用可能という4つの要素を同時に満たす音声合成ソリューションです。日本語品質は読み誤り対策さえ施せば実用レベルに達しており、バーチャルヒューマンや対話AIの音声レイヤーとして有力な選択肢になっています。

  • クラウドAPIで手軽に始めるなら DashScope APIのcosyvoice-v2
  • データ管理・オンプレが必要なら CosyVoice 2のオープンウェイト版(Apache 2.0)
  • リアルタイム対話(β)なら Qwen-TTS-Realtime

Qwen全体の概要はQwenとは、導入環境の構築はQwen導入ガイド、他モデルとの機能・コスト比較はQwen比較およびQwen料金をあわせてご覧ください。

関連記事

参考文献

    監修

    河合 継(クリスタルメソッド株式会社 代表取締役)

    AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
    運営会社について編集方針

    AIブログ購読

     
    クリスタルメソッドがお届けする
    AIブログの更新通知を受け取る

    Study about AI

    AIについて学ぶ

    • AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

      AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

      AI規制・州法ルール形成の現在地——連邦停滞が生む「パッチワーク」構造 2026年6月4日、米下院のJay Obernolte議員(共和・カリフォルニア州)とL...

    • Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

      Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

      Supermicro AIサーバー受注390億ドル・70億ドル調達計画の要点 Super Micro Computer(ティッカー: SMCI、以下Superm...

    • AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

      AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

      NY州「AI合成パフォーマー」広告開示規制——全米初の法律が施行 2026年6月9日、ニューヨーク州でAI生成の「synthetic performers(合成...

    View more