blog

Qwenの違いを総まとめ:世代・サイズ・モデルタイプ別の比較と選び方

本ページは「Qwenの違い」に特化した記事です。世代間(Qwen1〜Qwen3)・サイズ間・モデルタイプ間(汎用/VL/Coder/Math/Audio/MoE)の違いと選定の判断軸を一気に整理します。最新世代Qwen3そのものの性能・モデル構成・使い方を詳しく知りたい場合は、Qwen3とは?性能・モデル構成・使い方のハブ記事をご参照ください。

Qwenシリーズの「違い」を完全解説:モデル名・世代・サイズ・用途の全比較

「Qwen3とQwen2.5の違いは?」「QwenとQwen-VLは何が異なるの?」「どのモデルを選べばいいかわからない」——Alibaba Cloudが開発するQwenシリーズは急速にラインナップが拡大し、モデル名だけ見ても何が何やらわからない、という声が増えています。本記事ではQwenシリーズにおける世代間の違い・サイズ間の違い・モデルタイプ間の違い・他社LLMとの違いを一気通貫で整理します。選定の判断軸まで解説するので、最後まで読めば「自分のユースケースにはどのQwenを使えばよいか」が明確になります。

そもそもQwenとは何か:シリーズ全体の構造を把握する

Qwen(チュエン)はAlibaba Cloudが開発・公開している大規模言語モデル(LLM)ファミリーです。オープンウェイト(Apache 2.0)で無料ダウンロード・商用利用できるモデル群と、Alibaba Cloud Model Studio(DashScope API)やQwen Chatで提供されるクローズドな旗艦APIモデル群という二本立ての構造が特徴です。2023年の初公開以来、テキスト・画像・音声・コードなど複数のモダリティに対応するモデルが矢継ぎ早にリリースされてきました。2026年6月現在の最新世代はQwen3シリーズです。

Qwenシリーズを理解するうえで、まず「3つの軸」を意識することが重要です。

  • 世代軸:Qwen1 → Qwen1.5 → Qwen2 → Qwen2.5 → Qwen3 と続くベースモデルの進化
  • サイズ軸:同一世代内で0.6B・1.7B・4B・8B・14B・32B・235Bなど複数のパラメータ数
  • タイプ軸:テキスト特化・マルチモーダル(VL)・コード特化(Coder)・数学特化(Math)・音声(Audio)・MoEなどの専門モデル

この3軸が組み合わさるため「Qwen3-235B-A22B-Instruct」のような長い名前が生まれます。名前のルールを理解するだけで、大半の疑問は解決します。

【モデル名の読み方】

Qwen
シリーズ名
3
世代
-VL / -Coder
タイプ(省略=テキスト)
235B-A22B
パラメータ数(A=活性)
-Instruct
調整タイプ

※タイプが省略されている場合は汎用テキストモデル。-Instructはチャット・命令形式向けのSFT+RLHFチューニング済みを意味する。MoEモデルでは「A〇〇B」が活性パラメータ数を示す。

世代間の違い:Qwen1 / Qwen1.5 / Qwen2 / Qwen2.5 / Qwen3

世代が上がるごとに何が変わったのかを理解することが、バージョン選びの基本です。

世代 公開時期 最大パラメータ コンテキスト長 主な改善点
Qwen1 2023年8月〜 72B 8K〜32K シリーズ初公開。中国語・英語のバイリンガル性能を重視
Qwen1.5 2024年2月〜 110B 32K〜128K 多言語対応強化(30言語以上)、GQA採用によるメモリ効率改善、MoEモデル追加
Qwen2 2024年6月〜 72B 128K 全サイズで128Kコンテキスト対応、コード・数学ベンチマーク大幅向上、Dual Chunk Attention採用
Qwen2.5 2024年9月〜 72B(密)/ 235B(MoE) 128K 18兆トークンの学習データ(Qwen2比2倍以上)、指示追従・構造化出力・長文理解が顕著に向上。コード・数学の専門モデルも同世代で刷新
Qwen3 2025年4月〜 235B-A22B(MoE)/ 32B(密) 128K 「思考モード(Thinking)」と「非思考モード」をAPIパラメータ1つで切り替え可能。推論・エージェントタスクで大幅強化。119言語対応。全オープンウェイトモデルがApache 2.0ライセンス。Qwen3-235B-A22BはGPQA Diamond 77.2%・AIME’24 85.7%を達成

世代選びのポイントは「特別な事情がなければ最新世代(Qwen3)を選ぶ」が原則です。ただし、既存のファインチューニングデータが旧世代向けに整備されている場合や、推論インフラの互換性を優先する場合は旧世代を意図的に選ぶケースもあります。

Qwen3の主要モデルラインナップ

2026年6月時点の最新世代であるQwen3は、オープンウェイトと旗艦クローズドAPIという二層構造で提供されています。用途・ハードウェア規模別に整理します。

モデル名 構造 特徴・用途 提供形態
qwen3-max MoE(1兆パラメータ超) 現行の旗艦・最上位モデル。複雑なタスク・エージェント用途向け。Qwen Chat およびAlibaba Cloud Model Studio APIで提供 クローズド(API/Chat)
Qwen3-235B-A22B MoE(総235B・活性22B) オープンウェイト最高性能。GPQA Diamond 77.2%・AIME’24 85.7%で推論・数学・コードが最強クラス。企業・研究用途向け Apache 2.0(HuggingFace等)
Qwen3-32B 密(Dense) 密モデルの最大サイズ。高い推論性能と扱いやすさのバランスが良い。複数のA100/H100での動作を想定 Apache 2.0
Qwen3-14B 密(Dense) A100 40GB 1枚で快適動作。業務用チャットボット・RAGシステムに適する Apache 2.0
Qwen3-8B 密(Dense) コスパ最良クラス。ファインチューニングのベースとして人気。RTX 3080/4080で動作 Apache 2.0
Qwen3-4B / 1.7B / 0.6B 密(Dense) エッジデバイス・スマートフォン・組み込みアプリ向け。極限的な低リソース環境での動作を想定 Apache 2.0
Qwen3-30B-A3B MoE(総30B・活性3B) 軽量MoE。総パラメータは大きいが活性は3B相当で高速推論が可能 Apache 2.0

Qwen3-235B-A22Bの主なベンチマーク結果(2026年6月時点)

  • GPQA Diamond:77.2%——博士レベル科学問題でオープンウェイト最強クラス
  • AIME 2024:85.7%——難関数学競技問題で最上位水準
  • ライセンス:Apache 2.0——商用利用・改変・再配布が自由
  • MoE効率:総パラメータ235Bだが活性パラメータは22B相当のため、推論コストは総パラメータ数ほどかからない

サイズ間の違い:小型から235Bまで何が変わるのか

同一世代のモデルでも、パラメータ数によって性能・速度・ハードウェア要件が大きく変わります。Qwen3を中心に整理します。

モデルサイズ 必要VRAM目安 推論速度 主な用途・特徴
0.6B 約1GB〜 超高速 エッジデバイス・IoT・極限的な低リソース環境。基本的な分類・短文生成
1.7B 約3GB〜 非常に高速 スマートフォン・組み込みアプリ。軽量なチャットボット
4B 約8GB〜 高速 ローカルPC(RAM16GB以上)での動作。RAGの補助モデルとして活用
8B 約16GB〜 高速 コスパ最良クラス。ファインチューニングのベースとして人気。RTX 3080/4080で動作
14B 約28GB〜 中速 8Bより一段上の品質が必要な業務用途。A100 40GBで快適動作
32B 約64GB〜 中速 密モデル最大。高難度の推論・長文要約に対応。A100 80GB×1枚または40GB×2枚で動作
30B-A3B(MoE) 約20GB〜(活性3B相当) 高速 軽量MoE。活性パラメータが少ないため総サイズほどのリソースを要さず、速度と品質のバランスに優れる
235B-A22B(MoE) 約140GB〜(活性パラメータは22B相当) 中速 オープンウェイト最高性能。MoE構造により総パラメータは大きいが推論コストは抑制。GPQA Diamond 77.2%・AIME’24 85.7%。研究・企業用途向け最上位モデル

サイズ選びの現実的な指針は「手元のGPUメモリの半分以下のモデルサイズを選ぶ」こと。量子化(GGUF形式のQ4_K_Mなど)を使えば必要VRAMをおおよそ半減できます。量子化モデルはHugging FaceやOllamaで広く配布されており、たとえばQwen3-8B-Q4_K_Mなら8〜10GBのVRAMで動作します。最高性能のオープンウェイトモデルを求めるならQwen3-235B-A22B、クラウドAPIで手軽に旗艦性能を利用したい場合はqwen3-maxが現時点の最有力候補です。

タイプ間の違い:汎用・VL・Coder・Math・Audio・MoE

Qwenシリーズで最も「違い」を感じやすいのが、このタイプの差異です。同じ世代のモデルでも、後ろに何が付くかで用途が根本的に変わります。

汎用テキストモデル(サフィックスなし)

モデル名に特殊なサフィックスがない場合(例:Qwen3-32B-Instruct)は汎用テキスト生成モデルです。質問応答・翻訳・要約・文書作成・一般的な対話タスクをこなします。最初に試すべきモデルです。

Qwen3-VL(Vision-Language)

VLは画像と言語を同時に扱えるマルチモーダルモデルです。画像のキャプション生成・図表の解釈・OCR・グラフ読み取り・スクリーンショットからのコード生成などが可能です。Qwen3-VL(例:Qwen3-VL-235B-A22B-Instruct)では画像・動画理解をサポートします。

汎用モデルとの最大の違いは「画像入力の有無」です。テキストだけ扱うなら汎用モデルの方が同パラメータ数で言語タスクの純粋な性能がわずかに高いケースもあるため、ビジョン機能が不要なら汎用を選ぶべきです。

Qwen3-Coder / コーディング特化モデル

コード生成・補完・デバッグに特化したモデルです。コーディングエージェントやローカル開発向けに最適化されており、例としてQwen3-Coder-Next(総80B・活性3B)のような軽量MoE構成も提供されています。なお、Qwen3の汎用モデル自体もコード性能が大幅に強化されており、コードと文書作成を混在させるユースケースでは汎用のQwen3-32Bが安定した選択肢となることも増えています。

Qwen2.5-Math

数学推論に特化したモデルです。MATH・AIME・GSM8Kなど数学ベンチマークで最高クラスのスコアを記録しています。Chain-of-Thought(思考の連鎖)による段階的解法が強力で、数学教育・科学計算・定量的推論のタスクで使います。ただし、Qwen3-235B-A22BのThinkingモードがAIME’24で85.7%を達成しており、汎用モデルの推論能力そのものも飛躍的に向上しています。

Qwen2-Audio

音声を入力として受け取れるモデルです。音声認識・感情分析・音声コマンド理解などのタスクに対応します。Qwen-VLが画像を扱うように、Qwen-Audioは音声波形を直接処理します。テキストのみのQwenとは入力モダリティが根本的に異なります。

MoE(Mixture of Experts)モデル

Qwen3-235B-A22BやQwen3-30B-A3Bがこの典型例です。MoEは「総パラメータ数は大きいが、1トークン生成に使われる活性パラメータ数は少ない」構造です。Qwen3-235B-A22Bは総パラメータ235Bに対して活性パラメータは22B相当であり、「サイズの割に速くて高性能」という特性があります。オープンウェイト版はApache 2.0ライセンスで商用利用も自由です。

MoEモデルの「必要な専門家だけを活性化する」スパースな構造のイメージ
MoEモデルの「必要な専門家だけを活性化する」スパースな構造のイメージ。Qwen3-235B-A22Bでは総235Bのうち22B相当のみが各推論ステップで活性化される

-BaseモデルとInstructモデルの違い

この区別はQwenに限らずLLM全般に共通する重要な概念ですが、Qwenのモデル一覧を見るとほぼ必ず出てくるため押さえておきます。

Baseモデル(例:Qwen3-8B)

  • 大量テキストの次トークン予測のみで学習
  • 指示に従う能力は持たない
  • ファインチューニングのベースに使う
  • SFT・RLHF・DPOなどの素材
  • そのまま会話用途には使いにくい

Instructモデル(例:Qwen3-8B-Instruct)

  • BaseにSFT+RLHF/DPOを適用済み
  • 「指示を受けて答える」会話が自然にできる
  • そのままチャット・APIとして使える
  • 安全性フィルタ(アライメント)も含む
  • 創作やRAGシステムの組み込みにも適合

開発者がLoRAやQLoRAでファインチューニングする場合、通常はInstructモデルをベースに使う方が少ないデータで効率的に所望の振る舞いを引き出せます。Baseモデルからのフルファインチューニングは、よほど特殊なドメイン適応(医療・法律など)で大量のデータがある場合に有効です。

Qwen3における新概念:ThinkingモードとNon-Thinkingモードの違い

Qwen3(2025年4月公開)で登場した大きな変化が「2つのモードの切り替え」です。これは推論特化型モデルとの差別化であり、1つのモデルで推論特化モードと高速応答モードを使い分けられる点が特徴です。Qwen3-235B-A22BではThinkingモード時にAIME’24 85.7%・GPQA Diamond 77.2%という高い精度を発揮します。

Thinkingモード(enable_thinking: true)

内部で段階的な思考過程(CoT)を生成してから最終回答を出力。数学の証明・論理パズル・コードのバグ分析など正確性が最優先のタスクに有効。レイテンシは増加するがベンチマーク精度が大幅に向上。Qwen3-235B-A22BではGPQA Diamond 77.2%・AIME’24 85.7%を達成。

Non-Thinkingモード(enable_thinking: false)

思考過程を省略して直接回答を生成。チャット・翻訳・要約など速度とコストを優先するタスクに適する。従来のQwen2.5-Instructと同等の応答速度感。

この仕組みにより、Qwen3登場以前は「推論タスク用にQwQ(Qwen推論モデル)を使い、通常タスクにQwen2.5-Instructを使い分ける」という二刀流が必要でしたが、Qwen3では1モデルで両方をカバーできます。運用コスト・インフラ複雑性の削減という観点でも重要な変化です。

QwenとQwQ・QVQの違い

「QwQ」「QVQ」という名前もよく見かけますが、これらはQwenシリーズとは別の系統として位置づけられています。Qwen3のThinkingモードが登場したことで、両者の役割の違いを改めて整理しておく価値があります。

モデル名 特性 Qwenとの関係 主な用途
QwQ-32B 推論特化型。長い思考連鎖で段階的に問題を解く Qwen2.5-32Bをベースに推論強化訓練を施したモデル 数学・科学・コードの高難度問題
QVQ-72B ビジョン×推論を融合。画像を見ながら論理的思考 Qwen2.5-VL-72Bをベースに推論強化 図形問題・複雑なグラフ解析・視覚的推論
Qwen3-235B-A22B(Thinkingモード) 推論モードと汎用モードを1モデルで切り替え可能 最新世代のQwen3メインライン 推論・コード・数学から汎用対話まで幅広くカバー

Qwen3のThinkingモードが登場したことで、多くの推論タスクはQwen3単体で代替できるようになっています。ただし、ビジョン×推論を組み合わせる特殊用途ではQVQが依然として有効な選択肢です。

他社LLMとの違い:GPT-4o・Claude・LLaMAとの比較

Qwenと他社モデルとの比較は、特に「なぜQwenを選ぶのか」という観点で重要です。

観点 Qwen3(最新) GPT-4o(OpenAI) Claude 3.5 Sonnet LLaMA 3.1(Meta)
ウェイト公開 ◎ Apache 2.0でオープン(旗艦qwen3-maxはクローズド) ✕ クローズド ✕ クローズド ◎ LLaMAライセンスで公開
ローカル実行 ◎ 可能(0.6B〜235B) ✕ API専用 参考文献

    監修

    河合 継(クリスタルメソッド株式会社 代表取締役)

    AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
    運営会社について編集方針

    AIブログ購読

     
    クリスタルメソッドがお届けする
    AIブログの更新通知を受け取る

    Study about AI

    AIについて学ぶ

    • AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

      AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓

      AI規制・州法ルール形成の現在地——連邦停滞が生む「パッチワーク」構造 2026年6月4日、米下院のJay Obernolte議員(共和・カリフォルニア州)とL...

    • Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

      Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意

      Supermicro AIサーバー受注390億ドル・70億ドル調達計画の要点 Super Micro Computer(ティッカー: SMCI、以下Superm...

    • AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

      AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応

      NY州「AI合成パフォーマー」広告開示規制——全米初の法律が施行 2026年6月9日、ニューヨーク州でAI生成の「synthetic performers(合成...

    View more