blog
AIブログ
Qwenの違いを総まとめ:世代・サイズ・モデルタイプ別の比較と選び方
本ページは「Qwenの違い」に特化した記事です。世代間(Qwen1〜Qwen3)・サイズ間・モデルタイプ間(汎用/VL/Coder/Math/Audio/MoE)の違いと選定の判断軸を一気に整理します。最新世代Qwen3そのものの性能・モデル構成・使い方を詳しく知りたい場合は、Qwen3とは?性能・モデル構成・使い方のハブ記事をご参照ください。
Qwenシリーズの「違い」を完全解説:モデル名・世代・サイズ・用途の全比較
「Qwen3とQwen2.5の違いは?」「QwenとQwen-VLは何が異なるの?」「どのモデルを選べばいいかわからない」——Alibaba Cloudが開発するQwenシリーズは急速にラインナップが拡大し、モデル名だけ見ても何が何やらわからない、という声が増えています。本記事ではQwenシリーズにおける世代間の違い・サイズ間の違い・モデルタイプ間の違い・他社LLMとの違いを一気通貫で整理します。選定の判断軸まで解説するので、最後まで読めば「自分のユースケースにはどのQwenを使えばよいか」が明確になります。
そもそもQwenとは何か:シリーズ全体の構造を把握する
Qwen(チュエン)はAlibaba Cloudが開発・公開している大規模言語モデル(LLM)ファミリーです。オープンウェイト(Apache 2.0)で無料ダウンロード・商用利用できるモデル群と、Alibaba Cloud Model Studio(DashScope API)やQwen Chatで提供されるクローズドな旗艦APIモデル群という二本立ての構造が特徴です。2023年の初公開以来、テキスト・画像・音声・コードなど複数のモダリティに対応するモデルが矢継ぎ早にリリースされてきました。2026年6月現在の最新世代はQwen3シリーズです。
Qwenシリーズを理解するうえで、まず「3つの軸」を意識することが重要です。
- 世代軸:Qwen1 → Qwen1.5 → Qwen2 → Qwen2.5 → Qwen3 と続くベースモデルの進化
- サイズ軸:同一世代内で0.6B・1.7B・4B・8B・14B・32B・235Bなど複数のパラメータ数
- タイプ軸:テキスト特化・マルチモーダル(VL)・コード特化(Coder)・数学特化(Math)・音声(Audio)・MoEなどの専門モデル
この3軸が組み合わさるため「Qwen3-235B-A22B-Instruct」のような長い名前が生まれます。名前のルールを理解するだけで、大半の疑問は解決します。
【モデル名の読み方】
シリーズ名
世代
タイプ(省略=テキスト)
パラメータ数(A=活性)
調整タイプ
※タイプが省略されている場合は汎用テキストモデル。-Instructはチャット・命令形式向けのSFT+RLHFチューニング済みを意味する。MoEモデルでは「A〇〇B」が活性パラメータ数を示す。
世代間の違い:Qwen1 / Qwen1.5 / Qwen2 / Qwen2.5 / Qwen3
世代が上がるごとに何が変わったのかを理解することが、バージョン選びの基本です。
| 世代 | 公開時期 | 最大パラメータ | コンテキスト長 | 主な改善点 |
|---|---|---|---|---|
| Qwen1 | 2023年8月〜 | 72B | 8K〜32K | シリーズ初公開。中国語・英語のバイリンガル性能を重視 |
| Qwen1.5 | 2024年2月〜 | 110B | 32K〜128K | 多言語対応強化(30言語以上)、GQA採用によるメモリ効率改善、MoEモデル追加 |
| Qwen2 | 2024年6月〜 | 72B | 128K | 全サイズで128Kコンテキスト対応、コード・数学ベンチマーク大幅向上、Dual Chunk Attention採用 |
| Qwen2.5 | 2024年9月〜 | 72B(密)/ 235B(MoE) | 128K | 18兆トークンの学習データ(Qwen2比2倍以上)、指示追従・構造化出力・長文理解が顕著に向上。コード・数学の専門モデルも同世代で刷新 |
| Qwen3 | 2025年4月〜 | 235B-A22B(MoE)/ 32B(密) | 128K | 「思考モード(Thinking)」と「非思考モード」をAPIパラメータ1つで切り替え可能。推論・エージェントタスクで大幅強化。119言語対応。全オープンウェイトモデルがApache 2.0ライセンス。Qwen3-235B-A22BはGPQA Diamond 77.2%・AIME’24 85.7%を達成 |
世代選びのポイントは「特別な事情がなければ最新世代(Qwen3)を選ぶ」が原則です。ただし、既存のファインチューニングデータが旧世代向けに整備されている場合や、推論インフラの互換性を優先する場合は旧世代を意図的に選ぶケースもあります。
Qwen3の主要モデルラインナップ
2026年6月時点の最新世代であるQwen3は、オープンウェイトと旗艦クローズドAPIという二層構造で提供されています。用途・ハードウェア規模別に整理します。
| モデル名 | 構造 | 特徴・用途 | 提供形態 |
|---|---|---|---|
| qwen3-max | MoE(1兆パラメータ超) | 現行の旗艦・最上位モデル。複雑なタスク・エージェント用途向け。Qwen Chat およびAlibaba Cloud Model Studio APIで提供 | クローズド(API/Chat) |
| Qwen3-235B-A22B | MoE(総235B・活性22B) | オープンウェイト最高性能。GPQA Diamond 77.2%・AIME’24 85.7%で推論・数学・コードが最強クラス。企業・研究用途向け | Apache 2.0(HuggingFace等) |
| Qwen3-32B | 密(Dense) | 密モデルの最大サイズ。高い推論性能と扱いやすさのバランスが良い。複数のA100/H100での動作を想定 | Apache 2.0 |
| Qwen3-14B | 密(Dense) | A100 40GB 1枚で快適動作。業務用チャットボット・RAGシステムに適する | Apache 2.0 |
| Qwen3-8B | 密(Dense) | コスパ最良クラス。ファインチューニングのベースとして人気。RTX 3080/4080で動作 | Apache 2.0 |
| Qwen3-4B / 1.7B / 0.6B | 密(Dense) | エッジデバイス・スマートフォン・組み込みアプリ向け。極限的な低リソース環境での動作を想定 | Apache 2.0 |
| Qwen3-30B-A3B | MoE(総30B・活性3B) | 軽量MoE。総パラメータは大きいが活性は3B相当で高速推論が可能 | Apache 2.0 |
Qwen3-235B-A22Bの主なベンチマーク結果(2026年6月時点)
- GPQA Diamond:77.2%——博士レベル科学問題でオープンウェイト最強クラス
- AIME 2024:85.7%——難関数学競技問題で最上位水準
- ライセンス:Apache 2.0——商用利用・改変・再配布が自由
- MoE効率:総パラメータ235Bだが活性パラメータは22B相当のため、推論コストは総パラメータ数ほどかからない
サイズ間の違い:小型から235Bまで何が変わるのか
同一世代のモデルでも、パラメータ数によって性能・速度・ハードウェア要件が大きく変わります。Qwen3を中心に整理します。
| モデルサイズ | 必要VRAM目安 | 推論速度 | 主な用途・特徴 |
|---|---|---|---|
| 0.6B | 約1GB〜 | 超高速 | エッジデバイス・IoT・極限的な低リソース環境。基本的な分類・短文生成 |
| 1.7B | 約3GB〜 | 非常に高速 | スマートフォン・組み込みアプリ。軽量なチャットボット |
| 4B | 約8GB〜 | 高速 | ローカルPC(RAM16GB以上)での動作。RAGの補助モデルとして活用 |
| 8B | 約16GB〜 | 高速 | コスパ最良クラス。ファインチューニングのベースとして人気。RTX 3080/4080で動作 |
| 14B | 約28GB〜 | 中速 | 8Bより一段上の品質が必要な業務用途。A100 40GBで快適動作 |
| 32B | 約64GB〜 | 中速 | 密モデル最大。高難度の推論・長文要約に対応。A100 80GB×1枚または40GB×2枚で動作 |
| 30B-A3B(MoE) | 約20GB〜(活性3B相当) | 高速 | 軽量MoE。活性パラメータが少ないため総サイズほどのリソースを要さず、速度と品質のバランスに優れる |
| 235B-A22B(MoE) | 約140GB〜(活性パラメータは22B相当) | 中速 | オープンウェイト最高性能。MoE構造により総パラメータは大きいが推論コストは抑制。GPQA Diamond 77.2%・AIME’24 85.7%。研究・企業用途向け最上位モデル |
サイズ選びの現実的な指針は「手元のGPUメモリの半分以下のモデルサイズを選ぶ」こと。量子化(GGUF形式のQ4_K_Mなど)を使えば必要VRAMをおおよそ半減できます。量子化モデルはHugging FaceやOllamaで広く配布されており、たとえばQwen3-8B-Q4_K_Mなら8〜10GBのVRAMで動作します。最高性能のオープンウェイトモデルを求めるならQwen3-235B-A22B、クラウドAPIで手軽に旗艦性能を利用したい場合はqwen3-maxが現時点の最有力候補です。
タイプ間の違い:汎用・VL・Coder・Math・Audio・MoE
Qwenシリーズで最も「違い」を感じやすいのが、このタイプの差異です。同じ世代のモデルでも、後ろに何が付くかで用途が根本的に変わります。
汎用テキストモデル(サフィックスなし)
モデル名に特殊なサフィックスがない場合(例:Qwen3-32B-Instruct)は汎用テキスト生成モデルです。質問応答・翻訳・要約・文書作成・一般的な対話タスクをこなします。最初に試すべきモデルです。
Qwen3-VL(Vision-Language)
VLは画像と言語を同時に扱えるマルチモーダルモデルです。画像のキャプション生成・図表の解釈・OCR・グラフ読み取り・スクリーンショットからのコード生成などが可能です。Qwen3-VL(例:Qwen3-VL-235B-A22B-Instruct)では画像・動画理解をサポートします。
汎用モデルとの最大の違いは「画像入力の有無」です。テキストだけ扱うなら汎用モデルの方が同パラメータ数で言語タスクの純粋な性能がわずかに高いケースもあるため、ビジョン機能が不要なら汎用を選ぶべきです。
Qwen3-Coder / コーディング特化モデル
コード生成・補完・デバッグに特化したモデルです。コーディングエージェントやローカル開発向けに最適化されており、例としてQwen3-Coder-Next(総80B・活性3B)のような軽量MoE構成も提供されています。なお、Qwen3の汎用モデル自体もコード性能が大幅に強化されており、コードと文書作成を混在させるユースケースでは汎用のQwen3-32Bが安定した選択肢となることも増えています。
Qwen2.5-Math
数学推論に特化したモデルです。MATH・AIME・GSM8Kなど数学ベンチマークで最高クラスのスコアを記録しています。Chain-of-Thought(思考の連鎖)による段階的解法が強力で、数学教育・科学計算・定量的推論のタスクで使います。ただし、Qwen3-235B-A22BのThinkingモードがAIME’24で85.7%を達成しており、汎用モデルの推論能力そのものも飛躍的に向上しています。
Qwen2-Audio
音声を入力として受け取れるモデルです。音声認識・感情分析・音声コマンド理解などのタスクに対応します。Qwen-VLが画像を扱うように、Qwen-Audioは音声波形を直接処理します。テキストのみのQwenとは入力モダリティが根本的に異なります。
MoE(Mixture of Experts)モデル
Qwen3-235B-A22BやQwen3-30B-A3Bがこの典型例です。MoEは「総パラメータ数は大きいが、1トークン生成に使われる活性パラメータ数は少ない」構造です。Qwen3-235B-A22Bは総パラメータ235Bに対して活性パラメータは22B相当であり、「サイズの割に速くて高性能」という特性があります。オープンウェイト版はApache 2.0ライセンスで商用利用も自由です。

-BaseモデルとInstructモデルの違い
この区別はQwenに限らずLLM全般に共通する重要な概念ですが、Qwenのモデル一覧を見るとほぼ必ず出てくるため押さえておきます。
Baseモデル(例:Qwen3-8B)
- 大量テキストの次トークン予測のみで学習
- 指示に従う能力は持たない
- ファインチューニングのベースに使う
- SFT・RLHF・DPOなどの素材
- そのまま会話用途には使いにくい
Instructモデル(例:Qwen3-8B-Instruct)
- BaseにSFT+RLHF/DPOを適用済み
- 「指示を受けて答える」会話が自然にできる
- そのままチャット・APIとして使える
- 安全性フィルタ(アライメント)も含む
- 創作やRAGシステムの組み込みにも適合
開発者がLoRAやQLoRAでファインチューニングする場合、通常はInstructモデルをベースに使う方が少ないデータで効率的に所望の振る舞いを引き出せます。Baseモデルからのフルファインチューニングは、よほど特殊なドメイン適応(医療・法律など)で大量のデータがある場合に有効です。
Qwen3における新概念:ThinkingモードとNon-Thinkingモードの違い
Qwen3(2025年4月公開)で登場した大きな変化が「2つのモードの切り替え」です。これは推論特化型モデルとの差別化であり、1つのモデルで推論特化モードと高速応答モードを使い分けられる点が特徴です。Qwen3-235B-A22BではThinkingモード時にAIME’24 85.7%・GPQA Diamond 77.2%という高い精度を発揮します。
Thinkingモード(enable_thinking: true)
内部で段階的な思考過程(CoT)を生成してから最終回答を出力。数学の証明・論理パズル・コードのバグ分析など正確性が最優先のタスクに有効。レイテンシは増加するがベンチマーク精度が大幅に向上。Qwen3-235B-A22BではGPQA Diamond 77.2%・AIME’24 85.7%を達成。
Non-Thinkingモード(enable_thinking: false)
思考過程を省略して直接回答を生成。チャット・翻訳・要約など速度とコストを優先するタスクに適する。従来のQwen2.5-Instructと同等の応答速度感。
この仕組みにより、Qwen3登場以前は「推論タスク用にQwQ(Qwen推論モデル)を使い、通常タスクにQwen2.5-Instructを使い分ける」という二刀流が必要でしたが、Qwen3では1モデルで両方をカバーできます。運用コスト・インフラ複雑性の削減という観点でも重要な変化です。
QwenとQwQ・QVQの違い
「QwQ」「QVQ」という名前もよく見かけますが、これらはQwenシリーズとは別の系統として位置づけられています。Qwen3のThinkingモードが登場したことで、両者の役割の違いを改めて整理しておく価値があります。
| モデル名 | 特性 | Qwenとの関係 | 主な用途 |
|---|---|---|---|
| QwQ-32B | 推論特化型。長い思考連鎖で段階的に問題を解く | Qwen2.5-32Bをベースに推論強化訓練を施したモデル | 数学・科学・コードの高難度問題 |
| QVQ-72B | ビジョン×推論を融合。画像を見ながら論理的思考 | Qwen2.5-VL-72Bをベースに推論強化 | 図形問題・複雑なグラフ解析・視覚的推論 |
| Qwen3-235B-A22B(Thinkingモード) | 推論モードと汎用モードを1モデルで切り替え可能 | 最新世代のQwen3メインライン | 推論・コード・数学から汎用対話まで幅広くカバー |
Qwen3のThinkingモードが登場したことで、多くの推論タスクはQwen3単体で代替できるようになっています。ただし、ビジョン×推論を組み合わせる特殊用途ではQVQが依然として有効な選択肢です。
他社LLMとの違い:GPT-4o・Claude・LLaMAとの比較
Qwenと他社モデルとの比較は、特に「なぜQwenを選ぶのか」という観点で重要です。
| 観点 | Qwen3(最新) | GPT-4o(OpenAI) | Claude 3.5 Sonnet | LLaMA 3.1(Meta) |
|---|---|---|---|---|
| ウェイト公開 | ◎ Apache 2.0でオープン(旗艦qwen3-maxはクローズド) | ✕ クローズド | ✕ クローズド | ◎ LLaMAライセンスで公開 |
| ローカル実行 | ◎ 可能(0.6B〜235B) | ✕ API専用 | 参考文献
監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。 Study about AI AIについて学ぶ
|