blog
AIブログ
Qwen モデル一覧2026年版|世代・サイズ・タイプの選定指針
Alibaba Cloud の Qwen チームが開発する Qwen シリーズは、2026年6月時点でモデル名が数十を超え、公式の Model Studio ドキュメントを見ても選定判断が難しい状態にある。導入を検討する企業担当者が最初に理解すべきは、このシリーズが「3つの軸」で整理できるという事実だ。世代軸・サイズ軸・タイプ軸を把握したうえで提供形態(オープンウェイトかクローズド API か)を重ねると、複雑に見えるモデル一覧は一気に整理される。
なお、一部のブログや比較記事では「Qwen 3.6」「Qwen 3.7-Max」などの版番が言及されているが、2026年6月時点の Alibaba Cloud Model Studio 公式ドキュメントではこれらの版番は確認できない。公式が示す現行ラインナップは qwen3-max / qwen3.5-plus / qwen3.5-flash であり、本記事は公式一次情報で裏取りできる範囲のみを記載する。

Qwen モデル一覧を整理する3つの軸と二層の提供形態
- 世代軸:Qwen1 → Qwen1.5 → Qwen2 → Qwen2.5 → Qwen3 という系譜。現行主力は Qwen3(2025年4月〜)
- サイズ軸:同一世代内で 0.6B・1.7B・4B・8B・14B・32B・235B など複数のパラメータ数が存在する
- タイプ軸:汎用テキスト・マルチモーダル(VL)・コーディング特化(Coder)・音声(Audio)・MoE(Mixture of Experts)・安全審査(Guard)など
提供形態は「オープンウェイト(Apache 2.0・無料ダウンロード可)」と「クローズドな旗艦 API(Alibaba Cloud Model Studio / Qwen Chat)」の二層構造だ。この二層を取り違えると、導入コストやライセンス条件の見積もりが大きくずれるため注意が必要である。旗艦の qwen3-max は重み非公開のクローズドモデルであり、「HuggingFace から無料ダウンロードできる」という記述は誤りだ。
Qwen の全体像や活用場面については Qwen とは?概要・特徴・活用場面の総合ガイド を、最新世代 Qwen3 の性能・構成については Qwen3 の性能・モデル構成・使い方 でより詳しく解説している。
Qwen モデル一覧:世代別の変遷と現行位置づけ
世代が上がるごとに何が変わったかを把握することが、旧世代と現行世代をどう使い分けるかの判断基礎となる。JST の科学技術動向調査によれば、オープンソース LLM の最新ランキングで Qwen シリーズが首位を獲得した時期があり(出典:spap.jst.go.jp、2026年3月)、また中国発モデルがオープン AI のダウンロードシェアで米国を上回る動向も報告されている(出典:spap.jst.go.jp)。Qwen はこの潮流を代表するシリーズの一つとして位置づけられる。
| 世代 | 公開時期 | 最大パラメータ | 主な改善点・特記 | 現行導入判断 |
|---|---|---|---|---|
| Qwen1 | 2023年8月〜 | 72B | シリーズ初公開。中国語・英語のバイリンガル性能に注力 | レガシー。新規導入対象外 |
| Qwen1.5 | 2024年2月〜 | 110B | 多言語対応強化(30言語以上)、GQA によるメモリ効率改善、MoE モデル追加 | レガシー。新規導入対象外 |
| Qwen2 | 2024年6月〜 | 72B | 全サイズで 128K コンテキスト対応。コード・数学ベンチマークが大幅向上 | レガシー。特段の事情がなければ Qwen3 へ |
| Qwen2.5 | 2024年9月〜 | 72B(密)/ 235B(MoE) | 学習データを大幅拡張。指示追従・構造化出力・長文理解が顕著に向上。Coder・Math など専門モデルも同世代で刷新 | 既存資産がある場合は継続可。新規は Qwen3 を優先 |
| Qwen3 | 2025年4月〜 | 235B-A22B(MoE)/ 32B(密) 旗艦 API:qwen3-max(1兆パラメータ超 MoE) |
Thinking / Non-Thinking の2モード切り替え。119言語対応。全オープンウェイトが Apache 2.0。GPQA Diamond 77.2%・AIME’24 85.7%(Qwen3-235B-A22B) | 現行主力。新規導入の第一候補 |
公式 Model Studio ドキュメントでは旧スナップショット(例:qwen-plus-2025-12-01、qwen-max-2025-01-25)も引き続き参照できるが、新規開発では qwen3.x 系が推奨されている。また qwen-turbo については公式が更新停止を明示しており、後継として qwen-flash が推奨されている(出典:Alibaba Cloud Model Studio — Supported Models、2026年6月8日アクセス)。
Qwen モデル一覧:サイズ・タイプ・提供形態の詳細比較
2026年6月時点の主要モデルをクローズド API とオープンウェイトに分けて一覧化する。
クローズド旗艦 API(Alibaba Cloud Model Studio / Qwen Chat)
| モデル名(API) | 位置づけ | API 料金(入力 / 出力、100万トークンあたり USD) | 主な用途 |
|---|---|---|---|
| qwen3-max | 現行旗艦・最上位。1兆パラメータ超 MoE(重み非公開) | 約 $1.20〜$3.00 / $6.00〜$15.00(入力長で段階課金) | 複雑な推論・エージェント・難易度の高いコード生成 |
| qwen3.5-plus | 性能・速度・コストのバランス型・中位主力 | 約 $0.40〜$1.20 / $1.20〜$3.60(段階課金) | 業務チャットボット・RAG・汎用テキスト処理 |
| qwen3.5-flash | 軽量・高速・低コスト | 約 $0.05〜$0.25 / $0.40〜$2.00(段階課金) | 大量処理・翻訳・分類・要約など単純タスク |
| qwen-plus / qwen-max(旧世代スナップショット) | 旧世代。新規開発には非推奨 | qwen-max:$1.60 / $6.40 | 既存システムの互換維持のみ |
※ 料金は国際版(International)の公式値(出典:Alibaba Cloud Model Studio — Model Pricing、2026年6月8日アクセス)。デプロイ地域により異なる。円換算は為替変動があるため省略。
オープンウェイト(Apache 2.0・HuggingFace 等で無料ダウンロード可)
| モデル名 | 構造・パラメータ | 必要 VRAM 目安 | タイプ | 主な用途・特記 |
|---|---|---|---|---|
| Qwen3-235B-A22B | MoE:総235B / 活性22B | 約140GB〜 | 汎用テキスト | オープンウェイト最高性能。GPQA Diamond 77.2%・AIME’24 85.7%(Qwen3 公式ブログ) |
| Qwen3-30B-A3B | MoE:総30B / 活性3B | 約20GB〜 | 汎用テキスト | 軽量MoE。速度と品質のバランスが取りやすい |
| Qwen3-32B | Dense:32B | 約64GB〜 | 汎用テキスト | 密モデル最大。高難度の推論・長文要約 |
| Qwen3-14B | Dense:14B | 約28GB〜 | 汎用テキスト | A100 40GB 1枚で快適動作。業務チャットボット・RAG |
| Qwen3-8B | Dense:8B | 約16GB〜 | 汎用テキスト | コストパフォーマンスが優秀。ファインチューニング用ベースとして広く活用 |
| Qwen3-4B / 1.7B / 0.6B | Dense:4B / 1.7B / 0.6B | 約8GB / 3GB / 1GB〜 | 汎用テキスト | エッジデバイス・スマートフォン・組み込みアプリ向け |
| Qwen3-VL-235B-A22B | MoE:総235B / 活性22B | 約140GB〜 | 視覚言語(VL) | 画像・動画理解・OCR・グラフ解析・スクリーンショット処理 |
| Qwen3-Coder(例:Qwen3-Coder-Next 総80B/活性3B) | MoE:総80B / 活性3B | 活性相当で軽量動作 | コーディング特化 | コーディングエージェント・ローカル開発環境への組み込み |
| Qwen3Guard | — | — | 安全・モデレーション | 出力フィルタリング・コンテンツ安全審査 |
※ VRAM 目安は FP16 精度での概算値。Q4_K_M 等の量子化(GGUF 形式)を利用した場合、必要 VRAM はおおよそ半減する。出典:HuggingFace Qwen3 コレクション、2026年6月8日アクセス。
画像生成・画像編集・音声合成(TTS)などの派生モデルについては専門記事を参照されたい。Qwen VL の活用ガイド、Qwen TTS の活用ガイド、Qwen による画像編集の解説でそれぞれ詳しく解説している。
Qwen3 の構造的変化:Thinking モードが選定判断に与える影響
Qwen3(2025年4月公開)で登場した最大の構造的変化が「Thinking / Non-Thinking の2モード切り替え」だ。これは稟議・選定の判断に直結するため、モデル一覧を見るだけでは見落としやすい重要な仕様である。
Thinking モード(enable_thinking: true)
内部で段階的な推論過程(Chain-of-Thought)を生成してから最終回答を出力する。数学の証明・論理パズル・コードのバグ分析など正確性が最優先のタスクに有効。レイテンシは増加するが、Qwen3-235B-A22B では GPQA Diamond 77.2%・AIME’24 85.7% を達成している(出典:Qwen3 公式ブログ)。
Non-Thinking モード(enable_thinking: false)
思考過程を省略して直接回答を生成する。チャット・翻訳・要約など速度とコストを優先するタスクに適する。1つのモデルで両モードを切り替えられるため、運用インフラを分割せずに済む点が ROI 改善に寄与しやすい。
Qwen3 登場以前は、推論特化タスクには別系統の QwQ を使い分ける必要があったが、Qwen3 は1モデルで両機能をカバーする。インフラ運用の複雑性を抑えながら推論性能を確保したい企業にとって、この統合は選定根拠として評価しやすい変化だ。モデルタイプ・タスク別の詳細な性能構成は Qwen3 の性能・モデル構成・使い方 で解説している。

用途・要件別の選定指針と留意点
Qwen モデル一覧を整理したうえで、実際の導入判断に直結する選定指針を示す。
判断軸1:ローカル運用か API 利用か
データをクラウド外に出したくない・セキュリティ要件が厳しい・API コストを固定したいという場合は、Apache 2.0 のオープンウェイトモデルをローカル・オンプレミスで運用する選択肢がある。商用利用・改変・再配布が可能であり、ファインチューニングによるドメイン適応も自由に行える。
一方、GPU インフラを持たない・迅速にプロトタイプを構築したい・運用負荷を最小化したいという場合は、Alibaba Cloud Model Studio の API が現実的だ。qwen3.5-flash の低コスト(入力側で約 $0.05〜$0.25 / 100万トークン)から始め、品質要件に応じて qwen3-max に切り替える段階的なアプローチが取りやすい。料金体系の詳細は Qwen の料金・プランガイド を参照されたい。
判断軸2:タスクの複雑度と精度要件
| タスクの性質 | 推奨モデル(API) | 推奨モデル(ローカル) | 備考 |
|---|---|---|---|
| 複雑な推論・エージェント・難易度の高いコード | qwen3-max | Qwen3-235B-A22B | Thinking モード(enable_thinking: true)を活用 |
| 業務チャットボット・RAG・汎用テキスト生成 | qwen3.5-plus | Qwen3-14B / 32B | コストと品質のバランスが取りやすい中位選択 |
| 大量一括処理・翻訳・分類・要約 | qwen3.5-flash | Qwen3-8B / Qwen3-30B-A3B | スループット優先。API コストも最小化しやすい |
| 画像・動画の理解・OCR・グラフ解析 | Qwen Chat(VL 機能搭載) | Qwen3-VL-235B-A22B | 詳細は Qwen VL ガイド を参照 |
| コーディングエージェント・自律的な開発補助 | qwen3-max(Thinking モード) | Qwen3-Coder-Next | 詳細は Qwen Coder ガイド を参照 |
| エッジデバイス・スマートフォン組み込み | —(ローカル一択) | Qwen3-0.6B / 1.7B / 4B | 量子化(Q4_K_M 等)との組み合わせで動作範囲が広がる |
選定時の限界・留意点
ベンチマーク数値(GPQA Diamond や AIME スコア等)は英語での評価が主体であり、日本語タスクへの直接的な性能保証にはならない。自社のタスクに即した評価データセットで検証することが不可欠だ。また、MoE モデルは活性パラメータ数が少ないため推論コストを抑制できるが、全パラメータをメモリに展開する必要があり、ロード時の総 VRAM 要件は大きい点も見落としやすい。料金体系はデプロイ地域(国際版 / 中国本土版)で異なるため、稟議・見積もり段階では公式の Model Studio 料金ページ で最新値を直接確認することを推奨する。
他社モデルとの性能比較については Qwen の比較ガイド、API の利用設定・セットアップ手順については Qwen の導入・セットアップガイド を参照されたい。
なお、弊社クリスタルメソッド株式会社が開発するバーチャルヒューマン・AI アバターソリューション「DeepAI」は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現する製品であり、リップシンク・表情生成・音声合成・対話 AI を組み合わせ、接客・研修・面接練習・広報などの用途で活用される。Qwen 系モデルを含む大規模言語モデルとの組み合わせ活用を検討している場合は、弊社ブログの AI 活用記事一覧もあわせて確認いただきたい。
参考文献
- Alibaba Cloud Model Studio — Supported Models:https://www.alibabacloud.com/help/en/model-studio/models(2026年6月8日アクセス)
- Alibaba Cloud Model Studio — Model Pricing:https://www.alibabacloud.com/help/en/model-studio/model-pricing(2026年6月8日アクセス)
- Qwen 公式ブログ:https://qwenlm.github.io/blog/(2026年6月8日アクセス)
- Qwen3 公式ブログ記事:https://qwenlm.github.io/blog/qwen3/(2026年6月8日アクセス)
- HuggingFace Qwen3 コレクション:https://huggingface.co/collections/Qwen/qwen3(2026年6月8日アクセス)
- Qwen3-Max-Preview 告知(公式 X):https://x.com/Alibaba_Qwen/status/1963991502440562976(2026年6月8日アクセス)
- オープンソース LLM 最新ランキング、Qwen 3.5 が首位(JST):https://spap.jst.go.jp/china/news/260301/topic_1_03.html
- 中国がオープンな AI のダウンロードシェアで米国を抜く(JST):https://spap.jst.go.jp/china/experiences/beijing/bj_2533.html
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Study about AI
AIについて学ぶ
-
生成AIオンプレミス導入と規制リスク——Anthropic輸出規制が示す自社インフラ回帰の必然
Anthropicの輸出規制命令——生成AIオンプレミス導入が「規制リスク対策」に変わった瞬間 2026年6月、米国政府はAnthropicに対し、新モデル「M...
-
EU AI規制 企業対応の実務——ENISAとAnthropicの協議が示す日本企業への含意
ENISAがAnthropicと直接協議——EU AI規制の監視が生成AIへ本格移行 欧州サイバーセキュリティ機関ENISA(European Union Ag...
-
Claude障害が招く業務影響と対策——AI依存リスクの経営管理指針
Claude障害の実態:2026年6月インシデントが示すもの 2026年6月18日、AnthropicのAIチャットボット「Claude」(claude.ai)...