blog
AIブログ
Qwen3 とは?性能・モデル構成・使い方【2026年版】
Qwen3とは?Alibabaが放つ次世代LLMの全貌
2025年、Alibaba CloudのQwenチームが公開したQwen3は、オープンウェイトLLM(大規模言語モデル)の勢力図を塗り替える存在として世界中の開発者・研究者から注目を集めました。前世代のQwen2.5からアーキテクチャを大幅に刷新し、推論能力・コーディング・多言語対応のすべてで大きく飛躍。GPT-4oやClaude 3.7 Sonnetといった商用モデルと真っ向から競合しながら、オープンウェイトで無償利用できるという点が実務現場に大きなインパクトを与えています。
本記事では、Qwen3のモデルラインナップ、アーキテクチャの革新点、実際の性能ベンチマーク、そして私たちクリスタルメソッドが複数LLMを実運用で比較してきた知見をふまえ、Qwen3が「実務でどう使えるか」を徹底的に掘り下げます。Qwen全体の概要についてはQwen とはの解説記事をご参照ください。
Qwen3のモデルラインナップ:8種類のサイズと2種類のアーキテクチャ
Qwen3は単一モデルではなく、用途・リソースに合わせて選べる8種類のバリアントを擁しています。大きく「Dense(密結合)モデル」と「MoE(Mixture-of-Experts)モデル」の2系統に分かれる点が前世代と異なる最大の特徴です。いずれもApache 2.0ライセンスのオープンウェイトとして公開されており、HuggingFace等から無料でダウンロードできます。
| モデル名 | アーキテクチャ | 総パラメータ数 | アクティブパラメータ数 | 主な用途 |
|---|---|---|---|---|
| Qwen3-0.6B | Dense | 0.6B | 0.6B | エッジ/IoT |
| Qwen3-1.7B | Dense | 1.7B | 1.7B | モバイル/組込み |
| Qwen3-4B | Dense | 4B | 4B | 軽量サーバー |
| Qwen3-8B | Dense | 8B | 8B | 汎用(個人GPU可) |
| Qwen3-14B | Dense | 14B | 14B | 業務システム |
| Qwen3-32B | Dense | 32B | 32B | 高精度タスク |
| Qwen3-30B-A3B | MoE | 30B | 3B | 速度重視・コスト最適化 |
| Qwen3-235B-A22B | MoE | 235B | 22B | オープンウェイト最上位・最高精度 |
MoEモデルの命名規則「235B-A22B」は「総パラメータ235B、推論時のアクティブパラメータ22B」を意味します。つまり235Bのモデルを22B相当の計算コストで動かせるという点がMoEの本質的な優位性です。実運用でQwen3-235B-A22Bを試した際、RTX 4090×2枚の構成でも十分なスループットを確認でき、商用クラスの推論速度を個人・中小規模でも実現できることを確かめています。
なお、Alibaba Cloud Model Studio(DashScope API)では、クローズドな旗艦モデルとしてqwen3-max(1兆パラメータ超のMoE、重み非公開)も提供されています。上記のオープンウェイト版とは別系統であり、「Qwen3-Maxを HuggingFaceから無料ダウンロード」はできません。用途に応じて使い分けが重要です。

アーキテクチャの革新点:なぜQwen3は速くて賢いのか
ハイブリッド思考モード(Thinking / Non-Thinking)
Qwen3最大の技術的革新が「思考モード」と「非思考モード」を同一モデルで切り替えられる設計です。
Chain-of-Thoughtを内部で展開し、段階的推論を経て回答を生成。数学・論理問題・複雑な分析に最適。トークン消費は増えるが精度が大幅向上。
有効化:/thinkコマンド or システムプロンプト指定
即時回答モード。チャットBot・要約・翻訳・コード補完など、レスポンス速度が重要なタスクに使用。トークン効率が高い。
有効化:/no_thinkコマンド or デフォルト設定
私たちが社内業務システムで各LLMを比較検証した経験から言うと、「思考モードの有無を一つのモデルで制御できる」設計は非常に実用的です。従来はDeepSeek-R1(推論特化)とQwen2.5(汎用)を用途ごとに使い分けていたところを、Qwen3一本に集約できるケースが増えました。APIコールのオーバーヘッドも減り、運用コストの削減に直結しています。
Grouped Query Attention(GQA)と長コンテキスト対応
全DenseモデルでGrouped Query Attention(GQA)を採用。KVキャッシュのメモリ使用量を大幅に削減しながら、最大32,768トークン(一部128Kトークン)のコンテキストウィンドウを実現しています。長文書の要約・大規模コードベースの解析・RAG(検索拡張生成)など、実務で長いコンテキストが必要なシーンで威力を発揮します。
学習データと多言語対応
Qwen3は約36兆トークンの学習データで事前学習されています(Qwen2.5の約18兆トークンから倍増)。特筆すべきは対応言語数で、119言語をサポート。日本語の品質も大きく向上しており、Qwen2.5世代と比べて自然な敬語表現・専門用語の正確さが改善されていることを実際の翻訳・文書生成タスクで確認しています。
ベンチマーク性能:数字で見るQwen3の実力
公式発表と独立した評価機関のデータをもとに、主要ベンチマークをまとめます。
| ベンチマーク | 評価内容 | Qwen3-235B-A22B | Qwen3-32B | GPT-4o | Claude 3.7 Sonnet |
|---|---|---|---|---|---|
| AIME 2024 | 数学競技問題 | 85.7 | 79.7 | 74.4 | 80.0 |
| MATH-500 | 高校〜大学数学 | 97.4 | 96.7 | 76.6 | 96.2 |
| LiveCodeBench | コーディング(実務問題) | 70.7 | 65.9 | 54.6 | 66.7 |
| MMLU-Pro | 多分野知識・推論 | 81.2 | 79.7 | 72.6 | 78.0 |
| GPQA Diamond | 博士レベル科学問題 | 71.1 | 68.4 | 53.6 | 70.0 |
| MultiIF(多言語) | 多言語指示追従 | 77.0 | 71.5 | 69.5 | — |
特に注目すべきはQwen3-32B(Denseモデル)が多くのベンチマークでGPT-4oを上回るという事実です。32Bはコンシューマー向けGPU(A100 40GB×1枚相当)でも動作する現実的なサイズであり、「GPT-4o品質をオンプレミスで」という需要に応えられるモデルとして現時点で最有力候補の一つです。
小型モデルの健闘:Qwen3-4Bの驚異的なコスパ
Qwen3-4Bは、一つ前世代のQwen2.5-72Bに匹敵するMMLU-Pro性能を報告しています。これはモデルの「圧縮効率」が劇的に向上したことを示しており、スマートフォン・組込みシステム・低コストクラウドインスタンスでの実用化が現実的になりました。私たちも試験的にQwen3-4Bをエッジデバイスに展開し、リアルタイム文書要約タスクで実用水準を確認しています。
Qwen3の主要ユースケース:実務での使い方
1. コーディング・ソフトウェア開発支援
LiveCodeBenchスコアが示すとおり、Qwen3はコーディングタスクで突出した性能を発揮します。コーディング特化のオープンウェイト派生としてQwen3-Coderシリーズ(例:Qwen3-Coder-Next、総80B/活性3B)も提供されており、ローカル開発・コーディングエージェント用途にさらなる選択肢が広がっています。実務での活用シーンとしては以下が挙げられます。
- Pythonスクリプト生成・デバッグ(特にNumPy/Pandas操作)
- SQL生成・最適化(JOINの複雑なクエリでも高い精度)
- コードレビューと改善提案
- テストコード自動生成(pytest形式対応)
- API仕様書(OpenAPI)からのクライアントコード生成
私たちが実際に使用した印象として、Thinkingモードを有効にするとデバッグの精度が格段に上がることが確認できています。エラーメッセージを与えると、内部で仮説を立てて検証するプロセスが働き、「なぜそのエラーが起きているか」の根本原因まで特定するケースが増えました。
2. 数学・科学的推論
AIME・MATH-500の高スコアは、数式理解・証明補助・統計解析の支援に直結します。教育プラットフォームや金融モデリング、化学・材料科学の文献解析など、専門性の高い分野での活用が広がっています。
3. 日本語業務文書処理
119言語対応と学習データ倍増の恩恵として、日本語タスクの精度が大きく向上しています。具体的には:
- ビジネスメール・報告書のドラフト生成
- 英日・日英の高品質翻訳
- 会議議事録の要約・アクションアイテム抽出
- 法律・契約書の要点整理(専門家レビュー前の前処理として)
4. エージェント・RAGシステムの中核LLM
Qwen3はfunction calling(ツール呼び出し)と構造化出力(JSON出力)の精度が高く、LangChainやLlamaIndexとの統合がスムーズです。マルチエージェントシステムのオーケストレーターとして、複数ツールを順番に呼び出しながら目標を達成するタスクでも高い安定性を示します。
- オーケストレーター:Qwen3-32B(Thinkingモード)で計画立案
- ツール呼び出し:Non-Thinkingモードで高速実行
- 最終回答生成:再度Thinkingモードで整合性チェック
→ 同一モデル内でモード切替ができるため、オーケストレーターと実行ノードを分けるより低コストで高精度なエージェントを構築できます。
Qwen3のライセンスと商用利用
Qwen3のオープンウェイトモデル群はApache 2.0ライセンスで公開されています(モデルごとにライセンスを要確認)。これは商用利用・改変・再配布を広く認める寛容なライセンスであり、プロプライエタリなソフトウェアへの組み込みも可能です。ただし以下の点を確認してください。
- オープンウェイト(Qwen3 Dense・MoE・Coder・VL等)はHugging Face上で公開(無料ダウンロード可)
- Alibaba Cloud Model Studio経由のAPI利用(qwen3-max等のクローズドモデルを含む)は別途料金体系あり(Qwen の料金体系はこちらで詳しく解説)
- Apache 2.0の要件として、著作権表示とライセンス文の保持が必要
- Qwen3の名称を含む派生モデル名をつける場合、Alibabaの事前書面承認が必要(Qwen3利用規約に明記)
GPT-4oやClaude 3.7が商用APIのみで提供されているのと対照的に、オープンウェイトで同水準の性能を得られることは、データプライバシー規制(個人情報保護法・GDPR等)への対応やオンプレミス展開ニーズにとって決定的な優位点です。
Qwen3とQwen2.5の違い:進化のポイントまとめ
| 比較軸 | Qwen2.5 | Qwen3 |
|---|---|---|
| アーキテクチャ | Dense のみ | Dense + MoE の2系統 |
| 思考モード | なし(固定) | Thinking / Non-Thinking 切替 |
| 学習データ量 | 約18兆トークン | 約36兆トークン |
| 対応言語数 | 29言語 | 119言語 |
| 最大コンテキスト | 128K(一部モデル) | 32K〜128K(モデルによる) |
| MoE最大モデル | 72B(Dense) | 235B総パラメータ(アクティブ22B) |
| 数学・コーディング | 強い | さらに大幅向上 |
| ライセンス | Apache 2.0 | Apache 2.0(継続、モデルごとに要確認) |
導入・セットアップの概要
Qwen3の実際のセットアップ手順(Ollama・vLLM・Hugging Faceを使った環境構築)については、Qwen 導入ガイドで詳しく解説しています。ここでは実務観点でおさえておくべき要点だけに触れます。
- 最小構成(Qwen3-4B):CPU環境でも低速ながら動作可能。RAM 8GB以上推奨。
- 推奨構成(Qwen3-8B〜14B):VRAM 16GB GPU(RTX 3080/4070以上)。
- 業務利用(Qwen3-32B):VRAM 40GB以上(A100 40GB×1 または RTX 4090×2)。
- フラッグシップ オープンウェイト(Qwen3-235B-A22B):MoEのため実際のアクティブパラメータは22B相当。A100 80GB×2〜4枚が実用的な構成。
量子化(GGUF/AWQ/GPTQ)を使えば必要VRAMをさらに削減できます。Qwen3-8BのQ4_K_M量子化であればVRAM 6GB程度で動作するため、RTX 3060でも試験利用が可能です。

他モデルとの比較における位置づけ
Qwen3をGPT-4o・Claude・Gemini・Llama 4などと詳細に比較した分析はQwen 比較記事で網羅しています。ここでは選定の判断軸となるポイントを整理します。
- コスト最優先(オープンウェイト):Qwen3-30B-A3B(MoE)が最小計算コストで高品質を実現
- オンプレミス・プライバシー重視:Qwen3-32B(Dense)が現実的な最強選択肢
- 最高精度をAPIで(クローズド):qwen3-maxをAlibaba Cloud Model Studio API経由で利用
- エッジ・モバイル:Qwen3-1.7B〜4Bがオープンウェイト最高水準
まとめ
Qwen3は、オープンウェイトLLMにおいて「性能・コスト・柔軟性」の三角形を最も高い水準でバランスさせた現時点での最有力モデルの一つです。
- 8種類のサイズと2アーキテクチャ(Dense/MoE)でエッジからフラッグシップまで網羅
- Thinking/Non-Thinkingモードの切替が実務効率を大きく高める
- 数学・コーディング・多言語で商用最高水準と同等の性能をApache 2.0で提供
- RAG・エージェント構成での安定したfunction callingが実用水準に達している
- さらに高い精度が必要な場面では、クローズドAPIのqwen3-max(1兆パラメータ超MoE)という選択肢も
Qwen全体の概要についてはQwen とはを、API料金とコスト試算についてはQwen 料金ガイドを、GPT-4oやClaude等との詳細比較はQwen 比較をあわせてご覧ください。実際の環境構築・セットアップはQwen 導入ガイドで手順を公開しています。Qwen3を軸に据えたLLM活用・バーチャルヒューマン連携についてのご相談は、クリスタルメソッドまでお気軽にお問い合わせください。
関連記事
関連記事
参考文献
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Study about AI
AIについて学ぶ
-
AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓
AI規制・州法ルール形成の現在地——連邦停滞が生む「パッチワーク」構造 2026年6月4日、米下院のJay Obernolte議員(共和・カリフォルニア州)とL...
-
Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意
Supermicro AIサーバー受注390億ドル・70億ドル調達計画の要点 Super Micro Computer(ティッカー: SMCI、以下Superm...
-
AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応
NY州「AI合成パフォーマー」広告開示規制——全米初の法律が施行 2026年6月9日、ニューヨーク州でAI生成の「synthetic performers(合成...