blog

Qwenとは何か——二層構造と技術仕様を研究者視点で解説

Qwenとは何か——二層構造と技術仕様を研究者視点で解説

QwenはなぜLLM研究者の関心を集めるのか——開発背景と二層戦略

Qwenとは、Alibaba Cloud(阿里巴巴)のQwenチームが開発・維持する大規模言語モデル(LLM)系列の総称である。グローバルでは「Qwen」表記が標準であり、「通義千問(Tongyi Qianwen)」は旧来のブランド名として位置づけられる。

Qwenを理解するうえで最初に把握すべきは、その二層構造だ。一方には重みをApache 2.0で公開するオープンウェイトモデル群があり、HuggingFaceから無料でダウンロードして商用利用できる。もう一方には重みが非公開のクローズドAPI旗艦群があり、Alibaba Cloud Model Studio(DashScope API)またはQwen Chat経由でのみアクセスできる。この二層を混同した議論は誤りを招きやすい。「qwen3-maxをHuggingFaceからダウンロード」は構造的に不可能であり、無料ダウンロードの対象はQwen3系・Coder・VLなどのオープンウェイト側に限られる。

Alibabaがこの戦略をとる理由は三点に整理できる。第一に、自社クラウド基盤の差別化サービスとしてクローズドAPIで収益を確保すること。第二に、オープンウェイト公開によって開発者コミュニティを獲得しエコシステムを拡張すること。第三に、中国語・日本語など漢字圏言語の処理で欧米モデルに対して優位を確立することである。

JST(科学技術振興機構)の報告によれば、オープンソースLLMの性能評価ランキングでQwenシリーズが首位を獲得したとされており(spap.jst.go.jp、2026年3月)、その技術水準はグローバルな評価機関からも注目されている。

オープンウェイト層 Apache 2.0 / HuggingFace無料DL Qwen3-235B-A22B / 32B / 8B 等 Qwen3-Coder / Qwen3-VL ローカル実行・ファインチューニング可 商用利用可(ライセンス個別確認要) クローズドAPI層 重み非公開 / DashScope API qwen3-max(1T超 MoE・最上位旗艦) qwen3.5-plus / qwen3.5-flash 従量課金・Qwen Chat(無料UI) ローカル実行・重みDL不可
Qwenの二層構造——左がオープンウェイト、右がクローズドAPI旗艦(Alibaba Cloud Model Studio公式情報をもとに作成)

LLMの基礎的なアーキテクチャに関する技術背景は、ディープラーニングの仕組みと応用も参照されたい。

Qwen3シリーズのモデルラインナップと技術仕様

2026年6月時点での現行世代はQwen3シリーズである(Alibaba Cloud Model Studio公式ドキュメント、alibabacloud.com、2026年6月8日確認)。Qwen2・Qwen2.5系はレガシーとして位置づけられており、新規実装にはQwen3系を選択すべきである。

クローズドAPI旗艦モデル

重みが非公開で、DashScope APIまたはQwen Chat経由でのみ利用できるモデル群は以下の三本立てである。

  • qwen3-max:1兆(1T)パラメータ超のMoEアーキテクチャを採用した現行最上位旗艦。複雑な推論・エージェント用途に対応。2025年9月頃に「Qwen3-Max-Preview(Instruct)」として先行告知(公式X、2026年6月8日確認)されたのち、Model Studioに正式収録された。VentureBeats報道(venturebeat.com)でも「前世代Qwen3-235B-A22B-2507を上回る」と報じられている。
  • qwen3.5-plus:性能・速度・コストのバランスを取った中位主力モデル。
  • qwen3.5-flash:軽量・高速・低コスト。単純タスクや大量バッチ処理向け。なお、旧来のqwen-turboは公式によって更新停止が宣言されており、後継としてqwen-flashが推奨されている。

オープンウェイトモデル(Qwen3 LM)

HuggingFaceのQwenコレクション(huggingface.co)からApache 2.0で無料ダウンロード・商用利用できる。ただしモデルバリアントごとにライセンスが異なる場合があるため、各モデルカードの最新ライセンス記載を個別に確認することが不可欠である。

表1:Qwen3オープンウェイトモデルの主要仕様(2026年6月・Alibaba Cloud公式情報)
モデル名 構造 総パラメータ 推論時活性化 主な用途
Qwen3-235B-A22B MoE 235B 22B 旗艦・高精度推論・研究
Qwen3-30B-A3B MoE 30B 3B 中規模・コスト効率重視
Qwen3-32B Dense 32B 32B(全体) 高性能・単一GPU構成
Qwen3-14B Dense 14B 14B バランス型・ローカル実用
Qwen3-8B Dense 8B 8B 軽量・コンシューマGPU対応
Qwen3-4B / 1.7B / 0.6B Dense 各サイズ 同左 エッジ・組み込み・モバイル
Qwen3-Coder-Next(例) MoE 約80B 約3B コーディングエージェント
Qwen3-VL-235B-A22B-Instruct MoE 235B 22B 画像・動画理解

Qwen3の設計上の重要な特性として、Thinking Mode / Non-Thinking Modeのハイブリッド推論がある。複雑な問題にはChain-of-Thought型の段階的思考プロセスを踏み(Thinking Mode)、単純なタスクには高速応答を返す(Non-Thinking Mode)という切り替えが全モデルに実装されている。さらにQwen3は119言語に対応しており、中国語・英語・日本語・韓国語に加えアラビア語・ヒンディー語・マレー語など幅広い言語を網羅する(Qwen公式ブログ、2026年6月8日確認)。

なお、「Qwen3.6」「Qwen3.7」「Qwen3.7-Plus」等の版番が第三者ブログや一部メディアに登場するが、2026年6月時点のAlibaba Cloud Model Studio公式ドキュメントではこれらの版番を確認できない。公式の現行ラインナップはqwen3-max / qwen3.5-plus / qwen3.5-flashであり、版番については一次情報で裏取りできるまで断定的に参照しないことを推奨する。

Qwenのアーキテクチャ——技術的特性の要点

Qwenの性能を支える技術的要素を、実務・研究の判断に必要な粒度で整理する。

トークナイザーと漢字圏言語の処理効率

QwenはByte Pair Encoding(BPE)ベースの独自トークナイザーを採用し、語彙サイズは約15万トークンと大規模である。この設計により、中国語・日本語・韓国語など漢字圏言語を英語ベースのモデルと比較して少ないトークン数で表現できる。テキスト処理コストとレイテンシに直接影響するため、アジア言語を主要対象とするシステムでは特に重要な選択要因となる。日本語自然言語処理の技術的背景についてはBERTとNLPの解説記事も参考になる。

Group Query Attention(GQA)と長文コンテキスト

Qwen2以降ではGroup Query Attention(GQA)が採用されており、従来のMulti-Head Attentionと比べてKVキャッシュのメモリ使用量を削減している。Qwen3の多くのモデルは最大128Kトークンのコンテキストウィンドウをサポートしており、長大なドキュメント・コードベース全体を一度に読み込んで処理するRAG(Retrieval-Augmented Generation)システムや長文要約タスクに適している。テキスト分析パイプラインの構築に際してはテキストマイニングの解説記事も参照されたい。

Mixture of Experts(MoE)アーキテクチャ

Qwen3の大型モデルとクローズドAPI旗艦にはMoE構造が採用されている。複数の「エキスパート」ネットワークを持ち、各トークン処理に最適なエキスパートのみを選択的に活性化することで、総パラメータ数の巨大さと実用的な推論コストを両立している。オープンウェイト旗艦のQwen3-235B-A22Bは総235Bのうち推論時に22Bのみを活性化する設計であり、クローズドAPI旗艦のqwen3-maxはさらに大規模な1T超のMoEを採用している。スパース表現に関連する効率的なモデル設計の考え方についてはスパースモデリングの解説も参照されたい。MoEを含む深層学習アーキテクチャの詳細は機械学習の基礎解説が参考になる。

マルチモーダル統合

Qwen3-VLはテキストに加えて画像・動画を入力として処理できる視覚言語モデルであり、画像キャプション・図表解析・OCRなどの用途に対応する。JST J-GLOBALに収録された研究(Enhanced Qwen-VL 7B Model via Instruction Finetuning、jglobal.jst.go.jp)では、Qwen-VLへのインストラクションファインチューニングによる性能向上が検討されており、マルチモーダル分野における研究活用の広がりが確認できる。マルチモーダルAIの全体像についてはマルチモーダルAIの解説記事も参照されたい。

強化学習による推論能力の向上

Qwen3のThinking Modeが実現する段階的推論の背後には、強化学習を用いた報酬モデリングによるトレーニングが寄与しているとされる。強化学習の原理については強化学習の解説記事が技術的文脈を補う。

性能評価——主要ベンチマークと客観的な解釈

公式発表(Qwen公式ブログ、2026年6月8日確認)に基づく代表的なベンチマークスコアを以下に示す。Qwen3-235B-A22BのGPQA Diamond 77.2%・AIME’24 85.7%は公式ブログに明記された数値であり、オープンウェイトモデルの中でも高水準として公表されている。

表2:主要モデルのベンチマーク比較(Qwen公式発表値・Thinking Mode使用時、2026年6月)
モデル 開発元 GPQA Diamond AIME’24 オープンウェイト ライセンス
Qwen3-235B-A22B Alibaba 77.2% 85.7% Apache 2.0
Qwen3-32B Alibaba 公式発表値参照 公式発表値参照 Apache 2.0
qwen3-max Alibaba 公式発表値参照 公式発表値参照 ×(API専用) 非公開
Llama 3.1 70B Meta 公式発表値参照 公式発表値参照 Llama License
GPT-4o OpenAI 公式発表値参照 公式発表値参照 × 非公開

ベンチマーク数値はプロンプト設計・評価バージョン・Thinking Modeの使用有無によって変動するため、最終的な採用判断には実際のユースケースに即した独自評価が不可欠だ。特定のドメインや言語での性能は、汎用ベンチマーク上の順位と一致しない場合がある点を念頭に置く必要がある。

性能評価におけるバイアス問題については別途研究が進んでいる。JST J-GLOBALに収録された「Qwen-Gender:思考チェーンに基づくマルチタスク性別Bias緩和」(jglobal.jst.go.jp)は、QwenのChain-of-Thoughtを通じた性別バイアス緩和を扱った研究であり、LLMの公平性評価という観点からも注目される。生成モデルの基礎的な理解にはGAN(敵対的生成ネットワーク)の解説記事も有用である。

料金体系とアクセス方法——実務的な選択指針

Qwenへのアクセスは用途と予算に応じて複数の経路から選択できる。以下は2026年6月8日時点の公式情報(Alibaba Cloud Model Studio Pricing)に基づく整理であり、料金は変動するため最新値は必ず公式ドキュメントで確認されたい。

Qwen Chat——無料チャットUI

chat.qwen.ai / qwen.aiはアカウント登録のみで利用できる無料のチャットアプリケーションであり、テキストチャット・画像理解・画像生成・文書処理・音声・動画チャットなどの機能を備える。API利用の前段階として、モデルの挙動を無料で把握できる最も手軽な入口である。

Alibaba Cloud Model Studio(DashScope API)——開発者向け従量課金

OpenAI互換のREST APIが提供されており、既存のGPT-4実装からエンドポイント変更だけで移行できる。基本エンドポイントは https://dashscope.aliyuncs.com/compatible-mode/v1 であり、モデル名に qwen3-maxqwen3.5-plusqwen3.5-flash 等を指定して呼び出す。かつて存在した無料開発者API枠は2026年4月頃に終了しており、現在は新規向けの一時的なオンボーディングトライアル枠が主な無償利用手段となっている(トライアル量は時期により変動するため要確認)。

表3:主要モデルのAPI価格(USD / 100万トークン・Model Studio 国際版・2026年6月8日確認)
モデル 入力($/1Mトークン) 出力($/1Mトークン) 課金方式
qwen3-max 約 $1.20〜$3.00 約 $6.00〜$15.00 入力長による段階課金
qwen3.5-plus 約 $0.40〜$1.20 約 $1.20〜$3.60 段階課金
qwen3.5-flash 約 $0.05〜$0.25 約 $0.40〜$2.00 段階課金
qwen-max(旧世代) $1.60 $6.40 均一

デプロイ地域(国際版・中国本土等)によって価格が異なる点にも留意が必要だ。

オープンウェイトのローカル実行

Apache 2.0ライセンスのQwen3モデルはHuggingFaceからダウンロードして自前の環境で実行できる。transformerstorchaccelerate を用いた標準的な推論コードで動作し、量子化(GGUF形式)を適用すれば8〜16GB程度のVRAM環境でも実用的な速度が得られる。Ollamaでは ollama run qwen3:8b のような簡便なコマンドでローカル実行が可能であり、LM StudioはGUIベースで技術的ハードルを下げる。OpenRouter・Together AI・GroqなどのサードパーティAPIホスティングでも主要なQwen3モデルが提供されており、既存のOpenAI互換クライアントをそのまま活用できる。

採用判断における限界とリスク——研究者が見落としやすい論点

Qwenの性能と有用性は公式ベンチマーク上で明らかだが、実務への採用を検討する際には以下の制約を客観的に評価する必要がある。

データ主権とプライバシー:DashScope APIを利用する場合、データはAlibaba Cloudのサーバーに送信される。機密情報・個人情報を扱うシステムでは、オープンウェイトモデルをオンプレミスまたはプライベートクラウドで実行する構成を優先して検討すべきである。Apache 2.0のQwen3オープンウェイトモデルはこの点で大きな柔軟性を提供している。

地政学的リスク:Alibabaは中国企業であるため、規制環境・輸出規制・データローカライゼーション要件が事業環境によっては問題となりうる。特に金融・防衛・医療など規制の厳しい業界では法務・コンプライアンス部門との事前調整が必須である。

コンテンツポリシーの制約:クローズドAPIモデルには中国の規制に基づくコンテンツフィルタリングが実装されており、特定の政治的・歴史的トピックに関して応答を回避するケースがある。用途の性質によっては実用上の制約となりうる。

ハルシネーション:他のLLMと同様に、Qwenも事実と異なる情報を自信を持って生成するリスクがある。重要な判断・医療・法的用途では必ず独立した検証プロセスを設けるべきである。

ライセンスの個別確認:Qwen3の主要モデルはApache 2.0だが、モデルバリアントごとにライセンスが異なる場合がある。商用デプロイ前にはHuggingFaceの各モデルカード記載の最新ライセンス文書を個別に確認することが法的リスク回避の基本である。

バージョン情報の精査:第三者ブログや一部メディアでは「Qwen3.6」「Qwen3.7」等の版番が登場するが、2026年6月時点のAlibaba Cloud Model Studio公式ドキュメントではこれらは確認できない。架空版番に基づいた実装判断は技術的混乱を招くため、常に一次情報を起点とした確認が求められる。

Qwenが支援する多言語ドキュメント処理と自然言語理解のイメージ
Qwenが支援する多言語ドキュメント処理と自然言語理解のイメージ

弊社クリスタルメソッドが開発するバーチャルヒューマン/AIアバターソリューション「DeepAI」は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現する製品であり、接客・研修・面接練習・広報などの用途で活用されている。Qwen3のような多言語対応LLMとの組み合わせは、対話AIの言語的多様性という観点から技術的に注目に値する方向性といえる。弊社のAI技術解説の全体像は弊社ブログのAI技術解説一覧を参照されたい。

Qwenを体系的に理解するための結論

Qwenとは何か、という問いに対して研究者視点で答えるならば、次のように集約できる。

Qwenは「オープンウェイト(Apache 2.0)による自由な実行・改変・商用利用」と「クローズドAPI旗艦による最高性能へのアクセス」を二層で提供する、Alibaba Cloud製のLLM系列である。現行世代Qwen3の技術的核心は、MoEアーキテクチャ・Thinking/Non-Thinkingのハイブリッド推論・GQAによる長文コンテキスト効率化・独自トークナイザーによる漢字圏言語の効率処理にある。119言語対応と最大128Kトークンのコンテキストウィンドウは、アジア言語を対象とする実務システムにおいて特に意味を持つ。

オープンウェイト旗艦Qwen3-235B-A22BのGPQA Diamond 77.2%・AIME’24 85.7%(Qwen公式ブログ掲載値)は、同ライセンス帯での推論・数学性能の高さを示す指標として参照に値する。ただしすべての評価はユースケース固有の検証で補完されるべきであり、ベンチマーク数値の単純な比較による採用判断は避けることが研究者的な姿勢として適切である。

データ主権の観点からオンプレミス実行が求められる場面ではApache 2.0のQwen3オープンウェイトモデルが有力な選択肢であり、最高性能を低い初期コストで試したい場合は無料のQwen Chat(chat.qwen.ai)から始めるのが合理的な出発点となる。


参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

関連記事

あわせて読みたい


AIの業務活用をご検討の方へ

クリスタルメソッドは、バーチャルヒューマンをはじめとするAIの開発・業務導入を支援しています。生成AI・AIエージェントの活用や、自社業務へのAI導入をご検討の際は、お気軽にご相談ください。

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • 生成AIオンプレミス導入と規制リスク——Anthropic輸出規制が示す自社インフラ回帰の必然

    生成AIオンプレミス導入と規制リスク——Anthropic輸出規制が示す自社インフラ回帰の必然

    Anthropicの輸出規制命令——生成AIオンプレミス導入が「規制リスク対策」に変わった瞬間 2026年6月、米国政府はAnthropicに対し、新モデル「M...

  • EU AI規制 企業対応の実務——ENISAとAnthropicの協議が示す日本企業への含意

    EU AI規制 企業対応の実務——ENISAとAnthropicの協議が示す日本企業への含意

    ENISAがAnthropicと直接協議——EU AI規制の監視が生成AIへ本格移行 欧州サイバーセキュリティ機関ENISA(European Union Ag...

  • Claude障害が招く業務影響と対策——AI依存リスクの経営管理指針

    Claude障害が招く業務影響と対策——AI依存リスクの経営管理指針

    Claude障害の実態:2026年6月インシデントが示すもの 2026年6月18日、AnthropicのAIチャットボット「Claude」(claude.ai)...

View more