blog

AIブログ

Qwen Image完全技術ガイド――アーキテクチャ・実装・トレードオフ

Alibaba Qwenチームが2025年8月に公開した画像生成基盤モデル「Qwen Image」は、Apache 2.0ライセンスのオープンウェイトとして公開されており、商用プロダクトへの組み込みが制限なく行える。2026年2月には生成と編集を統合したQwen-Image-2.0へと進化し、Native 2K解像度対応とProfessional Typography Renderingを備えるに至った（2.0はQwen Chat・API提供が中心で、オープンウェイトとしての公開は確認されていない）。本稿では実装を検討するエンジニアが意思決定に必要な情報――アーキテクチャの変遷・diffusersによる具体的なロード手順・VRAM要件とそのトレードオフ・世代間の差異とライセンスの実態――を一次情報に基づいて整理する。

Qwen Imageのアーキテクチャと公式の位置づけ

Qwen ImageはAlibaba QwenチームがコードをGitHub、モデル重みをHuggingFaceおよびModelScopeで公開している画像生成基盤モデル（image foundation model）である。初版のアーキテクチャはMMDiT（Multimodal Diffusion Transformer）、パラメータ数は20Bと公式GitHubリポジトリ（QwenLM/Qwen-Image）に記載されている。ライセンスはApache 2.0と明記されており、派生モデルの作成・商用配布を含むほぼすべての利用形態が許容される。

モデルファミリーの構造として、「Qwen Image」は生成を主軸とする基盤系列であり、「Qwen-Image-Edit」は編集に特化した別系統のモデルである（Edit / Edit-2509 / Edit-2511 といった複数バージョンが存在する）。この二系統の境界はQwen-Image-2.0世代で実質的に解消されており、生成と編集の統合（unifying image generation and editing in a single mode）が公式に言及されている。編集モデルの動作原理・実装上の差異についてはQwen-Image-Editの解説記事を参照されたい。

Qwenシリーズ全体のテキスト・マルチモーダルモデルとの位置関係を把握するにはQwenシリーズ概要が技術スタックの全体像を理解するうえで役立つ。

Qwen Imageの世代変遷。初版（20B MMDiT、2025年8月）・Qwen-Image-2512（2025年12月）・Qwen-Image-2.0（2026年2月）の3世代における主要な技術変更点を示す。初版と2512のウェイト（Apache 2.0）はHuggingFaceで個別に公開されている（2.0はQwen Chat・APIでの提供が中心で、オープンウェイト公開は確認されていない）。

Qwen Imageのバージョン変遷――各世代の技術的差異を読む

公式GitHubリポジトリ（QwenLM/Qwen-Image）のREADME Newsに記載された履歴を一次情報とし、各世代の変更点を整理する。

初版（2025年8月4日）――20B MMDiTとテキスト描画

モデル重み・技術報告書・公式ブログが同時公開された。アーキテクチャはMMDiT、パラメータ数は20B。この世代の公式強調点は「complex text rendering（複雑なテキスト描画）」であり、英語・中国語を含む多言語テキストを画像内に自然な形で配置できる。拡散モデルが長く苦手としてきた文字の歪み・欠字の問題に対し、アーキテクチャレベルで正面から取り組んだ点が初版の技術的な特徴といえる。

また公式は精密な画像編集機能（スタイル変換・オブジェクト挿入削除・深度推定・超解像）も強みとして挙げている。ただしこれらの編集機能は、当初Qwen-Image-Editという別ウェイトとして提供されていた点に注意が必要だ。

Qwen-Image-2512（2025年12月31日）――AI Arenaオープンソース最強

公式GitHubのREADMEには、このバージョンがAI Arenaランキングで「最強のオープンソース画像モデル」と評価されたと記載されている。同日、Qwen-Image-Lightningと呼ばれる高速化バリアントへの対応も発表された。LightningバリアントはDiffusion Modelの推論ステップ数を削減するアプローチで、生成速度を優先する本番環境における応答時間の短縮に向けられている。Qiitaの技術記事（「Qwen-Image-2512ってなんだ？」）もこのバージョンの性能改善を詳述している（出典：qiita.com/GeneLab_999/items/b7fa8b9f7729c48a51aa）。

Qwen-Image-2.0（2026年2月10日）――3つの技術変更点

公式が明示した技術変更点は四つある。

Professional Typography Rendering：最大1,000トークンの指示から、PPT・ポスター・マンガなどのプロ品質インフォグラフィックを直接生成できるテキスト描画（公式READMEの定義）。単純な文字の配置精度を超え、組版・レイアウトを含む完成度を狙った機能である。
Native 2K解像度：アップスケール処理を経由せず、2K相当の解像度をネイティブで生成する。ポストプロセスによる品質劣化を避けられる点が実装上の利点である。
生成と編集の統合（unifying image generation and editing in a single mode）：それまで別系統だった編集機能を単一モデルに統合した（Gigazineも「Qwen-ImageとQwen-Image-Editを統合したモデル」と報じている）。
Lighter Model Architecture：モデルサイズを小型化し推論速度を向上させた（具体的なパラメータ数は公式README未記載）。

Gigazine（2026年2月12日付）およびwavespeed.aiの技術解説もこれらの点を中心に2.0の特徴を説明している。なお、Qwen-Image-2.0のパラメータ数は公式READMEに記載がないため本稿では断定しない。

2026年4月22日にはQwen公式XおよびModelScopeで「Qwen-Image-2.0-Pro」と呼ばれるAPIバリアントが案内された（出典：lilting.ch、2026年4月）。現時点ではAPI・ModelScopeデモへのアクセスが主であり、オープンウェイトとしての公開状況は継続確認が必要である。

Qwen Imageの実装手順――diffusersによるロードとGPU設定の勘所

HuggingFace公式ページ（huggingface.co/Qwen/Qwen-Image）の手順をもとに、ロード方法を示す。実装の前提として、diffusersライブラリの最新版が必要である（公式ページはgit経由の pip install git+https://github.com/huggingface/diffusers を案内している）。

pip install --upgrade diffusers transformers accelerate

モデルのロードはDiffusionPipelineを使用する。

from diffusers import DiffusionPipeline
import torch

pipeline = DiffusionPipeline.from_pretrained(
    "Qwen/Qwen-Image",
    torch_dtype=torch.bfloat16
)
pipeline = pipeline.to("cuda")

GPU環境ではbfloat16が推奨されている（HuggingFace公式記載）。bfloat16はfloat32と指数部のビット幅（8ビット）が等しく仮数部を7ビットに削減した形式であるため、ダイナミックレンジを保ったままオーバーフロー・アンダーフローを起こしにくく、大規模Transformer系モデルの推論安定性を保ちながらVRAMを約半分に抑えられる。20BパラメータのMMDiTをfloat32でロードすると理論上80GB超のVRAMが必要になる計算であり、コンシューマGPUで動かす場合はbfloat16に加えてint8・int4量子化を組み合わせる選択が現実的になる。

量子化を適用する場合は、Professional Typography Renderingのような細部の描画品質への影響を検証するステップを設けることを強く推奨する。拡散モデルのUNetやTransformerブロックを大幅に量子化すると、テキスト描画の精度が劣化しやすいことが一般的な傾向として知られているためだ。

ComfyUIはQwen Imageをネイティブサポートしている（2025年8月5日、公式README News記載）。ComfyUIベースのワークフローでは追加拡張なしに標準ノードで扱える。

Qwenシリーズのローカル実行全般についてはQwenのセットアップガイドに詳細をまとめている。

Qwen Image の技術的トレードオフ――導入前に判断すべき4点

Apache 2.0ライセンスとオープンウェイト公開は、自社インフラへのオンプレミス展開・ファインチューニング・モデルウェイトの組み込みを制限なく行える点で大きな優位性をもたらす。一方でエンジニアが実装前に把握しておくべきトレードオフが存在する。

1. VRAM要件と量子化の品質トレードオフ：初版のbfloat16換算では、モデル重みだけで約40GB（20Bパラメータ×2バイト）に達する計算である。実際のVRAM消費はテキストエンコーダやアクティベーションでさらに増える。int8量子化を適用すれば要件を下げられるが、Professional Typography Renderingのような細部描画品質への影響を事前に検証する必要がある。量子化手法の選択（GPTQ・AWQ・bitsandbytes等）とモデルの各層への適用範囲は、品質と速度のバランスを決定する重要な設計判断である。

2. 生成速度とLightningバリアントの選択：拡散モデルの推論ステップ数はサンプリングスケジューラの選択に強く依存する。Qwen-Image-Lightningバリアントは高速化に対応しているが、初版・2512・2.0・Lightningの各ウェイトはそれぞれ別物であり、用途に応じたウェイト選択が求められる。本番パイプラインで世代とバリアントを後から切り替えると、出力品質の分布が変わるため回帰テストの設計が煩雑になる点に留意されたい。

3. 編集機能と世代選択の整合性：Qwen-Image-2.0以降は生成と編集が単一モデルに統合されているが、それ以前の世代でインペインティング・スタイル変換・超解像を実行するにはQwen-Image-Editの別ウェイトをロードする構成が必要になる。パイプライン設計の段階で採用する世代を確定し、ウェイト管理の複雑さを事前に制御することが実装上の重要な勘所である。

4. 日本語プロンプトと日本語テキスト描画の区別：多言語テキスト描画は「画像内に日本語テキストを描き込む」能力であり、「日本語プロンプトによる高精度な画像生成」とは別の問題である。プロンプトの言語選択では英語のほうが安定することが多く、日本語プロンプトの有効性は実装環境での実証的な確認が必要だ。この点はQwen Imageに限らず多言語対応拡散モデル全般に共通する注意点である。

Qwenシリーズの各バリアント間のアーキテクチャの違いについてはQwenモデルの違いを解説した記事、API利用時のコスト設計についてはQwen料金体系の解説を参照されたい。また最新のQwen3テキストモデルとの技術的な系譜についてはQwen3の解説記事が参考になる。

Qwen Image 世代間の技術仕様比較（初版と2.0）

Qwen Imageの世代間の技術仕様の違いを以下の表に示す。比較項目は公式ドキュメントで確認できた範囲に限定し、ベンチマークスコアの数値は公式未記載のものを含まない方針をとった。ライセンス条件は各社公式ページで最新版を確認すること。

モデル	ライセンス	アーキテクチャ	テキスト描画	最大解像度	商用利用	生成・編集統合
Qwen-Image 初版	Apache 2.0	MMDiT (20B)	多言語対応（英・中ほか）	公式未記載	可	別ウェイト必要
Qwen-Image-2.0	公式未記載（ウェイト未公開・API提供中心）	MMDiT系（パラメータ数非公開）	Professional Typography Rendering	Native 2K	API経由（規約に依存）	統合（single mode）

Qwen Imageの最大の差別化点は「Apache 2.0による制限なし商用利用」と「多言語テキスト描画の明示的サポート」の組み合わせにある。日本語・中国語テキストを含む制作物をオープンウェイトで扱う要件がある場合、このモデルを選ぶ技術的根拠は具体的に存在する。

なお、JST（科学技術振興機構）のSpapレポート（2026年3月）によれば、オープンソースLLMの最新ランキングではQwen 3.5が首位を占めたと報告されている（出典：spap.jst.go.jp/china/news/260301/topic_1_03.html）。これはテキストモデルの評価だが、Qwenシリーズ全体のオープンウェイト技術水準の高さを示す参照点として有用である。

GoogleのImagen系との比較はGemini Imagenの解説記事、画像を扱う周辺技術としてAI画像認識の基礎や画像分類の技術解説も、モデル選定の背景知識として参照されたい。

参考文献

QwenLM/Qwen-Image GitHub README（2026-07-02取得）: https://github.com/QwenLM/Qwen-Image
HuggingFace Qwen/Qwen-Image（2026-07-02取得）: https://huggingface.co/Qwen/Qwen-Image
Gigazine「画像生成AI『Qwen-Image-2.0』が登場、実写と文字に強くEditモデルとの統合も果たす」（2026-02-12）: https://gigazine.net/news/20260212-qwen-image-2/
Qiita「Qwen-Image-2512ってなんだ？〜オープンソース最強の画像生成AIを完全攻略〜」: https://qiita.com/GeneLab_999/items/b7fa8b9f7729c48a51aa
wavespeed.ai「Qwen Image 2.0とは？アーキテクチャ・機能・ベンチマーク」: https://wavespeed.ai/blog/ja/posts/blog-what-is-qwen-image-2-0-features-benchmarks/
lilting.ch「Qwen-Image-2.0-Proは今のところAPI側の強化に見える」（2026-04）: https://lilting.ch/articles/qwen-image-2-pro-api-release
JST Spap「オープンソースLLM最新ランキング、Qwen 3.5が首位」（2026-03）: https://spap.jst.go.jp/china/news/260301/topic_1_03.html
Alibaba Cloud Model Studio — Supported Models（2026-06-08取得）: https://www.alibabacloud.com/help/en/model-studio/models

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

Study about AI

AIについて学ぶ

GitHub Copilotとは？料金・使い方・Microsoft Copilotとの違いをやさしく解説【2026年版】

「GitHub Copilot（ギットハブ・コパイロット）って、MicrosoftのCopilotと何が違うの？」——名前が似ているためよく混同されますが、両者...
生成AI メンタルヘルスリスクと企業対策——ChatGPT訴訟が問う脆弱ユーザー保護の実務

ChatGPTが宗教的妄想を増幅した——米国訴訟が示す生成AI メンタルヘルスリスクの核心 2025年、カリフォルニア州在住の競技パワーリフター、34歳のマイ...
AI面接の通過率を上げる受け方｜落ちる人の共通点と今すぐできる対策

「手応えがあったのに、なぜ落ちたのだろう」——AI面接のフィードバックを何度読み返しても、どこが悪かったのか腑に落ちない。その感覚はおかしくない。AI面接の評価...