blog

Qwen VL完全解説――アーキテクチャから実装・限界まで【2026年版】

Qwen VL完全解説――アーキテクチャから実装・限界まで【2026年版】

Qwen VLとは――視覚と言語を統合処理するマルチモーダルモデルの系譜

Qwen VL(Qwen Visual Language)は、Alibaba CloudのQwenチームが開発する大規模視覚言語モデル(Vision-Language Model)の系列である。テキスト処理に特化したQwen言語モデルを基盤としながら、ビジュアルエンコーダとクロスモーダルアダプターを接続することで、画像・動画・文書レイアウトといった視覚情報とテキストを同一の推論コンテキスト内で扱える。

2023年9月に初代Qwen-VL(約9.6Bパラメータ)が公開されて以降、Qwen2-VL(2024年10月)、Qwen2.5-VL(2025年1月)、そして現行世代のQwen3-VL(2025年)へと急速に進化している。JST J-GLOBALに収録された研究論文「Qwen-VL:理解,位置決め,テキスト読解,およびその他のための多目的マルチモーダル大規模言語モデル」(jglobal.jst.go.jp)は、初代Qwen-VLが画像理解・テキスト認識・視覚的グラウンディングを統合的に扱う設計思想を持つことを示しており、この方向性は現在も一貫している。

重要な構造的区別として、Qwen VLシリーズには「クローズドAPI(Model Studio/DashScope経由)」と「オープンウェイト(Apache 2.0でHugging Faceから無料ダウンロード可能)」の二層構造が存在する。Qwen2.5-VL・Qwen3-VLといったオープンウェイトモデルはローカル実行・商用利用が可能だが、クローズドのqwen-vl-maxはモデル重みが非公開であり、APIを通じてのみ利用できる。この二層構造の詳細についてはQwenシリーズ全体を扱ったQwenとはの記事も参照されたい。

Qwen VLの処理フロー:入力からビジュアルエンコーダ・アダプター・LLM本体・出力まで 入力 画像・動画 テキスト ビジュアル エンコーダ SigLIP2ベース アダプター 視覚トークンを 言語空間に変換 LLM本体 Qwen Transformer M-RoPE適用 出力 テキスト回答 座標・JSON等
図1:Qwen VLの処理フロー。ビジュアルエンコーダが画像を視覚トークンに変換し、アダプター経由でLLMが言語生成を行う

Qwen VLのアーキテクチャ――SigLIP2・動的解像度・M-RoPEの原理

Qwen VLの内部構造は「ビジュアルエンコーダ」「クロスモーダルアダプター」「言語モデル本体」の三層から成る。各層の役割と、世代を経て加えられた技術革新を以下に示す。

ビジュアルエンコーダ:SigLIP2の採用

Qiitaに掲載されたQwen3-VLアーキテクチャ調査(qiita.com/yamadan96)によれば、Qwen3-VLのビジュアルエンコーダにはSigLIP2(Sigmoid Loss for Language Image Pre-training 2)が採用されている。Vision Transformerベースのモデルであり、画像をパッチ単位でベクトル化する。シグモイド損失を用いた学習効率の改善が特徴とされ、多様な解像度・縦横比の画像に対して安定した特徴抽出を行う点が従来のCLIPとの主な差異となる。

Qwen2-VL世代から導入されたNaive Dynamic Resolution(動的解像度処理)は、入力画像のサイズに応じてパッチ数を動的に決定する機構である。従来の固定解像度リサイズでは縦長の文書やパノラマ画像で空間情報が失われやすかったが、動的解像度処理によって高解像度書類・図面・スクリーンショットを歪みなく処理できるようになった。

クロスモーダルアダプター

ビジュアルエンコーダが出力する視覚トークンは、次元数・数量ともLLMの入力フォーマットとは異なる。アダプター層はこの変換を担い、Qwen2-VL以降ではテキストトークンと視覚トークンが同一シーケンス内で相互参照できる構造が採用されている。これにより、画像中の特定要素とテキストの対応関係——すなわちグラウンディング精度——が大幅に向上した。

言語モデル本体:M-RoPEの導入

変換されたマルチモーダルトークン列は、QwenのTransformerベースLLMが処理する。Qwen2-VLで導入されたMultimodal Rotary Position Embedding(M-RoPE)は、画像内の2次元座標と動画フレームの時刻情報を位置埋め込みとして扱う仕組みである。これにより「動画の〇秒時点で何が起きたか」「画像内の特定要素はどの座標に位置するか」という問いに対し、空間・時間的な文脈を保持した回答が可能になった。

なお、映像データと参照データの連関度に基づき事象評価を行う観点は、当社が保有する特許6260979(事象評価支援システム)が扱う課題とも関連する領域である。

世代変遷と現行ラインナップ――Qwen VL系列の全体像

Qwen VLシリーズは2023年から現在まで複数世代にわたる進化を遂げている。各世代の主要な変更点と現在の位置づけを以下の表に整理する。

世代・モデル名 公開時期 主要サイズ 主な技術革新 利用形態
Qwen-VL / VL-Chat 2023年9月 約9.6B 画像キャプション・OCR・グラウンディング。RLHF対話版を併設 オープンウェイト
Qwen2-VL 2024年10月 2B / 7B / 72B 動的解像度処理・M-RoPE導入。動画理解・多言語OCR強化 オープンウェイト
Qwen2.5-VL 2025年1月 3B / 7B / 32B / 72B GUIエージェント機能・長尺動画・高精度文書解析・数式認識 オープンウェイト+API
Qwen3-VL(現行最新) 2025年 235B-A22B(MoE)等 SigLIP2採用・画像動画理解の最新世代・MoEアーキテクチャ Apache 2.0オープンウェイト

現行のオープンウェイト最新世代はQwen3-VLである。代表モデルQwen3-VL-235B-A22B-InstructはMoEアーキテクチャ(総235Bパラメータ、活性化22B)を採用し、Apache 2.0ライセンスのもとHugging Faceから無料ダウンロード・商用利用が可能だ(HuggingFace Qwen3コレクション、アクセス: 2026-06-08)。Qwen2.5-VLは3B〜72Bのサイズ展開があり、ローカル推論やコスト重視の用途で引き続き有力な選択肢となる。

なお、「qwen-vl-max」「qwen-vl-plus」といったModel Studio(DashScope API)の識別子はクローズドAPIのエンドポイント名であり、Qwen2.5-VLやQwen3-VLのオープンウェイト版とは別物である。この混同は実装上のトラブルの原因となりやすい。APIの料金体系や各エンドポイントのコスト試算についてはQwen料金の記事で詳述している。また、Qwen3シリーズ全体のテキスト言語モデルについてはQwen3の記事も参照されたい。

Qwen VLによる複雑なレイアウト文書からの構造化情報抽出を示す概念図
図2:Qwen VLによる文書構造解析のイメージ。ヘッダー・表・段落を識別しながら構造化データを出力する

Qwen VLが得意なタスクと苦手なタスク――能力の範囲と限界

Qwen VLを実務に投入する前に、その能力の範囲と限界を正確に把握することが重要である。以下はアーキテクチャの特性と公開研究に基づいた評価である。

得意なタスク領域

高精度OCRと文書解析:動的解像度処理により、日本語・中国語・英語を含む多言語の手書き文字や複雑なレイアウト文書からのテキスト抽出精度が高い。JST J-GLOBALに収録された研究「Enhanced Qwen-VL 7B Model via Instruction Finetuning on Chinese…」(jglobal.jst.go.jp)は、中国語を含む多言語文書への対応強化が初期から重要な研究課題であったことを示している。請求書・契約書などのフィールド抽出では専用OCRツールに匹敵する結果が報告されている。

視覚的グラウンディング(座標付き回答):画像内の特定要素のバウンディングボックス座標を返す機能は、GUIエージェントとの組み合わせで特に有用である。「このボタンはどこか」「赤い枠はどの位置か」といった問いに対し、ピクセル座標を含む回答を返せる。

チャート・グラフからの数値抽出:折れ線グラフや棒グラフから数値を読み取り、増減トレンドを説明するタスクに強みがある。数式画像からのLaTeX変換、表のMarkdown/CSV化なども得意領域だ。

動画の時系列理解:M-RoPEによるフレーム時刻の位置埋め込みにより、「〇秒時点で何が起きたか」「変化が生じたシーンはどこか」という時間軸を伴う問いへの応答精度が向上している。

医用画像の解釈支援(研究段階):JST J-GLOBALに収録された「Quen-VLおよびDeepSeek-V3大規模モデルに基づく医用画像解釈」(jglobal.jst.go.jp、2026年)は、Qwen-VLが医療分野の画像解釈タスクへ応用されていることを示している。ただし医療診断への実用は現時点で研究段階であり、臨床応用には専門家による厳格な検証が不可欠である。

苦手なタスク・注意が必要な領域

微細な色差の識別:非常に近似した色調の比較では誤認が生じやすい。この限界はビジュアルエンコーダの特徴ベクトル化の粒度に起因する。

超高解像度画像の全体把握:4K以上の画像でも処理は可能だが、動的解像度処理のパッチ数上限によりごく細かい要素が欠落するケースがある。重要な細部を含む場合は対象領域をトリミングして再入力する対処が現実的だ。

リアルタイム映像処理:APIのレイテンシの制約から、ストリーミング動画をフレームごとにリアルタイム解析する用途には現状対応しにくい。

精密な3D空間理解:奥行き・立体構造の精密な把握は、専用の3D推論モデルには及ばない。深度推定や点群処理が必要な用途には別途専用モデルの併用を検討すべきである。

LoRAファインチューニングによる性能向上については、Zennに掲載された「Qwen-VLモデル徹底解剖:LoRAチューニングによる性能向上の道筋」(zenn.dev/shromesh)が参考になる。特定ドメインのデータでファインチューニングを施すことで、上記の苦手領域を補える可能性がある。

主要マルチモーダルモデルとの比較――視覚言語モデルとしての位置づけ

モデル選定の判断軸として、Qwen VLと他の代表的なVLMを比較する。Qwenシリーズ全体の総合比較はQwen比較の記事に委ねるが、視覚言語モデルとしての特性に絞って要点を整理する。

モデル 文書解析・OCR 動画理解 グラウンディング オープンウェイト 主な制約
Qwen3-VL / Qwen2.5-VL 72B ○ Apache 2.0 大規模モデルの推論コスト
GPT-4o × クローズド コスト・モデル非公開
Gemini 1.5 Pro 強(超長尺) × クローズド コスト・モデル非公開
InternVL2 日本語対応・エコシステムの小ささ
LLaVA系 OCR・文書解析の精度

Qwen VL系列の相対的な強みは「文書解析・OCR・グラウンディングの三要素をオープンウェイトで実現している」点にある。GPT-4oやGemini 1.5 Proはクローズドモデルであり、セルフホストやオンプレミス運用を要するプロジェクトでは採用できない。Qwen2.5-VL(7B〜72B)およびQwen3-VLはApache 2.0ライセンスでローカル実行が可能であり、機密性の高い文書を外部APIに送信せずに処理できる点は実務上の大きな利点となる。他モデルとのより詳細な性能・コスト比較はQwenの違いの記事でも取り上げている。

APIおよびローカル実行の選択基準と実装上の注意点

Qwen VLの利用形態は大きく「Alibaba Cloud Model Studio(DashScope API)経由のクラウド利用」と「Transformers・Ollama・vLLMによるセルフホスト」に分かれる。どちらを選ぶかはセキュリティ要件・スループット・コストの三要素で決まることが多い。

クラウドAPI(Model Studio / DashScope)

Alibaba Cloud Model StudioはOpenAI互換エンドポイントを提供しており、既存のOpenAI SDK資産をそのまま流用できる。エンドポイント https://dashscope-intl.aliyuncs.com/compatible-mode/v1 に対し、モデル名として qwen-vl-maxqwen2.5-vl-72b-instruct を指定することで呼び出せる。画像はBase64エンコードかURLで渡す形式が標準だ。料金はトークン課金(入力・出力それぞれ)と画像トークン課金の組み合わせで発生する。最新の単価はAlibaba Cloud公式のModel Studio料金ページ(アクセス: 2026-06-08)で確認されたい。

以下は最小構成のPythonコードである。

import base64
from openai import OpenAI

client = OpenAI(
api_key=“YOUR_DASHSCOPE_API_KEY”,
base_url=“https://dashscope-intl.aliyuncs.com/compatible-mode/v1”
)

# 画像をBase64エンコード
with open(“document.png”, “rb”) as f:
image_data = base64.b64encode(f.read()).decode(“utf-8”)

response = client.chat.completions.create(
model=“qwen-vl-max”,
messages=[{
“role”: “user”,
“content”: [
{“type”: “image_url”,
“image_url”: {“url”: f“data:image/png;base64,{image_data}”}},
{“type”: “text”,
“text”: “この画像に含まれる表をMarkdown形式で出力してください。”}
]
}]
)

print(response.choices[0].message.content)

セルフホスト(Transformers / Ollama / vLLM)

Qwen2.5-VL・Qwen3-VLはHugging FaceからApache 2.0で無料ダウンロードできる。transformersライブラリではQwen2.5-VL-7B-Instructを直接ロードでき、4bit量子化(bitsandbytes)を使用すればVRAM約8GB程度での動作が目安となる。Ollamaは量子化済みQwen2.5-VLモデルをサポートしており、ollama pull qwen2.5-vl:7b 一行でモデルを取得してローカル推論を開始できる。Apple Silicon(M2 Pro以降を推奨)でも7Bモデルは実用的な応答速度で動作するとされている。本番環境で複数リクエストを並列処理する場合はvLLMによるOpenAI互換サーバーが適しており、既存コードのbase_urlを書き換えるだけで移行できる。環境構築の具体的な手順はQwen導入の記事で詳述している。

プロンプト設計の実践的な注意点

出力フォーマットの明示:「JSON形式で出力し、キーはdate・amount・vendorの3つとする」のように構造を指定すると後工程のパース処理が安定する。形式指定なしでは自然文による説明が返ってくることがある。

処理ステップの分割:「まず画像内のテーブルをすべて列挙し、その後に各テーブルの内容を説明する」のように段階的に指示することで、複雑なレイアウト文書での見落としを抑えやすくなる。

入力画像の前処理:スキャンの歪み・低コントラスト・低解像度がある場合、OpenCVやPillowで補正してから渡すほうが認識精度の向上に直結する。モデルに補正を依頼するより入力を整える側が効果的だ。

多画像入力のコスト管理:1リクエストに複数画像を含めることができるが、画像数・解像度が増えるほどトークン消費が急増する。バッチ処理では必ずコストを試算した上で入力枚数と解像度を調整すること。

Qwenシリーズの画像編集・生成機能についてはQwen画像編集の記事でも取り上げている。コーディング特化モデルとの棲み分けについてはQwen Coder、音声合成モデルについてはQwen TTSの記事も参照されたい。

弊社が開発するバーチャルヒューマン・AIアバターソリューション「DeepAI」では、リップシンク・表情生成・音声合成・対話AIを組み合わせた接客・研修・広報向けの用途に注力している。Qwen VLのような視覚言語モデルは、映像データ中の人物の表情や動作を解析する場面においてコンポーネントとして組み合わせ可能な技術として注目している。

テキストと画像を統合処理するマルチモーダルAIの情報フローを示す概念図
図3:テキストと画像を統合して処理するマルチモーダルAIの情報フロー概念図

まとめ――Qwen VLの現在地と選択基準

Qwen VLシリーズは、動的解像度処理・M-RoPE・SigLIP2といったアーキテクチャ革新を重ねることで、文書解析・OCR・視覚的グラウンディング・動画理解の各領域でクローズドモデルと競合できる水準に達している。現行のオープンウェイト最新世代Qwen3-VL(Qwen3-VL-235B-A22B-Instruct等)と、豊富なサイズ展開(3B〜72B)を持つQwen2.5-VLが両輪となり、コスト・精度・セルフホスト要件に応じた柔軟な選択が可能だ。

選択の基準をまとめると次のようになる。機密性の高い文書を外部サーバーに送れない場合や推論コストを極小化したい場合はQwen2.5-VL-7B〜72BのセルフホストをVRAM量に応じて選ぶ。最高精度を求めるクラウド用途にはModel StudioのAPI経由でqwen-vl-maxを利用する。最新アーキテクチャを研究・評価したい場合はQwen3-VL-235B-A22B-InstructをHugging Faceから取得する、という三段構えが現実的だ。

一方、微細な色差の識別・精密な3D空間理解・リアルタイムストリーミング処理については現状の限界を認識した上でシステム設計することが重要である。これらの限界を無視して本番投入すると、想定外の誤認識が生じる可能性がある。

  • Qwen全体の概要・モデル系列の全体像:Qwenとは
  • 環境構築・導入手順:Qwen導入
  • API料金・コスト試算:Qwen料金
  • 他モデルとの総合比較:Qwen比較
  • Qwen3テキストモデルの詳細:Qwen3

参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • 生成AIオンプレミス導入と規制リスク——Anthropic輸出規制が示す自社インフラ回帰の必然

    生成AIオンプレミス導入と規制リスク——Anthropic輸出規制が示す自社インフラ回帰の必然

    Anthropicの輸出規制命令——生成AIオンプレミス導入が「規制リスク対策」に変わった瞬間 2026年6月、米国政府はAnthropicに対し、新モデル「M...

  • EU AI規制 企業対応の実務——ENISAとAnthropicの協議が示す日本企業への含意

    EU AI規制 企業対応の実務——ENISAとAnthropicの協議が示す日本企業への含意

    ENISAがAnthropicと直接協議——EU AI規制の監視が生成AIへ本格移行 欧州サイバーセキュリティ機関ENISA(European Union Ag...

  • Claude障害が招く業務影響と対策——AI依存リスクの経営管理指針

    Claude障害が招く業務影響と対策——AI依存リスクの経営管理指針

    Claude障害の実態:2026年6月インシデントが示すもの 2026年6月18日、AnthropicのAIチャットボット「Claude」(claude.ai)...

View more