blog
AIブログ
Qwen-VL(画像認識)とは?使い方・活用例【2026年版】
Qwen VLとは――テキストと画像を同時に理解するマルチモーダルモデル
Qwen VL(Qwen Visual Language)は、Alibaba Cloudが開発したQwenシリーズのマルチモーダル大規模言語モデルです。テキストだけでなく、画像・動画・文書レイアウトなど視覚情報を同時に入力・処理できる点が最大の特徴で、2023年の初公開以降、精度・処理速度・対応タスクのいずれも急速に進化しています。GPT-4oやGemini 1.5 Proと同等以上のベンチマーク結果を示すバージョンも登場しており、オープンウェイト(重みの公開)モデルとしては世界最高水準の一角を担っています。
本記事では「Qwen VLとは何か」という基礎から、アーキテクチャの仕組み、主要バージョンの変遷、得意・不得意なタスク、APIやローカルでの実践的な使い方、そして実運用で得た知見まで徹底的に解説します。Qwen全体の概要についてはQwen とはの記事をご参照ください。
Qwen VLのアーキテクチャ――どうやって「見て・読む」のか
Qwen VLは、大きく「ビジュアルエンコーダ」「クロスモーダルアダプター」「言語モデル本体」の3層構造で動作します。それぞれの役割を理解すると、なぜ高精度な画像理解が実現できるのかが分かります。
画像 / 動画
テキスト
エンコーダ
ViT系モデル
(高解像度対応)
視覚特徴を
言語空間に変換
Qwenテキスト
モデル
テキスト回答
(座標・JSON等も可)
ビジュアルエンコーダ
Vision Transformer(ViT)ベースの大規模エンコーダが画像をパッチ(小領域)に分割してベクトル化します。Qwen2-VLからはNaive Dynamic Resolution(動的解像度処理)を採用しており、入力画像の縦横サイズに応じてパッチ数を動的に決定します。従来は固定解像度にリサイズして情報を失っていましたが、この機構によって高解像度の書類・図面・スクリーンショットを精度よく処理できます。
クロスモーダルアダプター(Resampler/Connector)
ビジュアルエンコーダが出力する視覚トークンは次元数や数量がLLMの入力フォーマットと異なります。アダプター層がこれを言語モデルが扱えるトークン列に変換します。Qwen2-VLではこの変換ロスを最小化するためアーキテクチャが大幅に改善され、テキストと視覚トークンが同一シーケンス内で相互参照できる構造になりました。
言語モデル本体
変換されたマルチモーダルトークン列を、QwenのトランスフォーマーベースLLMが通常のテキスト生成と同様に処理します。Qwen2-VLではMultimodal Rotary Position Embedding(M-RoPE)を導入し、画像内の2次元座標と動画のフレーム時刻を位置情報として扱えるようにしています。これが「動画を1フレームずつ理解する」精度向上の鍵です。
主要バージョンの変遷と性能比較
Qwen VLは2023年後半から急ピッチでバージョンアップが続いています。各バージョンの主な変更点と位置づけを把握しておくと、自分のユースケースに合ったモデルを選びやすくなります。
| バージョン | 公開時期 | パラメータ数(主要) | 主な改善点 |
|---|---|---|---|
| Qwen-VL | 2023年9月 | 約9.6B | 初版。画像キャプション・OCR・グラウンディング対応 |
| Qwen-VL-Chat | 2023年9月 | 約9.6B | RLHF適用。対話的な画像Q&A向けにチューニング |
| Qwen2-VL | 2024年10月 | 2B / 7B / 72B | 動的解像度・M-RoPE・動画理解・多言語OCR強化 |
| Qwen2.5-VL | 2025年1月 | 3B / 7B / 32B / 72B | エージェント機能・文書解析・数式認識・動画長尺化 |
| Qwen3-VL | 2025年(オープンウェイト公開) | 235B-A22B(MoE)等 | 画像・動画理解の最新世代。Apache 2.0で公開 |
Qwen3-VLが現在のオープンウェイト最新世代
Qwen VLシリーズの最新世代はQwen3-VLです。代表モデルであるQwen3-VL-235B-A22B-InstructはMoEアーキテクチャ(総235B/活性22Bパラメータ)を採用し、Apache 2.0ライセンスでHugging Faceから無料ダウンロード・商用利用が可能です。画像・動画理解の両面でQwen2.5-VLから大幅に強化されており、オープンウェイトVLモデルとして現行の最上位に位置します。一方、Qwen2.5-VL(3B〜72B)も引き続きHugging Faceで公開されており、ローカル推論やコスト重視の用途では依然として有力な選択肢です。MMBench・DocVQA・TextVQAなどの主要ベンチマークで72Bモデルがクローズドモデルを含む上位グループに並ぶ結果を記録しています。

Qwen VLが得意なタスクと苦手なタスク
実運用でQwen VLを複数のプロジェクトに投入してきた経験から、得意・不得意の傾向を整理します。モデル選定の際の参考にしてください。
得意なタスク
- 高精度OCR・文書解析:日本語・中国語・英語を含む多言語の手書き文字や複雑なレイアウト文書からのテキスト抽出。領収書・請求書・契約書のフィールド抽出では専用OCRツールに匹敵する精度が出ます。
- グラウンディング(座標付き回答):「このボタンはどこか」「赤い枠はどこか」など、画像内の特定要素の座標(バウンディングボックス)を返す機能。GUI自動操作エージェントの基盤として使えます。
- チャート・グラフの読み取り:折れ線グラフや棒グラフから数値を抽出し、増減トレンドを説明するタスクで高い精度を発揮します。
- 動画の時系列理解:M-RoPEのおかげでフレーム間の変化を追跡でき、「〇秒時点で何が起きたか」「どのシーンがハイライトか」といった問いに答えられます。
- 数式・表・コードのスクリーンショット解析:数式画像からLaTeXへの変換、表のMarkdown/CSV化など、テキストへの変換タスクに強みがあります。
苦手・注意が必要なタスク
- 微細な色差の識別:非常に似た色調の比較(デザインカラーの微妙なトーン差など)は誤認しやすいです。
- 超高解像度の全体把握:4K以上の画像でも処理は可能ですが、動的解像度処理のパッチ数上限によりごく細かい要素が欠落することがあります。重要な細部がある場合はトリミングして再入力する回避策が有効です。
- リアルタイム映像処理:APIのレイテンシの関係で、ストリーミング動画をフレームごとにリアルタイム解析する用途には現状不向きです。
- 深い3D空間理解:奥行き・立体構造の精密な把握は専用の3Dモデルに及びません。
Qwen2.5-VLの注目機能――エージェント・文書・動画
実用面で特に評価の高いQwen2.5-VLの機能のうち、注目度が高い3点を詳しく解説します。最新世代のQwen3-VLはこれらをさらに強化した後継として位置づけられています。
1. GUIエージェント機能
スマートフォン画面やデスクトップのスクリーンショットを入力として、「次にクリックすべき座標と操作」を出力する機能です。AndroidエミュレーターやWindows自動化ツールと組み合わせることで、RPA的なGUI自動操作が実現します。弊社での検証では、Webフォームへの入力・ボタンクリック・メニュー選択といった反復操作を7Bモデルで約70〜80%の成功率で遂行できました。複雑なフロー(認証+フォーム入力+確認)では72Bモデルへのフォールバックが現実的な選択肢です。
2. 長尺動画理解
Qwen2.5-VLは最大で数十分〜1時間規模の動画を処理できます(フレームサンプリングにより実用化)。会議録画から議題ごとの要約を生成する、製造ラインの動画から異常シーンを特定する、といったユースケースで特に価値があります。実運用では「フレームレートを1fps程度に落として渡す+重要シーンの手がかりを質問文に含める」ことで精度が安定します。
3. 高精度文書解析(Document Parsing)
PDFや画像形式の請求書・契約書・論文などを構造化データとして出力するタスクです。Qwen2.5-VLはレイアウト情報(ヘッダー・表・段落の区別)を保持しながらMarkdownやJSONへ変換できます。日本語文書については縦書き・混在レイアウトでの精度がまだ完全ではありませんが、横書きの業務文書では実用的な結果が出ています。
APIでQwen VLを使う――基本的な呼び出し方
Alibaba CloudのModel Studio(DashScope API、OpenAI互換エンドポイント)を通じてQwen VLを呼び出せます。以下は最小構成のPythonコードです。
from openai import OpenAI
client = OpenAI(
api_key=“YOUR_DASHSCOPE_API_KEY”,
base_url=“https://dashscope-intl.aliyuncs.com/compatible-mode/v1”
)
# 画像をBase64エンコード
with open(“document.png”, “rb”) as f:
image_data = base64.b64encode(f.read()).decode(“utf-8”)
response = client.chat.completions.create(
model=“qwen-vl-max”,
messages=[{
“role”: “user”,
“content”: [
{“type”: “image_url”,
“image_url”: {“url”: f“data:image/png;base64,{image_data}”}},
{“type”: “text”,
“text”: “この画像に含まれる表をMarkdown形式で出力してください。”}
]
}]
)
print(response.choices[0].message.content)
モデル名の選び方(Model Studio / DashScope)
| モデル名 | ベース | 特徴・推奨用途 |
|---|---|---|
| qwen-vl-max | Qwen VL 最上位相当 | 最高精度。複雑な文書・エージェント用途 |
| qwen-vl-plus | Qwen VL バランス型相当 | コスパ優先。大量バッチ処理・一般的なOCR |
| qwen2.5-vl-72b-instruct | Qwen2.5-VL 72B | オープンウェイト大規模モデルの直接指定 |
| qwen2.5-vl-7b-instruct | Qwen2.5-VL 7B | ローカル推論・セルフホストに最適 |
利用可能なモデルの最新一覧と料金体系(入力トークン・画像トークンの課金単位など)はAlibaba Cloud Model Studio 公式ドキュメントおよびQwen 料金の記事で体系的にまとめています。
ローカルで動かす――Transformers / Ollama / vLLM
セキュリティ要件が厳しい業務やコスト削減を目的にローカル実行したい場合、主に3つの手段があります。Qwen2.5-VL・Qwen3-VLのいずれもHugging FaceからApache 2.0ライセンスで無料ダウンロードできます。
Hugging Face Transformers(推論コード例)
Qwen2.5-VLはHugging Faceで公式に公開されており、transformersライブラリから直接ロードできます。7Bモデルの場合、4bit量子化(bitsandbytes)を使えばVRAM約8GBで動作します。
from qwen_vl_utils import process_vision_info
import torch
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
“Qwen/Qwen2.5-VL-7B-Instruct”,
torch_dtype=torch.bfloat16,
device_map=“auto”
)
processor = AutoProcessor.from_pretrained(“Qwen/Qwen2.5-VL-7B-Instruct”)
messages = [{
“role”: “user”,
“content”: [
{“type”: “image”, “image”: “./sample.jpg”},
{“type”: “text”, “text”: “画像を日本語で詳しく説明してください。”}
]
}]
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(text=[text], images=image_inputs, return_tensors=“pt”).to(“cuda”)
output = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(output[0][inputs.input_ids.shape[1]:], skip_special_tokens=True))
Ollamaでの手軽な実行
OllamaはQwen2.5-VLの量子化モデルを公式サポートしています。コマンド一行で試せる手軽さが魅力です。
ollama run qwen2.5-vl:7b
チャット画面で画像ファイルのパスを指定するか、APIモード(http://localhost:11434/api/chat)から画像Base64を渡して呼び出せます。MacのApple Silicon(M2 Pro以上を推奨)でも7Bモデルは実用的な速度で動作します。
vLLMによる高スループット推論
本番環境で複数ユーザーが同時リクエストを送る場合はvLLMが適しています。OpenAI互換サーバーとして起動でき、既存コードをほぼそのまま流用できます。72BモデルをA100 80GB×2でvLLM展開した場合、画像1枚+質問の処理で約2〜4秒のレイテンシが目安です(バッチサイズ・解像度に依存)。
導入・環境構築の具体的な手順はQwen 導入の記事で詳しく解説しています。
他のマルチモーダルモデルとの比較
実務でモデルを選定する際の判断軸として、主要モデルとの比較を整理します。詳細な総合比較はQwen 比較の記事に委ねますが、VL固有の観点で要点を示します。
| モデル | 強み | 弱み | オープンウェイト |
|---|---|---|---|
| Qwen3-VL / Qwen2.5-VL 72B | 文書解析・OCR・エージェント・多言語 | クラウドコスト・レイテンシ | ○ |
| GPT-4o | 汎用性・安定性・エコシステム | コスト・クローズド | × |
| Gemini 1.5 Pro | 超長コンテキスト・動画(長尺) | クローズド・価格 | × |
| LLaVA系 | 軽量・カスタマイズ性 | OCR・文書解析の精度 | ○ |
| InternVL2 | 高解像度理解・数学 | 日本語対応・エコシステム | ○ |
弊社が複数プロジェクトで実際にテストした印象では、日本語の業務文書(PDFや画像スキャン)を構造化するタスクにおいて、Qwen2.5-VL 7BはGPT-4o miniを上回るケースが多く、コスト効率が際立っていました。一方、グラフの自然言語説明や微妙なニュアンスを含む記述が求められるタスクでは、GPT-4oの方が出力品質が安定していた場面もありました。用途ごとの選定が重要です。

実運用のTips――精度を上げるプロンプト設計
Qwen VLを実案件で使う中で効果が確認できた設計パターンをまとめます。
出力フォーマットを明示する
「JSON形式で出力してください。キーは date, amount, vendor の3つ」のように出力構造を指定すると、後工程のパース処理が安定します。特に文書抽出タスクでは形式指定なしだと自然文で説明してしまうことがあります。
処理ステップを分割する
「まず画像内のテーブルをすべて列挙し、その後に各テーブルの内容を説明してください」のように、タスクを段階的に指示することで見落としが減ります。複雑なレイアウト文書では特に有効です。
低品質画像は前処理してから渡す
スキャンのゆがみ・コントラスト不足・低解像度がある場合、OpenCVや Pillow で前処理(deskew・コントラスト補正・超解像)してから渡すと認識精度が明確に改善します。モデル側に「補正して読んで」と頼むより、入力を整えるほうが効果的です。
多画像入力を活用する
Qwen VLは1リクエストに複数画像を含めることができます。「これら3ページの請求書から合計金額を計算してください」のような処理も1回のAPI呼び出しで完結します。ただし画像数・解像度が増えるとトークン消費が急増するため、バッチ処理では常にコストを試算しておくことを推奨します。
まとめ
Qwen VLは、テキストと視覚情報を統合して処理するマルチモーダルモデルとして急速に実用水準に達しています。最新世代のQwen3-VL(Qwen3-VL-235B-A22B-InstructなどをApache 2.0で公開)と、実績あるQwen2.5-VLシリーズ(3B〜72B)が両輪となり、文書解析・OCR・GUIエージェント・動画理解といった実務直結のタスクで、クローズドモデルと渡り合える性能をオープンウェイトで提供している点が最大の強みです。
- 高解像度の動的処理とM-RoPEにより、画像・動画の構造的な理解精度が大幅に向上
- Qwen2.5-VL(2B〜72B)・Qwen3-VL(MoE含む)のラインナップにより、コスト・精度・ローカル実行性のトレードオフを柔軟に選択可能
- Model Studio(DashScope)API経由のクラウド利用と、Transformers/Ollama/vLLMによるセルフホストの両方に対応
- 日本語業務文書の構造化では7Bモデルでも十分な実用精度を発揮する場面が多い
Qwen全体の概要・思想についてはQwen とは、実際の環境構築はQwen 導入、コスト計算はQwen 料金、他モデルとの総合比較はQwen 比較をあわせてご参照ください。マルチモーダルAIの活用を検討されている方にとって、Qwen VLは現時点で最も費用対効果の高い選択肢の一つです。
関連記事
参考文献
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針
Study about AI
AIについて学ぶ
-
AI規制・州法ルール形成の最前線——米国の現実から日本企業が学ぶ教訓
AI規制・州法ルール形成の現在地——連邦停滞が生む「パッチワーク」構造 2026年6月4日、米下院のJay Obernolte議員(共和・カリフォルニア州)とL...
-
Supermicro AIサーバー調達・受注390億ドルが日本企業に示す戦略的含意
Supermicro AIサーバー受注390億ドル・70億ドル調達計画の要点 Super Micro Computer(ティッカー: SMCI、以下Superm...
-
AI広告・合成パフォーマー開示規制の全米初施行——日本企業が今取るべき対応
NY州「AI合成パフォーマー」広告開示規制——全米初の法律が施行 2026年6月9日、ニューヨーク州でAI生成の「synthetic performers(合成...