blog

AIブログ

大規模言語モデル一覧｜2026年版ガイド

大規模言語モデル（LLM）の選定は、2026年時点でさらに複雑な判断を要する局面に入っている。GPT・Claude・Geminiといったクローズドモデルが性能を競い合う一方、Llama・Mistral・DeepSeekなどオープンウェイトモデルの品質が急速に追い上げ、国産モデルも行政・産業向けに存在感を増している。本記事では主要な大規模言語モデルを一覧化し、各モデルの提供元・パラメータ規模・コンテキスト長・ライセンス・日本語対応・代表的用途を実装判断の軸で整理する。

モデル同士の詳細な性能比較・ベンチマーク分析・選び方の判断フレームワークは関連記事に譲り、本記事はカタログとしての網羅性と各モデルの実用情報に徹する。LLMの技術基盤についてはディープラーニングの基礎解説および BERTとNLPガイドを参照されたい。

大規模言語モデル一覧を読む前に：三つの公開形態を理解する

用途別の選び方・比較の観点はLLM比較の選び方・評価軸で詳しく解説しています。

大規模言語モデルを選定する際にまず整理すべきは、モデルの「公開形態」だ。この違いが、データの管理範囲・カスタマイズの自由度・コスト構造を根本から決定する。

大規模言語モデルの三類型。公開形態の違いがアーキテクチャ選定の起点になる。

クローズドAPI型は導入が最速だが、モデルの更新・廃止・価格改定に追随し続ける必要がある。オープンウェイト型は自社GPU環境またはクラウドインスタンスへのデプロイが必要で、初期インフラコストはかかるが、データを外部に送らずに推論でき、ファインチューニングによる特化が可能だ。エッジ向け小型モデルはデバイス側で完結する推論を可能にする反面、タスクの複雑さには相応の限界がある。

大規模言語モデル一覧：グローバル主要モデル（2026年版）

以下の表では、2026年時点で広く実装・評価されているグローバル主要LLMを整理する。パラメータ数は公表値または公開情報に基づく推定値であり、非公開のモデルは「非公開」と明記している。IBMの解説（IBM: 大規模言語モデルのリスト、2026年3月時点）では最新世代の推論モデルを含む情報が更新されており、モデルの世代交代が加速していることが確認できた（2026年3月時点）。APIの料金・仕様は変動するため、実装前に必ず各社の公式ドキュメントを確認すること。

モデル名	開発元	パラメータ規模	コンテキスト長	ライセンス	日本語対応	代表的用途
GPT-4o	OpenAI	非公開	128K tokens	プロプライエタリ	高水準	マルチモーダル処理、汎用チャット、コンテンツ生成。テキスト・画像・音声入力を標準でサポートし、Function Callingの精度も高い。
GPT-5系 / o3	OpenAI	非公開	最大1M tokens（モデルによる）	プロプライエタリ	高水準	高度推論・数学・コーディング・エージェント。o3は推論特化で、思考プロセスをトークン展開してから回答を生成する。コストとレイテンシは増大する。
Claude 3.7 Sonnet / 3.5 Opus	Anthropic	非公開	200K tokens	プロプライエタリ	高水準	安全性・倫理設計を重視した対話、長文理解、コーディング。拡張思考モード（Extended Thinking）により複雑な推論タスクにも対応する。
Gemini 2.5 Pro	Google DeepMind	非公開	1M tokens	プロプライエタリ	高水準	大規模文書の一括処理、マルチモーダル推論、Google Workspaceとの統合。1Mトークンの実用コンテキストが最大の強み。
Gemini 2.0 Flash	Google DeepMind	非公開	1M tokens	プロプライエタリ	対応	低レイテンシAPI、リアルタイムアプリ。Proより品質は落ちるが、スループット重視の用途に適している。
Llama 3.3（8B / 70B）	Meta	8B / 70B	128K tokens	オープンウェイト（商用可※）	対応（英語中心）	自社ホスティング基盤、ファインチューニングのベースモデル。70Bはオープンウェイト最上位クラスの汎用性能を持つ。
Llama 4（Scout / Maverick）	Meta	MoEアーキテクチャ（詳細非公開）	Scout: 最大10M tokens	オープンウェイト（商用可※）	対応（英語中心）	超長文処理、マルチモーダル推論。MoEアーキテクチャにより大規模パラメータを効率的に運用する。
Mistral Large 2（123B）	Mistral AI	123B	128K tokens	プロプライエタリ（一部オープン）	対応	欧州データ主権対応（EU圏データ居住オプションあり）、多言語・コーディング。GDPRへの準拠を重視する事業者に選ばれやすい。
Mistral 7B / Mixtral 8×22B	Mistral AI	7B / 141B（MoE）	32K tokens	Apache 2.0	限定的	商用無料で使えるMoE基盤。7BはA100 1枚で動作し、ローカル推論の入門としても広く使われる。
DeepSeek-V3	DeepSeek	671B（MoE）	128K tokens	MIT	対応	圧倒的な低コストAPI、コーディング、汎用生成。MoEにより671Bの総パラメータを効率的に活用する。外部API利用時のデータ管理は別途検討が必要。
DeepSeek R1	DeepSeek	671B（MoE）	128K tokens	MIT	対応	推論特化、数学・科学的解析。MITライセンスで自社ホスティングが可能。中国企業開発のため機密データを扱う場合のAPI利用は慎重な評価が必要。
Qwen2.5（0.5B〜72B）	Alibaba	0.5B〜72B	最大128K tokens	Apache 2.0（一部）	高水準（日中英）	多言語対応。Qwen2.5-Coderバリアントはプログラミング補助に特化。日本語・中国語の精度が高く、アジア圏の多言語要件に適する。
QwQ-32B	Alibaba	32B	131K tokens	Apache 2.0	対応	推論・数学特化の32Bモデル。ローカル動作させながら高難度タスクをこなせる点で、コスト効率の高い推論モデルとして注目される。
Phi-4（14B）	Microsoft	14B	16K tokens	MIT	限定的	エッジ推論・コスト最小化。高品質な合成データで学習しており、14Bながら数学・推論タスクで大型モデルに近い性能を示す。
Gemma 3（1B〜27B）	Google	1B〜27B	128K tokens（27B）	Gemma利用規約	対応	ローカル研究開発、マルチモーダル実験。Google公式のオープンモデルとして安心して使えるが、ライセンスはApache 2.0ではなく独自規約のため商用利用前に確認が必要。
Command R+（104B）	Cohere	104B	128K tokens	プロプライエタリ（OW版あり）	対応	RAG・エンタープライズ文書検索に特化した設計。引用付き回答生成の精度が高く、社内ナレッジベースとの統合で評価される。
Grok 3	xAI	非公開	非公開	プロプライエタリ	対応	X（旧Twitter）のリアルタイムデータ連携、推論モード搭載。ソーシャルメディア情報を統合した対話が特徴。

※ Llama 3・4系は月間アクティブユーザー7億人超のサービスでの利用は別途Metaとの契約が必要（Meta公式ライセンス参照）。コンテキスト長・価格は変動するため実装前に公式ドキュメントを確認すること。

マルチモーダル処理の技術的詳細はマルチモーダルAIの解説を参照されたい。

ローカルLLMの導入やRAG構築をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

大規模言語モデル一覧：日本語対応・国産モデル（2026年版）

国内では、デジタル庁が「ガバメントAI」での国産LLM試用に向けた公募結果を公開しており（デジタル庁: ガバメントAIで試用する国内LLMの公募結果）、行政分野での国産モデル活用が具体的な段階に入っている。また、文部科学省のリカレント教育プラットフォームでも「大規模言語モデルの基礎とDXのための適用技術」講座が開設されており（manapass.mext.go.jp）、産業界・公共分野双方での実装が本格化していることがわかる。文科省・経産省が連携するRSシステムにおいても国産LLM開発力強化のプロジェクトが進行中だ（rssystem.go.jp: 我が国における大規模言語モデルの開発力強化）。

日本語テキスト処理の概念図。国産LLMは日本語の事前学習データ比率が高く、語感・漢字混じり表現の精度で差が出やすい。

モデル名	開発元	パラメータ規模	ライセンス	特徴・実装上の注意点
Sarashina2	SB Intuitions	70B〜175B	商用利用可	日本語大規模事前学習モデル。国内企業向けAPIを提供し、データを国内で処理できる点が金融・医療などの規制業種での採用動機になっている。175Bクラスは汎用性能と日本語精度のバランスが高い。
LLM-jp-3	国立情報学研究所（NII）	1.8B〜172B	Apache 2.0	日本語Webテキストを大量に学習した学術・研究向けモデル。172BはJMMLUで高スコアを記録。HuggingFaceから重みを取得可能で、Apache 2.0のため商用ファインチューニング基盤としても使いやすい。
Swallow	東京工業大学・産総研	7B〜70B	Apache 2.0	Llama 2をベースに日本語継続学習を施したモデル。HuggingFace公開済みで、ファインチューニング基盤としての採用実績が豊富。70Bは日本語の語感・文法精度が比較的高い。
PLaMo-100B	Preferred Networks	100B	プロプライエタリ	国産フルスクラッチで構築された大型モデル。日本語・英語を均衡学習し、ロボティクス・製造業分野との親和性が高い。外部への重み公開は行っておらず、APIまたは個別契約での利用となる。
Tanuki-8B / 8×8B	東京大学松尾・岩澤研究室ら	8B〜MoE	Apache 2.0	商用無料で利用できる日本語特化モデル。8×8BはMoEアーキテクチャを採用し、計算効率と日本語精度を両立する。東京大学松尾・岩澤研究室が主導（松尾研公式）。
ELYZA Llama 3	ELYZA（東大発スタートアップ）	8B〜70B	Llama 3ライセンス準拠	Llama 3を日本語特化で継続学習したモデル。ELYZAタスクベンチマークで国産モデル上位を維持。70B版はAPI経由の利用も可能で、日本語指示追従性が高い。
cyberagent/calm3-22B	サイバーエージェント	22B	Apache 2.0	メディア・広告業界での実運用を前提に設計された日本語対話モデル。HuggingFace公開済みで、22BサイズはA100（80GB）1枚での動作が可能。商用利用の敷居が低い。
weblab-10b	東京大学松尾研究室	10B	CC BY-NC 4.0	日本語Webデータで学習したオープンソースモデル。対話システムへの強みがあるが、CC BY-NC 4.0（非商用限定）のため商用プロダクションへの組み込みには別途確認が必要（参考: 日本LLM10選）。

アーキテクチャ別：実装で差が出るLLMの内部構造

パラメータ数と並んでモデル選定に直結するのがアーキテクチャの違いだ。推論時の計算コスト・VRAMの使用量・レイテンシがアーキテクチャによって大きく変わるため、デプロイ環境の設計に直接影響する。

Dense（密結合）Transformerモデル

全パラメータをすべてのトークン処理に使う標準的なTransformerアーキテクチャだ。GPT-4o・Claude・Llama 3（Denseバリアント）がこれにあたる。設計がシンプルで推論の挙動が予測しやすく、ファインチューニング時の安定性も高い。ただしパラメータ数に比例してVRAMと計算量が増大するため、70Bクラスを自社運用するにはGPUクラスタが必要になる。量子化（4bit / 8bit）を活用することでハードウェア要件を大幅に緩和できるが、量子化による精度低下とのトレードオフは用途ごとに評価が必要だ。

MoE（Mixture of Experts）モデル

入力トークンごとにルーターが「Expert」と呼ばれるサブネットの中から少数（通常2〜8個）を選択し、選ばれたExpertのみが計算に参加するアーキテクチャだ。Mixtral 8×22B・DeepSeek-V3（671B MoE）・Llama 4などが採用している。総パラメータ数は巨大でも推論時のアクティブパラメータ数は小さいため、計算コストを抑えつつ大規模モデルの表現力を得やすい。一方で全Expertを保持するためのストレージ・メモリは必要であり、ロードバランシングの偏りが品質に影響することがある点は設計上の注意点だ。

推論特化（Reasoning / Thinking）モデル

応答を返す前に「思考プロセス（Chain of Thought）」をトークンとして展開し、段階的な推論を行うモデルだ。OpenAIのo3シリーズ、DeepSeek R1、Claude 3.7 Sonnetの拡張思考モード、QwQ-32Bがこのカテゴリに入る。AIME（数学競技問題）やGPQA（博士レベル科学QA）などの高難度ベンチマークで顕著な性能向上を示す。

実装上の注意点として、思考トークンの分だけ出力トークン数が増加するため、API利用コストとレイテンシが通常モデルより大幅に増える。単純な分類・要約・テンプレート補完などのタスクに推論モデルを当てるのは非効率であり、タスクの複雑さに応じてDense汎用モデルと推論モデルを切り替えるハイブリッド戦略が現実的だ。

強化学習によるモデルの報酬最適化（RLHFなど）はLLMの性能向上に深く関わる技術であり、詳細は強化学習の解説記事を参照されたい。テキストマイニングとLLMの組み合わせ実装についてはテキストマイニングの実践ガイドが参考になる。

ライセンス類型と商用利用の確認事項

LLMを事業のプロダクトに組み込む場合、ライセンス条件の見落としは後工程で深刻なリスクになる。以下の四類型を軸に整理する。

ライセンス類型	代表モデル	商用利用	重みの再配布・改変	主な注意点
プロプライエタリ（APIのみ）	GPT-4o、Claude、Gemini、Grok	規約の範囲内で可	不可	モデル廃止・価格改定リスク。データの処理地域・保持ポリシーを個別に確認。
オープンウェイト・商用可（MIT / Apache 2.0）	Mistral 7B（Apache 2.0）、Phi-4（MIT）、DeepSeek R1（MIT）、QwQ-32B（Apache 2.0）	可	可（著作権表示は必要）	学習データの出所・著作権は重みのライセンスとは別に確認が必要。
Meta Llama独自ライセンス	Llama 3系、Llama 4系	条件付きで可	条件付きで可	月間アクティブユーザー7億人超のサービスは別途Meta社との契約が必要。Meta公式ライセンス文書を要確認。
研究・非商用限定	weblab-10b（CC BY-NC 4.0）、一部Gemmaバージョン	原則不可	改変可・商用配布は不可	PoCや研究用途には使えるが、プロダクション組み込みは別途ライセンス確認が必要。

DeepSeekに関する追加の留意点：DeepSeek R1・V3はMITライセンスで重みが公開されており、自社インフラへのデプロイは技術的に自由度が高い。しかし中国企業が開発・学習させたモデルであるため、個人情報・機密情報を含むデータを外部APIに送る場合や、国家安全保障・輸出管理規制が絡む業務での利用には慎重な判断が求められる。重みのみを取得してオンプレミスで推論する構成と、公開APIを利用する構成は、リスク評価として別途分けて検討することが望ましい。

実装視点：用途・制約別のモデル選定指針

「ベンチマーク最上位＝最適解」という前提は実務では成立しない。レイテンシ・コスト・データ管理ポリシー・日本語品質は、一般ベンチマークには反映されない実務上の制約だ。典型的な実装シナリオ別に選定の指針を示す。

汎用チャット・コンテンツ生成パイプライン

高い文章品質と幅広いタスク対応が求められる場合、GPT-4o・Claude 3.7 Sonnet・Gemini 2.5 Proが有力候補だ。いずれもAPI経由で即日利用可能で、Function Calling・ストリーミング・マルチモーダル入力を標準でサポートする。スループットとコストを重視するなら、GPT-4o miniやGemini 2.0 Flashへのフォールバック設計を組み合わせる構成が有効だ。

コーディング・開発支援ツール

コーディングベンチマーク（SWE-benchなど）ではClaude 3.7 Sonnet・GPT-4.1系・DeepSeek-V3が高い評価を受けている（IBM: LLMリスト）。コードデータをクラウドに送りたくない場合は、Qwen2.5-Coder（7B〜72B）を自社GPU環境で動かす構成が現実的だ。

高難度推論・数学・科学的解析

難易度の高い問題への対応が必要なら推論特化モデルを選択する。o3・DeepSeek R1・QwQ-32Bが候補に挙がる。DeepSeek R1はMITライセンスで自社ホストが可能だが、前述のデータ管理上の検討は別途行うこと。

RAG・社内文書検索システム

社内データを取り込んで回答させるRAG構成では、Cohere Command R+がRAG特化設計で引用精度に定評がある。長大なコンテキストを直接渡す構成（Long Context RAG）ではGemini 2.5 Pro（1Mトークン対応）が有効だ。スパースモデリングによる特徴抽出との組み合わせについてはスパースモデリングの解説を参照されたい。

日本語精度・データ主権を重視する業務

個人情報・機密情報を含む業務でデータを国外クラウドに送りたくない場合、国産モデルまたはオープンウェイトモデルの自社ホスティングが選択肢になる。LLM-jp-3（Apache 2.0）・Swallow・Tanuki・ELYZA Llama 3を自社GPU環境またはオンプレミスで動作させる構成が現実的だ。デジタル庁のガバメントAI公募においても国産LLMが採用検討されており（デジタル庁公式発表）、公共分野での実績形成が進んでいる。

エッジ・オンデバイス・低コスト運用

クラウドAPIを使わずにローカルで完結させたい、またはAPIコストを抑えたい場合は小型モデルが適している。Phi-4（14B, MIT）・Gemma 3（9B/27B）・Mistral 7B（Apache 2.0）・Llama 3.2（3B/8B）がこのカテゴリの定番だ。OllamaやLM Studio、llama.cppなどのローカル推論ツールと組み合わせることで、M2/M3搭載のMacBook ProやA100搭載サーバー1台でも動作させることができる。生成モデルの基礎理論については GANの解説記事も参考になる。

バーチャルヒューマン・対話AIへの組み込み

弊社が開発するDeepAI（バーチャルヒューマン／AIアバターソリューション）では、リップシンク・表情生成・音声合成・対話AIを組み合わせて、接客・研修・面接練習・広報といった用途でリアルタイムの対話を実現している。このような対話パイプラインにLLMを組み込む際は、汎用ベンチマークの順位よりもAPIのストリーミング応答速度・Function Calling（Tool Use）の精度・出力の語調制御性が選定の実質的な基準になる。応答レイテンシや日本語の自然な語感を優先すると、ランキング最上位のモデルが必ずしも最適解にはならないケースがある。

バーチャルヒューマンとLLM対話エンジンの統合イメージ。リップシンク・音声合成・LLMが連携してリアルタイム対話を実現する。 — バーチャルヒューマンとLLM対話エンジンの統合概念図。ストリーミング応答とFunction Callingの精度がリアルタイム体験の品質を左右する。

2026年時点のLLMトレンド：実装戦略に影響する四つの変化

モデルの世代交代は半年単位で起きており、採用モデルの定期的な再評価を前提にしたアーキテクチャ設計が不可欠だ。2026年時点で実装判断に影響する主要トレンドを四点挙げる。

1. 推論モデルの普及と選択的利用

o3系・DeepSeek R1のような推論特化モデルは高難度タスクの品質を向上させた一方で、トークン消費量とレイテンシが増大する。IBMの解説（IBM: 大規模言語モデルのリスト、2026年3月時点）でも触れられているように、2026年3月時点では最新世代のモデルは推論性能を主要な差別化軸に置いていた。実プロダクトではタスク種別に応じてDense汎用モデルと推論モデルをルーティングするハイブリッド構成が有効だ。

2. コンテキストウィンドウの実用的な拡大

Gemini 2.5 Proの100万トークン、Llama 4 Scoutの最大1,000万トークン対応により、長大な文書全体をプロンプトに含めることが現実的になっている。これによりRAGアーキテクチャの設計思想が変わりつつある。チャンク分割・ベクトル検索を前提としたKnowledge Base型RAGか、Long Context Retrievalかの選択は、利用するモデルとコンテキスト長によって変わる。

3. マルチモーダル処理の標準化

テキスト・画像・音声・動画を統合的に扱えるマルチモーダルLLMが主流になっている。GPT-4o・Gemini 2.5 Pro・Claude 3系はいずれも画像入力に標準対応しており、テキストのみのLLMはニッチ用途に移行しつつある。マルチモーダルの技術的詳細はマルチモーダルAIの解説を参照されたい。

4. エージェント・ツール連携の評価軸化

Function Calling / Tool Useによるエージェント型AI構成が急速に普及し、モデル選定においても並列ツール呼び出しの精度・エラーリカバリ能力・構造化出力（JSON mode）の安定性が評価基準に加わっている。2026年のLLM競争は単純な生成性能ではなく、インフラ・エコシステム・エージェント対応の総合力に移行しつつあるとも指摘されている（arpable.com: 2026年のLLM競争）。

AIの業務活用・導入をご検討の方へ

クリスタルメソッドは、LLM・RAG・AIアバターを活用した業務へのAI導入を支援しています。自社の課題にどう活かせるか、まずはお気軽にご相談ください。

無料相談・お問い合わせ：ご相談はこちら
基礎から知る：大規模言語モデルとは

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

大規模言語モデル一覧｜2026年版ガイド

大規模言語モデル一覧を読む前に：三つの公開形態を理解する

大規模言語モデル一覧：グローバル主要モデル（2026年版）

大規模言語モデル一覧：日本語対応・国産モデル（2026年版）