blog
AIブログ
大規模言語モデル 一覧|2026年版ガイド
大規模言語モデル(LLM)の選定は、2026年時点でさらに複雑な判断を要する局面に入っている。GPT・Claude・Geminiといったクローズドモデルが性能を競い合う一方、Llama・Mistral・DeepSeekなどオープンウェイトモデルの品質が急速に追い上げ、国産モデルも行政・産業向けに存在感を増している。本記事では主要な大規模言語モデルを一覧化し、各モデルの提供元・パラメータ規模・コンテキスト長・ライセンス・日本語対応・代表的用途を実装判断の軸で整理する。
モデル同士の詳細な性能比較・ベンチマーク分析・選び方の判断フレームワークは関連記事に譲り、本記事はカタログとしての網羅性と各モデルの実用情報に徹する。LLMの技術基盤については ディープラーニングの基礎解説 および BERTとNLPガイド を参照されたい。

大規模言語モデル 一覧を読む前に:三つの公開形態を理解する
用途別の選び方・比較の観点はLLM比較の選び方・評価軸で詳しく解説しています。
大規模言語モデルを選定する際にまず整理すべきは、モデルの「公開形態」だ。この違いが、データの管理範囲・カスタマイズの自由度・コスト構造を根本から決定する。
クローズドAPI型は導入が最速だが、モデルの更新・廃止・価格改定に追随し続ける必要がある。オープンウェイト型は自社GPU環境またはクラウドインスタンスへのデプロイが必要で、初期インフラコストはかかるが、データを外部に送らずに推論でき、ファインチューニングによる特化が可能だ。エッジ向け小型モデルはデバイス側で完結する推論を可能にする反面、タスクの複雑さには相応の限界がある。
大規模言語モデル 一覧:グローバル主要モデル(2026年版)
以下の表では、2026年時点で広く実装・評価されているグローバル主要LLMを整理する。パラメータ数は公表値または公開情報に基づく推定値であり、非公開のモデルは「非公開」と明記している。IBMの解説(IBM: 大規模言語モデルのリスト、2026年3月時点)では最新世代の推論モデルを含む情報が更新されており、モデルの世代交代が加速していることが確認できる。APIの料金・仕様は変動するため、実装前に必ず各社の公式ドキュメントを確認すること。
| モデル名 | 開発元 | パラメータ規模 | コンテキスト長 | ライセンス | 日本語対応 | 代表的用途 |
|---|---|---|---|---|---|---|
| GPT-4o | OpenAI | 非公開 | 128K tokens | プロプライエタリ | 高水準 | マルチモーダル処理、汎用チャット、コンテンツ生成。テキスト・画像・音声入力を標準でサポートし、Function Callingの精度も高い。 |
| GPT-5系 / o3 | OpenAI | 非公開 | 最大1M tokens(モデルによる) | プロプライエタリ | 高水準 | 高度推論・数学・コーディング・エージェント。o3は推論特化で、思考プロセスをトークン展開してから回答を生成する。コストとレイテンシは増大する。 |
| Claude 3.7 Sonnet / 3.5 Opus | Anthropic | 非公開 | 200K tokens | プロプライエタリ | 高水準 | 安全性・倫理設計を重視した対話、長文理解、コーディング。拡張思考モード(Extended Thinking)により複雑な推論タスクにも対応する。 |
| Gemini 2.5 Pro | Google DeepMind | 非公開 | 1M tokens | プロプライエタリ | 高水準 | 大規模文書の一括処理、マルチモーダル推論、Google Workspaceとの統合。1Mトークンの実用コンテキストが最大の強み。 |
| Gemini 2.0 Flash | Google DeepMind | 非公開 | 1M tokens | プロプライエタリ | 対応 | 低レイテンシAPI、リアルタイムアプリ。Proより品質は落ちるが、スループット重視の用途に適している。 |
| Llama 3.3(8B / 70B) | Meta | 8B / 70B | 128K tokens | オープンウェイト(商用可※) | 対応(英語中心) | 自社ホスティング基盤、ファインチューニングのベースモデル。70Bはオープンウェイト最上位クラスの汎用性能を持つ。 |
| Llama 4(Scout / Maverick) | Meta | MoEアーキテクチャ(詳細非公開) | Scout: 最大10M tokens | オープンウェイト(商用可※) | 対応(英語中心) | 超長文処理、マルチモーダル推論。MoEアーキテクチャにより大規模パラメータを効率的に運用する。 |
| Mistral Large 2(123B) | Mistral AI | 123B | 128K tokens | プロプライエタリ(一部オープン) | 対応 | 欧州データ主権対応(EU圏データ居住オプションあり)、多言語・コーディング。GDPRへの準拠を重視する事業者に選ばれやすい。 |
| Mistral 7B / Mixtral 8×22B | Mistral AI | 7B / 141B(MoE) | 32K tokens | Apache 2.0 | 限定的 | 商用無料で使えるMoE基盤。7BはA100 1枚で動作し、ローカル推論の入門としても広く使われる。 |
| DeepSeek-V3 | DeepSeek | 671B(MoE) | 128K tokens | MIT | 対応 | 圧倒的な低コストAPI、コーディング、汎用生成。MoEにより671Bの総パラメータを効率的に活用する。外部API利用時のデータ管理は別途検討が必要。 |
| DeepSeek R1 | DeepSeek | 671B(MoE) | 128K tokens | MIT | 対応 | 推論特化、数学・科学的解析。MITライセンスで自社ホスティングが可能。中国企業開発のため機密データを扱う場合のAPI利用は慎重な評価が必要。 |
| Qwen2.5(0.5B〜72B) | Alibaba | 0.5B〜72B | 最大128K tokens | Apache 2.0(一部) | 高水準(日中英) | 多言語対応。Qwen2.5-Coderバリアントはプログラミング補助に特化。日本語・中国語の精度が高く、アジア圏の多言語要件に適する。 |
| QwQ-32B | Alibaba | 32B | 131K tokens | Apache 2.0 | 対応 | 推論・数学特化の32Bモデル。ローカル動作させながら高難度タスクをこなせる点で、コスト効率の高い推論モデルとして注目される。 |
| Phi-4(14B) | Microsoft | 14B | 16K tokens | MIT | 限定的 | エッジ推論・コスト最小化。高品質な合成データで学習しており、14Bながら数学・推論タスクで大型モデルに近い性能を示す。 |
| Gemma 3(1B〜27B) | 1B〜27B | 128K tokens(27B) | Gemma利用規約 | 対応 | ローカル研究開発、マルチモーダル実験。Google公式のオープンモデルとして安心して使えるが、ライセンスはApache 2.0ではなく独自規約のため商用利用前に確認が必要。 | |
| Command R+(104B) | Cohere | 104B | 128K tokens | プロプライエタリ(OW版あり) | 対応 | RAG・エンタープライズ文書検索に特化した設計。引用付き回答生成の精度が高く、社内ナレッジベースとの統合で評価される。 |
| Grok 3 | xAI | 非公開 | 非公開 | プロプライエタリ | 対応 | X(旧Twitter)のリアルタイムデータ連携、推論モード搭載。ソーシャルメディア情報を統合した対話が特徴。 |
※ Llama 3・4系は月間アクティブユーザー7億人超のサービスでの利用は別途Metaとの契約が必要(Meta公式ライセンス参照)。コンテキスト長・価格は変動するため実装前に公式ドキュメントを確認すること。
マルチモーダル処理の技術的詳細は マルチモーダルAIの解説 を参照されたい。
大規模言語モデル 一覧:日本語対応・国産モデル(2026年版)
国内では、デジタル庁が「ガバメントAI」での国産LLM試用に向けた公募結果を公開しており(デジタル庁: ガバメントAIで試用する国内LLMの公募結果)、行政分野での国産モデル活用が具体的な段階に入っている。また、文部科学省のリカレント教育プラットフォームでも「大規模言語モデルの基礎とDXのための適用技術」講座が開設されており(manapass.mext.go.jp)、産業界・公共分野双方での実装が本格化していることがわかる。文科省・経産省が連携するRSシステムにおいても国産LLM開発力強化のプロジェクトが進行中だ(rssystem.go.jp: 我が国における大規模言語モデルの開発力強化)。

| モデル名 | 開発元 | パラメータ規模 | ライセンス | 特徴・実装上の注意点 |
|---|---|---|---|---|
| Sarashina2 | SB Intuitions | 70B〜175B | 商用利用可 | 日本語大規模事前学習モデル。国内企業向けAPIを提供し、データを国内で処理できる点が金融・医療などの規制業種での採用動機になっている。175Bクラスは汎用性能と日本語精度のバランスが高い。 |
| LLM-jp-3 | 国立情報学研究所(NII) | 1.8B〜172B | Apache 2.0 | 日本語Webテキストを大量に学習した学術・研究向けモデル。172BはJMMLUで高スコアを記録。HuggingFaceから重みを取得可能で、Apache 2.0のため商用ファインチューニング基盤としても使いやすい。 |
| Swallow | 東京工業大学・産総研 | 7B〜70B | Apache 2.0 | Llama 2をベースに日本語継続学習を施したモデル。HuggingFace公開済みで、ファインチューニング基盤としての採用実績が豊富。70Bは日本語の語感・文法精度が比較的高い。 |
| PLaMo-100B | Preferred Networks | 100B | プロプライエタリ | 国産フルスクラッチで構築された大型モデル。日本語・英語を均衡学習し、ロボティクス・製造業分野との親和性が高い。外部への重み公開は行っておらず、APIまたは個別契約での利用となる。 |
| Tanuki-8B / 8×8B | 東京大学 松尾・岩澤研究室ら | 8B〜MoE | Apache 2.0 | 商用無料で利用できる日本語特化モデル。8×8BはMoEアーキテクチャを採用し、計算効率と日本語精度を両立する。東京大学 松尾・岩澤研究室が主導(松尾研公式)。 |
| ELYZA Llama 3 | ELYZA(東大発スタートアップ) | 8B〜70B | Llama 3ライセンス準拠 | Llama 3を日本語特化で継続学習したモデル。ELYZAタスクベンチマークで国産モデル上位を維持。70B版はAPI経由の利用も可能で、日本語指示追従性が高い。 |
| cyberagent/calm3-22B | サイバーエージェント | 22B | Apache 2.0 | メディア・広告業界での実運用を前提に設計された日本語対話モデル。HuggingFace公開済みで、22BサイズはA100(80GB)1枚での動作が可能。商用利用の敷居が低い。 |
| weblab-10b | 東京大学 松尾研究室 | 10B | CC BY-NC 4.0 | 日本語Webデータで学習したオープンソースモデル。対話システムへの強みがあるが、CC BY-NC 4.0(非商用限定)のため商用プロダクションへの組み込みには別途確認が必要(参考: 日本LLM10選)。 |
アーキテクチャ別:実装で差が出るLLMの内部構造
パラメータ数と並んでモデル選定に直結するのがアーキテクチャの違いだ。推論時の計算コスト・VRAMの使用量・レイテンシがアーキテクチャによって大きく変わるため、デプロイ環境の設計に直接影響する。
Dense(密結合)Transformerモデル
全パラメータをすべてのトークン処理に使う標準的なTransformerアーキテクチャだ。GPT-4o・Claude・Llama 3(Denseバリアント)がこれにあたる。設計がシンプルで推論の挙動が予測しやすく、ファインチューニング時の安定性も高い。ただしパラメータ数に比例してVRAMと計算量が増大するため、70Bクラスを自社運用するにはGPUクラスタが必要になる。量子化(4bit / 8bit)を活用することでハードウェア要件を大幅に緩和できるが、量子化による精度低下とのトレードオフは用途ごとに評価が必要だ。
MoE(Mixture of Experts)モデル
入力トークンごとにルーターが「Expert」と呼ばれるサブネットの中から少数(通常2〜8個)を選択し、選ばれたExpertのみが計算に参加するアーキテクチャだ。Mixtral 8×22B・DeepSeek-V3(671B MoE)・Llama 4などが採用している。総パラメータ数は巨大でも推論時のアクティブパラメータ数は小さいため、計算コストを抑えつつ大規模モデルの表現力を得やすい。一方で全Expertを保持するためのストレージ・メモリは必要であり、ロードバランシングの偏りが品質に影響することがある点は設計上の注意点だ。
推論特化(Reasoning / Thinking)モデル
応答を返す前に「思考プロセス(Chain of Thought)」をトークンとして展開し、段階的な推論を行うモデルだ。OpenAIのo3シリーズ、DeepSeek R1、Claude 3.7 Sonnetの拡張思考モード、QwQ-32Bがこのカテゴリに入る。AIME(数学競技問題)やGPQA(博士レベル科学QA)などの高難度ベンチマークで顕著な性能向上を示す。
実装上の注意点として、思考トークンの分だけ出力トークン数が増加するため、API利用コストとレイテンシが通常モデルより大幅に増える。単純な分類・要約・テンプレート補完などのタスクに推論モデルを当てるのは非効率であり、タスクの複雑さに応じてDense汎用モデルと推論モデルを切り替えるハイブリッド戦略が現実的だ。
強化学習によるモデルの報酬最適化(RLHFなど)はLLMの性能向上に深く関わる技術であり、詳細は 強化学習の解説記事 を参照されたい。テキストマイニングとLLMの組み合わせ実装については テキストマイニングの実践ガイド が参考になる。
ライセンス類型と商用利用の確認事項
LLMを事業のプロダクトに組み込む場合、ライセンス条件の見落としは後工程で深刻なリスクになる。以下の四類型を軸に整理する。
| ライセンス類型 | 代表モデル | 商用利用 | 重みの再配布・改変 | 主な注意点 |
|---|---|---|---|---|
| プロプライエタリ(APIのみ) | GPT-4o、Claude、Gemini、Grok | 規約の範囲内で可 | 不可 | モデル廃止・価格改定リスク。データの処理地域・保持ポリシーを個別に確認。 |
| オープンウェイト・商用可(MIT / Apache 2.0) | Mistral 7B(Apache 2.0)、Phi-4(MIT)、DeepSeek R1(MIT)、QwQ-32B(Apache 2.0) | 可 | 可(著作権表示は必要) | 学習データの出所・著作権は重みのライセンスとは別に確認が必要。 |
| Meta Llama独自ライセンス | Llama 3系、Llama 4系 | 条件付きで可 | 条件付きで可 | 月間アクティブユーザー7億人超のサービスは別途Meta社との契約が必要。Meta公式ライセンス文書を要確認。 |
| 研究・非商用限定 | weblab-10b(CC BY-NC 4.0)、一部Gemmaバージョン | 原則不可 | 改変可・商用配布は不可 | PoCや研究用途には使えるが、プロダクション組み込みは別途ライセンス確認が必要。 |
DeepSeekに関する追加の留意点:DeepSeek R1・V3はMITライセンスで重みが公開されており、自社インフラへのデプロイは技術的に自由度が高い。しかし中国企業が開発・学習させたモデルであるため、個人情報・機密情報を含むデータを外部APIに送る場合や、国家安全保障・輸出管理規制が絡む業務での利用には慎重な判断が求められる。重みのみを取得してオンプレミスで推論する構成と、公開APIを利用する構成は、リスク評価として別途分けて検討することが望ましい。
実装視点:用途・制約別のモデル選定指針
「ベンチマーク最上位=最適解」という前提は実務では成立しない。レイテンシ・コスト・データ管理ポリシー・日本語品質は、一般ベンチマークには反映されない実務上の制約だ。典型的な実装シナリオ別に選定の指針を示す。
汎用チャット・コンテンツ生成パイプライン
高い文章品質と幅広いタスク対応が求められる場合、GPT-4o・Claude 3.7 Sonnet・Gemini 2.5 Proが有力候補だ。いずれもAPI経由で即日利用可能で、Function Calling・ストリーミング・マルチモーダル入力を標準でサポートする。スループットとコストを重視するなら、GPT-4o miniやGemini 2.0 Flashへのフォールバック設計を組み合わせる構成が有効だ。
コーディング・開発支援ツール
コーディングベンチマーク(SWE-benchなど)ではClaude 3.7 Sonnet・GPT-4.1系・DeepSeek-V3が高い評価を受けている(IBM: LLMリスト)。コードデータをクラウドに送りたくない場合は、Qwen2.5-Coder(7B〜72B)を自社GPU環境で動かす構成が現実的だ。
高難度推論・数学・科学的解析
難易度の高い問題への対応が必要なら推論特化モデルを選択する。o3・DeepSeek R1・QwQ-32Bが候補に挙がる。DeepSeek R1はMITライセンスで自社ホストが可能だが、前述のデータ管理上の検討は別途行うこと。
RAG・社内文書検索システム
社内データを取り込んで回答させるRAG構成では、Cohere Command R+がRAG特化設計で引用精度に定評がある。長大なコンテキストを直接渡す構成(Long Context RAG)ではGemini 2.5 Pro(1Mトークン対応)が有効だ。スパースモデリングによる特徴抽出との組み合わせについては スパースモデリングの解説 を参照されたい。
日本語精度・データ主権を重視する業務
個人情報・機密情報を含む業務でデータを国外クラウドに送りたくない場合、国産モデルまたはオープンウェイトモデルの自社ホスティングが選択肢になる。LLM-jp-3(Apache 2.0)・Swallow・Tanuki・ELYZA Llama 3を自社GPU環境またはオンプレミスで動作させる構成が現実的だ。デジタル庁のガバメントAI公募においても国産LLMが採用検討されており(デジタル庁公式発表)、公共分野での実績形成が進んでいる。
エッジ・オンデバイス・低コスト運用
クラウドAPIを使わずにローカルで完結させたい、またはAPIコストを抑えたい場合は小型モデルが適している。Phi-4(14B, MIT)・Gemma 3(9B/27B)・Mistral 7B(Apache 2.0)・Llama 3.2(3B/8B)がこのカテゴリの定番だ。OllamaやLM Studio、llama.cppなどのローカル推論ツールと組み合わせることで、M2/M3搭載のMacBook ProやA100搭載サーバー1台でも動作させることができる。生成モデルの基礎理論については GANの解説記事 も参考になる。
バーチャルヒューマン・対話AIへの組み込み
弊社が開発するDeepAI(バーチャルヒューマン/AIアバターソリューション)では、リップシンク・表情生成・音声合成・対話AIを組み合わせて、接客・研修・面接練習・広報といった用途でリアルタイムの対話を実現している。このような対話パイプラインにLLMを組み込む際は、汎用ベンチマークの順位よりもAPIのストリーミング応答速度・Function Calling(Tool Use)の精度・出力の語調制御性が選定の実質的な基準になる。応答レイテンシや日本語の自然な語感を優先すると、ランキング最上位のモデルが必ずしも最適解にはならないケースがある。

2026年時点のLLMトレンド:実装戦略に影響する四つの変化
モデルの世代交代は半年単位で起きており、採用モデルの定期的な再評価を前提にしたアーキテクチャ設計が不可欠だ。2026年時点で実装判断に影響する主要トレンドを四点挙げる。
1. 推論モデルの普及と選択的利用
o3系・DeepSeek R1のような推論特化モデルは高難度タスクの品質を向上させた一方で、トークン消費量とレイテンシが増大する。IBMの解説(IBM: 大規模言語モデルのリスト、2026年3月時点)でも触れられているように、最新世代のモデルは推論性能を主要な差別化軸に置いている。実プロダクトではタスク種別に応じてDense汎用モデルと推論モデルをルーティングするハイブリッド構成が有効だ。
2. コンテキストウィンドウの実用的な拡大
Gemini 2.5 Proの100万トークン、Llama 4 Scoutの最大1,000万トークン対応により、長大な文書全体をプロンプトに含めることが現実的になっている。これによりRAGアーキテクチャの設計思想が変わりつつある。チャンク分割・ベクトル検索を前提としたKnowledge Base型RAGか、Long Context Retrievalかの選択は、利用するモデルとコンテキスト長によって変わる。
3. マルチモーダル処理の標準化
テキスト・画像・音声・動画を統合的に扱えるマルチモーダルLLMが主流になっている。GPT-4o・Gemini 2.5 Pro・Claude 3系はいずれも画像入力に標準対応しており、テキストのみのLLMはニッチ用途に移行しつつある。マルチモーダルの技術的詳細は マルチモーダルAIの解説 を参照されたい。
4. エージェント・ツール連携の評価軸化
Function Calling / Tool Useによるエージェント型AI構成が急速に普及し、モデル選定においても並列ツール呼び出しの精度・エラーリカバリ能力・構造化出力(JSON mode)の安定性が評価基準に加わっている。2026年のLLM競争は単純な生成性能ではなく、インフラ・エコシステム・エージェント対応の総合力に移行しつつあるとも指摘されている(arpable.com: 2026年のLLM競争)。
監修
河合 継(クリスタルメソッド株式会社 代表取締役)
AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について | 編集方針