blog
AIブログ
大規模言語モデル 一覧|2026年版ガイド
「大規模言語モデル(LLM)を比較したい」「どのモデルが自社の用途に合うか知りたい」——そんな疑問を持つ方は年々増えています。2024〜2025年にかけてLLMの進化は加速し、OpenAI・Google・Anthropic・Meta・Mistralをはじめ、国産モデルも続々と登場しています。本記事では、主要な大規模言語モデルを網羅的に一覧化し、性能・用途・ライセンス・コストの観点から整理します。モデル選定の判断軸も解説するので、エンジニアから事業担当者まで幅広くご活用ください。
大規模言語モデル(LLM)とは何か
大規模言語モデル(Large Language Model、LLM)とは、数十億〜数兆規模のパラメータを持つニューラルネットワークを、インターネット上のテキストデータで事前学習させた言語AIです。文章の生成・翻訳・要約・コーディング・対話など、幅広い自然言語処理タスクをひとつのモデルでこなせる点が特徴です。
GPT-3(2020年、OpenAI)が商用LLMの火付け役となり、2022年末のChatGPT公開を経て、2023年以降は「モデルの民主化」が一気に進みました。オープンソースモデルが台頭し、日本語特化モデルも増加。2025年現在では、クローズドAPI型・オープンウェイト型・エッジ向け小型モデルという三つの大きな潮流が共存しています。
主要な大規模言語モデル一覧(2025年版)
以下の表では、商用・オープンソースを問わず2025年時点で広く使われている主要LLMを整理しています。パラメータ数は公表値または推定値です。
| モデル名 | 開発元 | パラメータ規模 | ライセンス | 主な強み |
|---|---|---|---|---|
| GPT-4o | OpenAI | 非公開(推定〜200B) | プロプライエタリ | マルチモーダル、高い汎用性、日本語対応 |
| GPT-4.1 / o3 | OpenAI | 非公開 | プロプライエタリ | 推論特化、コーディング、ロングコンテキスト(1M tokens) |
| Claude 3.7 Sonnet / Claude 3.5 Opus | Anthropic | 非公開 | プロプライエタリ | 安全性・倫理設計、長文理解、ハイブリッド推論 |
| Gemini 2.5 Pro | Google DeepMind | 非公開 | プロプライエタリ | マルチモーダル、1M tokenコンテキスト、Google連携 |
| Gemini 2.0 Flash | Google DeepMind | 非公開 | プロプライエタリ | 高速・低コスト、リアルタイムアプリ向け |
| Llama 3.3 / Llama 4 | Meta | 8B〜405B(Llama 3) | オープンウェイト(商用可) | オープン最強クラス、自社ホスティング可能 |
| Mistral Large 2 | Mistral AI | 123B | プロプライエタリ(一部オープン) | 欧州産、多言語、コーディング、コスト効率 |
| Mistral 7B / Mixtral 8×22B | Mistral AI | 7B / 141B(MoE) | Apache 2.0 | 軽量高性能、MoEアーキテクチャ、商用無料 |
| DeepSeek-V3 / R1 | DeepSeek | 671B(MoE) | MIT(R1) | 超低コスト学習、推論特化(R1)、オープン |
| Qwen2.5 / QwQ-32B | Alibaba | 0.5B〜72B | Apache 2.0(一部) | 多言語、中国語・日本語に強い、推論モデル |
| Phi-4 / Phi-3 | Microsoft | 3.8B〜14B | MIT | 小型・高品質、エッジ推論、コスト最小化 |
| Gemma 3 | 1B〜27B | Gemma利用規約 | ローカル動作、研究・開発用途、マルチモーダル | |
| Command R+ | Cohere | 104B | プロプライエタリ(オープンウェイト版あり) | RAG・エンタープライズ検索に特化 |
| Grok 3 | xAI | 非公開 | プロプライエタリ | X(旧Twitter)データ連携、推論モード |
日本語対応・国産大規模言語モデル一覧
日本国内でもLLM開発が活発化しています。日本語の精度・法令対応・データセキュリティの観点から、国産モデルを採用する企業が増えています。以下は代表的なモデルです。
| モデル名 | 開発元 | パラメータ規模 | ライセンス | 特徴 |
|---|---|---|---|---|
| Sarashina2 | SB Intuitions | 70B〜175B | 商用利用可 | 日本語事前学習、国内企業向けAPI提供 |
| LLM-jp-3 | 国立情報学研究所(NII) | 1.8B〜172B | Apache 2.0 | 学術・研究向け、日本語テキスト大量学習 |
| Swallow | 東京工業大学・産総研 | 7B〜70B | Apache 2.0 | Llama 2ベースの日本語継続学習、HuggingFace公開 |
| PLaMo-100B | Preferred Networks | 100B | プロプライエタリ | 国産フルスクラッチ、日本語・英語均衡学習 |
| Tanuki-8B / 8×8B | 東京大学松尾研等 | 8B〜MoE | Apache 2.0 | 商用無料、日本語特化ファインチューニング |
| ELYZA Llama 3 | ELYZA(東大発スタートアップ) | 8B〜70B | Llama 3準拠 | Llama 3の日本語特化版、ELYZAタスクで高スコア |
| cyberagent/calm3 | サイバーエージェント | 22B | Apache 2.0 | 広告・メディア業界活用、日本語対話精度 |

アーキテクチャ別の分類と特徴
LLMは内部構造(アーキテクチャ)によっても分類できます。選定時に性能・コストに直結するため、理解しておくと役立ちます。
Dense(密結合)モデル
全パラメータをトークンごとに使う従来型のTransformerアーキテクチャです。GPT-4・Claude・Llama 3などがこれにあたります。設計がシンプルで推論が安定しやすい反面、パラメータ数に比例して計算コストが増大します。
MoE(Mixture of Experts)モデル
入力トークンごとに「専門家(Expert)」と呼ばれるサブネットを動的に選択し、少数のExpertだけを活性化して推論するアーキテクチャです。全パラメータ数は大きくても、実際の計算は一部だけで済むため、コスト効率が高くなります。Mixtral・DeepSeek-V3・Llama 4などが採用しています。
推論特化モデル(Thinking / Reasoning Model)
回答を返す前に「思考プロセス」をステップごとに展開するモデルです。OpenAIのo3シリーズ、Anthropic Claude 3.7 Sonnetの拡張思考モード、DeepSeek R1などが代表例です。数学・論理パズル・複雑なコーディングなど、単純なテキスト生成では解けない問題に強みを発揮します。ただしトークン消費量が増加するため、シンプルなタスクでの使用は非効率です。
用途別おすすめモデルの選び方
モデルを選ぶ際は「性能ランキング」だけで決めるのは危険です。用途・予算・データ管理ポリシー・日本語精度の優先度によって、最適解は大きく変わります。
汎用チャット・コンテンツ生成
高い文章品質と幅広いタスク対応力が求められる場合は、GPT-4o・Claude 3.7 Sonnet・Gemini 2.5 Proが三大候補です。日本語精度はいずれも高水準で、API経由で即日利用できます。コストを抑えつつ高品質を求めるなら、GPT-4o miniやGemini 2.0 Flashも選択肢に入ります。
コーディング・開発支援
プログラミング補助ではGPT-4.1・Claude 3.7 Sonnet・DeepSeek-V3が特に評価されています。SWE-benchなどのコーディングベンチマークではClaude 3.7 SonnetとGPT-4.1が競り合っており、DeepSeek-V3はオープンウェイトの中ではトップクラスです。ローカルで動かしたい場合はQwen2.5-Coder(7B〜72B)も有力候補です。
数学・論理推論・科学的解析
難問への対応が必要なら推論特化モデルを選びます。o3・DeepSeek R1・QwQ-32Bが高いベンチマークスコアを示しています。o3はコストが高めですが、AIME(数学競技問題)でトップ水準の正答率を記録しています。DeepSeek R1はMITライセンスで公開されており、自社サーバーでの運用も可能です。
RAG・企業内ドキュメント検索
社内データを取り込んで回答させるRAG(Retrieval-Augmented Generation)用途では、Cohere Command R+・GPT-4o・Claude 3.5が適しています。Command R+はRAGに特化したアーキテクチャ設計が施されており、引用精度が高い評価を受けています。長文コンテキストが必要な場合はGemini 2.5 Pro(1Mトークン対応)も候補です。
日本語特化・国内データセキュリティ重視
個人情報や機密情報を含む業務で、データを外部クラウドに送りたくないケースでは、国産モデルまたはオープンウェイトモデルの自社ホスティングが選択肢になります。LLM-jp-3・Swallow・Tanuki・PLaMo-100Bなどを自社GPU環境やオンプレ環境で動作させるアプローチが現実的です。
エッジ・ローカル・低コスト運用
スマートフォンや社内PCで動かしたい、クラウドAPIのコストをゼロにしたい、という場合は小型モデルが適しています。Phi-4(14B)・Gemma 3(9B/27B)・Llama 3.2(3B/8B)・Mistral 7Bがこのカテゴリの定番です。LM Studio・Ollama・llama.cppなどのローカル推論ツールと組み合わせて動かせます。
性能比較:主要ベンチマークで見るLLM
LLMの性能は複数のベンチマークで評価されます。以下は代表的なベンチマークと各モデルの傾向をまとめた表です(2025年上半期時点の公開情報をもとに作成。スコアは変動します)。
| ベンチマーク | 評価内容 | 上位モデル(目安) |
|---|---|---|
| MMLU | 57分野の知識問題(多肢選択) | GPT-4o、Gemini 2.5 Pro、Claude 3.5 Opus |
| HumanEval / SWE-bench | プログラミング課題の正答率 | Claude 3.7 Sonnet、GPT-4.1、DeepSeek-V3 |
| AIME / MATH | 数学競技問題・高校数学 | o3、DeepSeek R1、Gemini 2.5 Pro |
| MT-Bench / Chatbot Arena | 対話品質・ユーザー評価 | GPT-4o、Claude 3.7、Gemini 2.5 Pro |
| Japanese MT-Bench / JMMLU | 日本語理解・対話品質 | GPT-4o、Claude 3系、LLM-jp-3-172B |
| GPQA | 博士レベルの科学QA | o3、Gemini 2.5 Pro、Claude 3.5 Opus |
ベンチマーク上位=実務での最適解ではない点に注意が必要です。特にRAGやツール連携・長文要約など、実際のワークフローに即した評価(社内PoC)を必ず行うことを推奨します。
コスト比較:APIの料金体系
クローズドAPI型モデルは入力・出力それぞれのトークン数に応じた従量課金が基本です。以下は代表的なAPIの参考価格です(2025年上半期時点。変動するため必ず公式を確認してください)。
| モデル | 入力($/1Mトークン) | 出力($/1Mトークン) | 備考 |
|---|---|---|---|
| GPT-4o | $2.50 | $10.00 | バッチAPI利用で50%割引あり |
| GPT-4o mini | $0.15 | $0.60 | 低コスト汎用モデル |
| Claude 3.7 Sonnet | $3.00 | $15.00 | 拡張思考モードで出力増 |
| Gemini 2.5 Pro | $1.25〜$2.50 | $10.00〜$15.00 | 200Kトークン超で高くなる |
| DeepSeek-V3(API) | $0.27 | $1.10 | 圧倒的低コスト、中国産のため情報管理に注意 |
| Mistral Large 2 | $2.00 | $6.00 | EU圏のデータ居住オプションあり |
| Llama 3(自社ホスト) | GPU/サーバー費用のみ | 同左 | インフラ初期費用は高い |
ライセンスと商用利用の注意点
LLMを事業に組み込む際は、ライセンス条件の確認が不可欠です。主な類型を整理します。
- プロプライエタリ(APIのみ):OpenAI・Anthropic・Googleなど。モデルの重みは非公開。利用規約に従うかぎり商用利用可。ただし開発者がモデルの変更権を持たない。
- オープンウェイト・商用可:Llama 3(月間アクティブユーザー7億人超の場合は別途契約必要)・Mistral 7B(Apache 2.0)・Phi-4(MIT)など。自社サーバー・クラウドで動かしてサービス提供可能。重みを改変・ファインチューニングして配布も可。
- 研究・非商用限定:一部の学術モデルや古いGemmaの特定バージョンなど。商用利用前に必ずライセンス文書を確認する。
- DeepSeekの注意事項:MITライセンスで配布されているR1は技術的にはオープンですが、中国企業開発のため、機密データを学習データに含める場合や国家安全保障に関わる業務での利用は慎重な判断が必要です。
クリスタルメソッドにおけるLLM活用の視点
私たちクリスタルメソッドはDeepAI・バーチャルヒューマン事業を展開するなかで、複数のLLMを実業務・プロダクト開発で評価してきました。その経験から言えることは、「汎用ランキング最上位モデルが常に正解ではない」という点です。
たとえばバーチャルヒューマンの対話エンジンを構築する際、応答レイテンシ・感情表現の自然さ・日本語の語感を重視すると、ベンチマーク上位のモデルよりも、ファインチューニング済みの中規模モデルのほうが完成品質が高いケースがあります。また、音声合成・アニメーション生成パイプラインとの統合では、APIのストリーミング対応やFunctionCalling(Tool Use)の柔軟性も重要な選定基準になります。コスト・レイテンシ・品質のトリレンマを用途ごとに最適化することが、実務でのLLM選定の本質です。

LLMを選ぶ際の判断フレームワーク
モデル選定で迷ったときに使える、実践的な判断フレームワークを示します。
✓ 可 → クローズドAPIも選択肢に
✗ 英語中心でよい → Mistral・Phi・Gemmaも検討可
汎用対話・生成 → GPT-4o・Claude 3.7 Sonnet
単純分類・軽量タスク → Phi-4・Gemma 3・Mistral 7B
数十万円 → GPT-4o・Claude Sonnet・Gemini Pro
数百万円〜 → フルスケールAPI + ファインチューニング検討
2025年以降のLLMトレンドと注目点
LLMの進化は2025年以降もさらに加速しています。以下のトレンドは、モデル選定や開発戦略に影響を与えます。
マルチモーダル化の標準化
テキストだけでなく、画像・音声・動画・PDFを統合的に扱えるマルチモーダルLLMが主流になっています。GPT-4o・Gemini 2.5 Pro・Claude 3.5はいずれも画像入力に対応しており、「テキストのみのLLM」はニッチ用途に移行しつつあります。
コンテキストウィンドウの拡大
Gemini 2.5 Proの100万トークン、GPT-4.1の100万トークン対応により、長大な文書全体をモデルに渡して処理することが現実的になっています。RAGアーキテクチャの設計思想も、これにより変わりつつあります。
推論モデルの台頭と選択的利用
o3・DeepSeek R1のような「考えてから答える」推論モデルは、高難度タスクの品質を劇的に向上させた一方、レイテンシとコストが増大します。実際のプロダクトでは、タスクの種類に応じてDense汎用モデルと推論モデルを切り替えるハイブリッド戦略が有効です。
エージェント・ツール利用への対応
関数呼び出し(Function Calling / Tool Use)やコードインタープリターを活用したエージェント型AIが急速に普及しています。モデルを選ぶ際は、ツール連携の精度・並列ツール呼び出しのサポート・エラーリカバリ能力も評価基準に加わっています。
小型モデルの品質向上
Phi-4(14B)やGemma 3(27B)など、数年前の大型モデルに匹敵する性能を持つ小型モデルが続々登場しています。エッジデバイスでの推論やコスト最小化を目指す用途では、わざわざ100B超のモデルを使わずとも十分な品質が得られるケースが増えています。
まとめ
大規模言語モデルは2025年時点で、クローズドAPI型・オープンウェイト型・国産モデル・エッジ向け小型モデルという多様な選択肢が揃っています。GPT-4o・Claude・Geminiが汎用品質のトップを争い、DeepSeek R1やQwQ-32Bが推論特化で存在感を示し、LLM-jp・Swallow・PLaMoなど国産モデルが日本語精度とデータセキュリティの面で独自のポジションを確立しています。
モデル選定の際は、「ベンチマーク最上位=最適解」という思い込みを捨て、データの扱い・日本語精度・タスクの複雑さ・コスト・ライセンスの5軸で総合的に評価することが重要です。また、LLMは半年単位で大きく更新されるため、定期的な再評価と柔軟なモデル切り替えを前提にしたアーキテクチャ設計を心がけることが、長期的な競争力につながります。
関連記事
Study about AI
AIについて学ぶ
-
claude code 権限設定|2026年版ガイド
Claude Code 権限設定の完全ガイド|実務で使える設定例と運用ノウハウ Claude Codeを業務で活用する際、最初の壁になるのが権限設定です。ファイ...
-
claude code 拡張機能|2026年版ガイド
Claude Code 拡張機能とは——できることと全体像 Claude Codeは、AnthropicのAIアシスタント「Claude」をターミナル上で動かす...
-
claude code 学習させない設定|2026年版ガイド
Claude Codeに学習させない設定とは何か Claude Codeを業務で使っていると「自分が入力したコードや会話内容がAnthropicのAI学習に使わ...