blog

AIブログ

Grok 4の性能・スペック徹底解説｜推論アーキテクチャとベンチマーク【2026年版】

grok4系モデルの現行ラインアップ：2026年6月時点の全体像

xAI（イーロン・マスク率いるAI企業）は2026年春、grok4系モデル群の現行ラインアップを確立した。旧世代の Grok 3・Grok 4初版（grok-4-0709）・Grok 4 Fast・Grok 4.1 Fast を含む計8モデルが2026年5月15日（PT 12:00）に引退し、現行体系に集約されている（出典：xAI Docs — May 15, 2026 Model Retirement）。引退済みスラッグは引き続きAPIリクエストを解決するが、すべてGrok 4.3の標準価格で課金される点に注意が必要だ。

現行の旗艦かつ既定モデルはGrok 4.3（2026年4月30日API公開）である。xAI公式は「最も賢く最も速いモデル」と位置付けているが、これはxAIの自称であり、第三者の独立評価と区別して読む必要がある。Artificial Analysis Intelligence Indexでは、Grok 4.3はスコア53で、GPT-5.5（60）・Claude Opus 4.7（57）に劣後している（出典：Artificial Analysis、2026-06-08取得）。自称と独立評価の両方を参照することが、研究者的な正確な性能把握の前提となる。

モデル	位置づけ	コンテキスト	APIスラッグ	API料金（per 1Mトークン）
Grok 4.3（旗艦・既定）	コーディング・調査・複雑な文書ワークフロー向け。ネイティブ動画入力対応。reasoning effort 4段階設定	1Mトークン	`grok-4.3`	入力$1.25 / 出力$2.50
Grok 4.20（推論系）	上位推論モデル。強いエージェント的ツール呼び出しと低ハルシネーション率を訴求。reasoning／non-reasoningの2バリアント	1Mトークン	`grok-4.20-0309-reasoning` / `grok-4.20-0309-non-reasoning`	入力$1.25 / 出力$2.50
Grok 4.20 マルチエージェント	マルチエージェント処理向け専用バリアント	1Mトークン	`grok-4.20-multi-agent-0309`	入力$1.25 / 出力$2.50
Grok 4 Heavy	Grok 4系最上位。SuperGrok Heavy加入者向け	—	—	SuperGrok Heavy（月$300）
Grok Build 0.1（コーディング特化）	エージェント型ソフトウェア開発専用。100+ tokens/sec。旧`grok-code-fast-1`の後継	256kトークン	`grok-build-0.1`	入力$1.00 / 出力$2.00

マルチモーダル処理の技術的背景についてはマルチモーダルAIの解説を参照されたい。Grok 4.3が採用するネイティブ動画入力の設計原理を理解するうえで有益だ。

図1：grok4系現行モデルの系統。2026年6月時点（出典：xAI Docs — Models）

grok4の推論アーキテクチャ：reasoning effortの設計原理と実務上の意味

grok4系の中核的な技術的特徴は、reasoning effort を4段階で制御できる推論モードにある。最終回答を生成する前に内部的に多段階の思考ステップを展開するこの設計は、OpenAIのo系モデルやAnthropicのExtended Thinkingと同類のアプローチだ。

大規模言語モデルの事後学習における汎化特性の研究「チャンキーポストトレーニング：一般化のデータ駆動型失敗」（JST機械翻訳、jglobal.jst.go.jp）は、学習後のモデルが特定のパターンへ過適合しやすいことを指摘している。reasoning effortによる多段階推論は、こうした過適合の弊害を部分的に軽減し汎化性能を引き出す設計的アプローチと解釈できるが、これはxAI公式が明示した説明ではなく、研究知見との対応として参照する位置づけとなる。

reasoning effortの段階設定が実務上意味を持つ場面は明確に分かれる。単純な要約・翻訳・定型的な文書作成ではlow設定で十分であり、数学的証明の検証・多制約最適化・複雑なコードのデバッグではhigh設定を選択する価値がある。処理時間と計算コストが増大するため、タスクの複雑度に応じた使い分けが費用対効果を決定的に左右する。

Grok 4.20（推論系）はこの推論モードをさらに強化し、外部ツールの自律的な呼び出しを伴うエージェント的動作と組み合わせた設計となっている。AIエージェントにおける情報提供方法の研究（J-Stage「AIエージェントにおける効果的な情報提供方法の検討」、jstage.jst.go.jp）が示すように、エージェントの判断精度は入力情報の構造化に大きく依存する。Grok 4.20のマルチエージェントバリアントを実務投入する際は、プロンプト設計と情報構造の整備が性能を直接左右する。

強化学習の理論的背景については強化学習の解説記事が参考になる。grok4系の推論モードが強化学習的なアプローチを援用している可能性を理解する文脈として位置づけられる。

図2：Grok 4.3のreasoning effortによる多段階推論フロー（出典：xAI Docs — Models をもとに構成）

生成AIの業務導入・社内活用をご検討の方は、AI開発会社クリスタルメソッドの無料相談をご利用ください。

grok4のベンチマーク性能：xAI自称と独立評価の対比

grok4系の性能評価において研究者的に不可欠なのは、xAIが提示する自己評価と第三者独立評価を明確に区別して読む姿勢だ。以下の表は、xAI公式発表と独立評価機関による位置づけを対比したものである。

評価軸・指標	Grok 4系（xAI発表）	独立評価・補足	出典
総合知能指標（Artificial Analysis Intelligence Index）	「最も賢く最も速いモデル」（xAI自称）	Grok 4.3：スコア53。GPT-5.5（60）・Claude Opus 4.7（57）に劣後	Artificial Analysis（2026-06-08）
FrontierMath（研究者レベル数学）	~25%超	従来の主要モデルの多くが10%以下とされていた領域でのスコア	xAI News — Grok 4
Grok Build 0.1 処理速度	100+ tokens/sec	コーディング特化。256kコンテキスト	xAI News — Grok Build 0.1 on API

FrontierMathは「現役の数学研究者が数時間から数日を要する問題群」とされており、従来モデルがほぼ解けなかった領域でスコアを記録した点は技術的に注目に値する。ただし、評価環境・プロンプト設計・実行条件によって数値は変動するため、単一ベンチマークを絶対的な基準として採用することは研究者の立場から推奨できない。

Grok 4.20が訴求する「低ハルシネーション率」についても、独立した大規模検証は限られている。専門ドメインにおけるLLMの回答精度が期待値を下回るケースがあることは、骨癌関連質問への回答における大規模言語モデルの精度評価研究（JST機械翻訳、jglobal.jst.go.jp）が示す通りだ。高性能モデルであっても専門的な問いに対するハルシネーションリスクは残存する。実務適用前に自社のユースケースで実機検証を行うことを強く推奨する。

深層学習の基盤的な仕組みについてはディープラーニングの解説、自然言語処理における文脈理解についてはBERTとNLPの解説が、grok4系の技術的背景を体系的に理解するうえで参照価値がある。

各プランの月額やAPIのトークン単価など料金の詳細は、料金専用の Grokの料金プラン解説に、API実装の手順は Grok APIの導入ガイドにまとめています。本記事はGrok 4系モデルの性能・仕様に集中します。

grok4系の実務適用：強みが発揮される場面と認識すべき限界

grok4系の実力を最大限引き出すには、モデルの構造的強みが発揮される用途に絞って投入する戦略が有効だ。以下に研究者・実務者の視点から整理する。

高度な数理・科学推論：FrontierMathでの実績が示すように、研究者レベルの数学・科学問題への対応能力はgrok4系の最大の差別化領域だ。証明の検証・統計解析設計のレビュー・最適化問題の多アプローチ比較において、専門家視点のレビュアーとして機能させることができる。「完全に任せる」のではなく「草稿段階の批判的レビューを依頼する」用法が現時点での現実的な使い方だ。

大規模コードベースのエージェント的処理：Grok Build 0.1（2026年5月20日公開）は100+ tokens/secの処理速度でエージェント型のソフトウェア開発タスクに対応する。複数ファイルにまたがる変更の整合性維持・既存コードの文脈を踏まえたリファクタリング提案・テストケース設計への適性が高い。コーディング関連のAI技術の背景については機械学習の基礎解説も参考になる。

長文・大規模テキストの横断処理：1Mトークンのコンテキストウィンドウは、法律文書・研究論文群・決算資料の全文横断解析を可能にする。ただし、コンテキスト長の増大に伴い文書中間部の情報が相対的に参照されにくくなる「ロスト・イン・ザ・ミドル」的な問題が大規模言語モデル一般に知られており、grok4系も例外ではないとみられる。重要な情報をコンテキストの前半・後半に明示的に配置する工夫が有効だ。

リアルタイム情報へのアクセス：GrokはX（旧Twitter）との統合によりリアルタイムの情報検索が可能であり、学習データのカットオフ日に縛られない点は他の主要モデルとの差別化要素となっている。

一方、以下の限界と注意点は実務者が明確に認識すべきだ。

ハルシネーション（事実の捏造）のリスクはgrok4系でも残存する。学術文献の引用・固有名詞・具体的数値を扱う際は一次情報による照合が不可欠だ。前述の骨癌関連質問への回答精度評価研究（JST機械翻訳）が示すように、専門ドメインにおけるLLMの回答精度がベンチマーク上の高スコアから期待される水準を下回るケースがある。

コストは重タスクで急速に積み上がる。SuperGrok Heavyの月$300（約45,000円）は投資対効果を慎重に見積もったうえで判断すべき水準だ。本番投入前にサンプルデータでのコスト試算を行うことを推奨する。推論モード（reasoning effort高設定）利用時は回答生成に数十秒から数分を要する場合があるため、リアルタイム応答が求められるシステムへの組み込みでは非同期処理の設計が前提となる。

テキストマイニング・大規模データ分析の文脈でgrok4系を活用する際はテキストマイニングの解説、生成系AIの技術的背景についてはGANの解説も合わせて参照することで、grok4系の位置づけを体系的に理解できる。スパースモデリングの観点からLLMの効率化を理解したい場合はスパースモデリングの解説も参照されたい。

grok4系のマルチモーダル処理を表すイメージ（音声・映像の波形） — grok4系のマルチモーダル処理を表すイメージ（出典：クリスタルメソッド株式会社）

弊社クリスタルメソッド株式会社が開発するバーチャルヒューマン・AIアバターソリューション「DeepAI」は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するソリューションであり、リップシンク・表情生成・音声合成・対話AIを組み合わせて接客・研修・面接練習・広報などの用途で活用される。grok4系のマルチモーダル能力やリアルタイム音声APIは、こうしたバーチャルヒューマン領域の対話品質向上に寄与しうる技術として注目している。なお、DeepAIとgrok4系の統合については現時点で確定的な実績・数値を公表していない。

grok4系を含む主要LLMの比較についてはクリスタルメソッドのAIブログで継続的に情報を更新している。

Grok 3・Grok 4 Fastはどうなった？（旧モデルの現在の扱い）

「grok 3」で検索して本記事に辿り着いた方向けに、旧モデルの現状を整理する。Grok 3・Grok 4 Fast・Grok 4.1 Fast・初版Grok 4（grok-4-0709）・grok-code-fast-1 などの旧モデルは、2026年5月15日にまとめて引退し、現在はいずれも現行旗艦のGrok 4.3へ置き換えられている（コーディング系はGrok Build 0.1が後継）。

APIでは旧モデル名（スラッグ）を指定してもリクエスト自体は解決され続けるが、すべてGrok 4.3の標準価格で課金される点に注意が必要だ。旧モデル前提の記事・コードを見かけた場合は、Grok 4.3系へ読み替えるのが2026年6月時点の正しい扱いとなる（出典：xAI Docs — May 15, 2026 Model Retirement、2026年6月8日確認）。

Grok 4の利用方法とアクセス手順

X（旧Twitter）の有料プラン経由での利用

Grok 4は、X（旧Twitter）の有料サブスクリプションプランである「X Premium」および「X Premium+」の加入者向けに提供されています。Webブラウザまたはモバイル版のXアプリからサイドメニューにある「Grok」タブを選択することで、チャットインターフェースにアクセスできます。プランのグレードによって、利用可能なモデルの選択肢や時間あたりのメッセージ送信回数の制限が異なります。

xAI Console（API）経由での利用

開発者や企業向けには、xAIが提供する「xAI Console」を通じてAPIアクセスが提供されています。アカウントを作成し、クレジットカード等の決済情報を登録してAPIキーを発行することで、外部アプリケーションや自社システムにGrok 4を組み込むことが可能です。API経由では、コンテキスト長や推論ステップ（reasoning effort）などのパラメータを細かく制御してリクエストを送信できます。

サードパーティ製プラットフォーム経由での利用

xAIの直接提供するサービス以外にも、複数のLLM（大規模言語モデル）を横断して比較・利用できる外部のAIプラットフォームや、企業の業務効率化を支援するAIツール（天秤AIなど）を介してGrok 4を利用する方法があります。これにより、他の主要モデルと出力を並行して比較しながら業務に適用することが可能になります。

参考文献

xAI Docs — Models: https://docs.x.ai/developers/models（2026-06-08取得）
xAI Docs — May 15, 2026 Model Retirement: https://docs.x.ai/developers/migration/may-15-retirement（2026-06-08取得）
xAI News — Grok 4: https://x.ai/news/grok-4（2026-06-08取得）
xAI News — Grok Build 0.1 on API: https://x.ai/news/grok-build-0-1（2026-06-08取得）
Artificial Analysis — xAI launches Grok 4.3: https://artificialanalysis.ai/articles/xai-launches-grok-4-3-with-improved-agentic-performance-and-lower-pricing（2026-06-08取得）
骨癌関連質問への回答における大言語モデルの精度評価（JST機械翻訳）: https://jglobal.jst.go.jp/detail?JGLOBAL_ID=202602210020191648
AIエージェントにおける効果的な情報提供方法の検討（J-Stage）: https://www.jstage.jst.go.jp/article/marketingreview/7/1/7_2026.001/_article/-char/ja
チャンキーポストトレーニング：一般化のデータ駆動型失敗（JST機械翻訳）: http://jglobal.jst.go.jp/public/202602200302957056

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

ベンチマークスコアを「自分の用途」に翻訳して読む方法

Grok 4のようなモデルを性能で評価するとき、公表ベンチマークの数値をそのまま鵜呑みにすると判断を誤ります。スコアが高い＝あなたのタスクで強い、とは限らないためです。ここでは、ベンチマークの種類を実務タスクに対応づけて読み解く視点を整理します。なお、以下はスコアの「読み方」の整理であり、Grok 4を含む各モデルの具体的な数値の断定は行いません。実際のスコアや最新の測定条件は、必ず公式発表・公式ベンチマークページで確認してください。

ベンチマークの系統と、それが示す「実際の強み」

ベンチマーク系統	測っている能力	この結果が効く実務
知識・多肢選択型（MMLU系・GPQA等）	広範な知識と学術的推論の正確さ	専門文書のQ&A、調査補助、要約の事実精度
数理・競技数学型（AIME等）	多段の論理を崩さず最後まで詰める力	会計・金融ロジック、アルゴリズム設計、検算
コーディング型（SWE-bench等）	実リポジトリでの修正・実装の完遂率	自動バグ修正、既存コードの改修、テスト生成
長文脈・検索統合型	大量入力から必要箇所を取りこぼさない力	契約書レビュー、ログ解析、社内ナレッジ横断

数値を見る前に確認すべき前提

測定条件を揃える：同じベンチでも「推論モードあり／なし」「試行回数（pass@1かmajority votingか）」で数字は大きく変わります。他モデルとの比較は同条件同士でしか意味を持ちません。
飽和（サチュレーション）を疑う：上位モデルが軒並み高得点の指標は差がつきにくく、そこでの数ポイント差はノイズに埋もれます。差別化を見たいなら、まだスコアが伸びしろのある難問系を見ます。
汚染（コンタミネーション）の可能性：学習データにテスト問題が混入していると本来より高く出ることがあります。公開が新しい難問セットや、社内で作った独自問題での再現テストの方が参考になりやすい方法です。
タスク距離を測る：あなたの業務が「多肢選択」ではなく「自由記述の生成」なら、選択式ベンチの高得点は参考程度に留めます。

自前ミニ評価セットの作り方

最終判断は、自社の代表タスク20〜50件程度を固定プロンプトで通し、合否基準を先に決めてから採点する方式が有効です。公表スコアは候補を絞る一次フィルタ、自前セットは採否を決める本審査、と役割を分けると、数値に振り回されずに済みます。

推論（reasoning）モードの挙動を見極め、レイテンシと精度を設計する

Grok 4の性能を語るうえで外せないのが、回答前に内部で思考を展開する推論（reasoning）系の挙動です。推論に時間（test-time compute）を割くほど難問の正答率は上がる傾向がありますが、その分だけ応答は遅く、消費トークンも増える傾向があります。推論の強度を切り替えられるかどうか、また具体的な設定方法（APIパラメータやモード選択の有無など）はモデル・プラン・API仕様によって異なるため、必ず公式ドキュメントで確認してください。ここでは「常にオンが正解」ではなく、タスクごとに設計するという考え方を整理します。

推論を厚くすべきタスク／薄くてよいタスク

推論を厚くする価値が高い	薄くても品質が落ちにくい
多段の計算・証明・検算が要る問題	定型の要約・分類・抽出
制約が多い設計（仕様を満たすコード生成）	言い換え・翻訳・フォーマット変換
矛盾を含む長文からの整合判断	FAQ的な既知の一問一答
失敗コストが高く一発正答が要る場面	下書きで人が後段レビューする前提の生成

「深く考えれば良い」わけではない理由

過剰思考（overthinking）：単純な問いに長い推論を割り当てると、途中で余計な仮定を持ち込み、かえって外すことがあります。易しいタスクは推論を絞る方が安定しやすいとされます。
レイテンシの体感悪化：対話UIやリアルタイム用途では、数十秒に及ぶ思考時間は体験を損なう場合があります。バッチ処理では許容されやすい一方、同期的な応答が求められる用途では許容されにくく、用途に応じた線引きが必要です。
コストの非線形増加：推論トークンは出力に見えなくても、多くの推論対応モデルでは課金や処理時間の対象になります。正確な課金体系・仕様はモデルやプランごとに異なるため、公式の料金ページ・ドキュメントで確認してください。難問だけに厚い推論を回す出し分けが、総コストを抑える設計として有効です。

評価時に取るべき指標

推論モデルは正答率だけで見ると判断を誤ります。以下を同時に記録すると、実運用での可否を検討しやすくなります。

正答率 × 中央値レイテンシ × 消費トークンの3点セットで比較する（平均でなく中央値・95パーセンタイルを併記すると外れ値の遅さが見える）。
難易度別に分解：易・中・難でそれぞれ推論あり／なしを計測し、「難だけ推論オン」の出し分け条件を数値で決める。
再現性：同一入力を複数回流し、答えのブレ幅を見る。ブレが大きいタスクは、推論を厚くするか多数決を挟む設計に切り替える判断材料になります。

性能を「スコア一点」でなく、精度・速度・コストの三次元で捉えることが、Grok 4を実務に載せる際に失敗しにくい見極め方です。

生成AIの業務活用をご検討の方へ

クリスタルメソッドは、ChatGPT・Gemini・Claudeをはじめとする生成AIの業務導入から、自社データを活かすRAG構築・AIアバター開発までを一貫して支援しています。「どのAIを選ぶべきか」「自社業務でどう活かせるか」といったご相談を承っています。

無料相談・お問い合わせ：ご相談はこちら

Study about AI

AIについて学ぶ

生成AIの著作権を巡る海外判例と動向：インドOpenAI訴訟から読み解く日本企業の法的リスク

生成AIの著作権を巡る海外判例と動向：インドOpenAI訴訟から読み解く日本企業の法的リスク生成AIのビジネス活用が急速に進む中、企業の意思決定者が最も注視す...
生成AIのセキュリティリスクと企業対策：GPT-6開発の裏で進む法的リスクから学ぶ安全管理

生成AIの急速な普及に伴い、多くの企業が業務効率化や新規事業創出に向けて導入を進めています。しかし、その利便性の裏には、従来のITシステムとは異なる新たなセキュ...
生成AIの著作権と法的リスクを回避する安全対策｜米国xAI社提訴から学ぶ経営視点の実務

## 生成AIの法的リスクを浮き彫りにしたxAI社への民事訴訟 2026年7月23日、米国の法律事務所Potts Law Firmは、xAI社（Grok AIの...