blog

grok4の現行モデルと性能・料金を研究者視点で徹底解説【2026年版】

grok4の現行モデルと性能・料金を研究者視点で徹底解説【2026年版】

grok4系モデルの現行ラインアップ:2026年6月時点の全体像

xAI(イーロン・マスク率いるAI企業)は2026年春、grok4系モデル群の現行ラインアップを確立した。旧世代の Grok 3・Grok 4初版(grok-4-0709)・Grok 4 Fast・Grok 4.1 Fast を含む計8モデルが2026年5月15日(PT 12:00)に引退し、現行体系に集約されている(出典:xAI Docs — May 15, 2026 Model Retirement)。引退済みスラッグは引き続きAPIリクエストを解決するが、すべてGrok 4.3の標準価格で課金される点に注意が必要だ。

現行の旗艦かつ既定モデルはGrok 4.3(2026年4月30日API公開)である。xAI公式は「最も賢く最も速いモデル」と位置付けているが、これはxAIの自称であり、第三者の独立評価と区別して読む必要がある。Artificial Analysis Intelligence Indexでは、Grok 4.3はスコア53で、GPT-5.5(60)・Claude Opus 4.7(57)に劣後している(出典:Artificial Analysis、2026-06-08取得)。自称と独立評価の両方を参照することが、研究者的な正確な性能把握の前提となる。

モデル 位置づけ コンテキスト APIスラッグ API料金(per 1Mトークン)
Grok 4.3(旗艦・既定) コーディング・調査・複雑な文書ワークフロー向け。ネイティブ動画入力対応。reasoning effort 4段階設定 1Mトークン grok-4.3 入力$1.25 / 出力$2.50
Grok 4.20(推論系) 上位推論モデル。強いエージェント的ツール呼び出しと低ハルシネーション率を訴求。reasoning/non-reasoningの2バリアント 1Mトークン grok-4.20-0309-reasoning / grok-4.20-0309-non-reasoning 入力$1.25 / 出力$2.50
Grok 4.20 マルチエージェント マルチエージェント処理向け専用バリアント 1Mトークン grok-4.20-multi-agent-0309 入力$1.25 / 出力$2.50
Grok 4 Heavy Grok 4系最上位。SuperGrok Heavy加入者向け SuperGrok Heavy(月$300)
Grok Build 0.1(コーディング特化) エージェント型ソフトウェア開発専用。100+ tokens/sec。旧grok-code-fast-1の後継 256kトークン grok-build-0.1 入力$1.00 / 出力$2.00

マルチモーダル処理の技術的背景についてはマルチモーダルAIの解説を参照されたい。Grok 4.3が採用するネイティブ動画入力の設計原理を理解するうえで有益だ。

Grok 4.3 旗艦・既定 / 1Mトークン reasoning effort 4段階 Grok 4.20(推論系) reasoning / non-reasoning multi-agent バリアントあり Grok 4 Heavy 最上位 / SuperGrok Heavy 月$300プラン限定 Grok Build 0.1 コーディング特化 / 256k 100+ tokens/sec Grok Imagine / Video / 音声 生成系マルチモーダル 画像・動画・STT・TTS・リアルタイム音声
図1:grok4系現行モデルの系統。2026年6月時点(出典:xAI Docs — Models)

grok4の推論アーキテクチャ:reasoning effortの設計原理と実務上の意味

grok4系の中核的な技術的特徴は、reasoning effort を4段階で制御できる推論モードにある。最終回答を生成する前に内部的に多段階の思考ステップを展開するこの設計は、OpenAIのo系モデルやAnthropicのExtended Thinkingと同類のアプローチだ。

大規模言語モデルの事後学習における汎化特性の研究「チャンキーポストトレーニング:一般化のデータ駆動型失敗」(JST機械翻訳、jglobal.jst.go.jp)は、学習後のモデルが特定のパターンへ過適合しやすいことを指摘している。reasoning effortによる多段階推論は、こうした過適合の弊害を部分的に軽減し汎化性能を引き出す設計的アプローチと解釈できるが、これはxAI公式が明示した説明ではなく、研究知見との対応として参照する位置づけとなる。

reasoning effortの段階設定が実務上意味を持つ場面は明確に分かれる。単純な要約・翻訳・定型的な文書作成ではlow設定で十分であり、数学的証明の検証・多制約最適化・複雑なコードのデバッグではhigh設定を選択する価値がある。処理時間と計算コストが増大するため、タスクの複雑度に応じた使い分けが費用対効果を決定的に左右する。

Grok 4.20(推論系)はこの推論モードをさらに強化し、外部ツールの自律的な呼び出しを伴うエージェント的動作と組み合わせた設計となっている。AIエージェントにおける情報提供方法の研究(J-Stage「AIエージェントにおける効果的な情報提供方法の検討」、jstage.jst.go.jp)が示すように、エージェントの判断精度は入力情報の構造化に大きく依存する。Grok 4.20のマルチエージェントバリアントを実務投入する際は、プロンプト設計と情報構造の整備が性能を直接左右する。

強化学習の理論的背景については強化学習の解説記事が参考になる。grok4系の推論モードが強化学習的なアプローチを援用している可能性を理解する文脈として位置づけられる。

reasoning effortによる多段階推論フロー(Grok 4.3) 問題の受け取り 入力解釈・整理 問題分解・整理 サブタスクへの分割 複数解法の検討 アプローチ比較・選択 検証・誤り修正 自己批判・修正 最終回答 生成・出力
図2:Grok 4.3のreasoning effortによる多段階推論フロー(出典:xAI Docs — Models をもとに構成)

grok4のベンチマーク性能:xAI自称と独立評価の対比

grok4系の性能評価において研究者的に不可欠なのは、xAIが提示する自己評価と第三者独立評価を明確に区別して読む姿勢だ。以下の表は、xAI公式発表と独立評価機関による位置づけを対比したものである。

評価軸・指標 Grok 4系(xAI発表) 独立評価・補足 出典
総合知能指標(Artificial Analysis Intelligence Index) 「最も賢く最も速いモデル」(xAI自称) Grok 4.3:スコア53。GPT-5.5(60)・Claude Opus 4.7(57)に劣後 Artificial Analysis(2026-06-08)
FrontierMath(研究者レベル数学) ~25%超 従来の主要モデルの多くが10%以下とされていた領域でのスコア xAI News — Grok 4
Grok Build 0.1 処理速度 100+ tokens/sec コーディング特化。256kコンテキスト xAI News — Grok Build 0.1 on API

FrontierMathは「現役の数学研究者が数時間から数日を要する問題群」とされており、従来モデルがほぼ解けなかった領域でスコアを記録した点は技術的に注目に値する。ただし、評価環境・プロンプト設計・実行条件によって数値は変動するため、単一ベンチマークを絶対的な基準として採用することは研究者の立場から推奨できない。

Grok 4.20が訴求する「低ハルシネーション率」についても、独立した大規模検証は限られている。専門ドメインにおけるLLMの回答精度が期待値を下回るケースがあることは、骨癌関連質問への回答における大規模言語モデルの精度評価研究(JST機械翻訳、jglobal.jst.go.jp)が示す通りだ。高性能モデルであっても専門的な問いに対するハルシネーションリスクは残存する。実務適用前に自社のユースケースで実機検証を行うことを強く推奨する。

深層学習の基盤的な仕組みについてはディープラーニングの解説、自然言語処理における文脈理解についてはBERTとNLPの解説が、grok4系の技術的背景を体系的に理解するうえで参照価値がある。

grok4の料金体系:プラン選択の判断軸

grok4系は無料枠から最上位の法人向けAPIまで段階的な価格帯を持つ。以下に2026年6月時点の料金体系を整理する(出典:grok.com/plans・docs.x.ai、2026-06-08取得)。

プラン 月額(USD) 主に利用できるモデル 主な制約・特徴
Free(無料) $0 Grok(制限付き) grok.com・X経由。おおむね2時間あたり約10プロンプトの制限
X Premium $8(約1,200円) 基本Grokアクセス XのSNS機能込み。Grok利用が主目的でない場合向け
SuperGrok Lite $10(約1,500円) Grok Imagine(480p・6秒程度)+AIエージェント1つ 2026年3月25日投入の入門枠。Free比2倍のチャット長
SuperGrok $30(約4,500円)/ 年$300 Grok 4.3・DeepSearchなど X特典なし。単体Grokサブスク。日常的な調査・文書作業に適する
X Premium+ $40(約6,000円) Grokアクセス+X特典 広告なし・収益化・表示優遇。Xのヘビーユーザー向け
SuperGrok Heavy $300(約45,000円) Grok 4 Heavy(最上位) 高負荷・重タスク向けの最上位コンシューマプラン
xAI API(従量) 従量課金 Grok 4.3・Grok 4.20・Grok Build 0.1ほか Grok 4.3:入力$1.25/出力$2.50。Grok Build 0.1:入力$1.00/出力$2.00(per 1Mトークン)。月最大約$175相当の無料クレジットあり(条件あり)

留意すべき命名上の混乱として、「SuperGrok Premium+」という名称のプランは存在しない。正しくはX Premium+($40)とSuperGrok($30)は別物であり、目的に応じた選択が必要だ(出典:grok.com/plans)。

マルチモーダル生成のAPI単価は、Grok Imagine(画像生成)が$0.02〜$0.05/枚、Grok Imagine Video(動画生成)が$0.050〜$0.080/秒、音声STTが$0.10〜$0.20/時、TTSが$15/100万文字、リアルタイム音声が$0.05/分となっている(出典:xAI Docs — Models)。

実務でのプラン選択指針として、日常的な調査・文書作成・コーディング支援であればSuperGrok($30)が合理的な出発点となる。大規模コードベースの解析・複雑な数理推論・長文処理をAPIで自動化するならxAI API(Grok 4.3)が適切だ。Grok 4 Heavyが必要なケースは、SuperGrok Heavy($300)への投資が正当化されるかを用途の複雑度とコスト対効果の両面から慎重に判断したうえで決定すべきだ。

grok4系の実務適用:強みが発揮される場面と認識すべき限界

grok4系の実力を最大限引き出すには、モデルの構造的強みが発揮される用途に絞って投入する戦略が有効だ。以下に研究者・実務者の視点から整理する。

高度な数理・科学推論:FrontierMathでの実績が示すように、研究者レベルの数学・科学問題への対応能力はgrok4系の最大の差別化領域だ。証明の検証・統計解析設計のレビュー・最適化問題の多アプローチ比較において、専門家視点のレビュアーとして機能させることができる。「完全に任せる」のではなく「草稿段階の批判的レビューを依頼する」用法が現時点での現実的な使い方だ。

大規模コードベースのエージェント的処理:Grok Build 0.1(2026年5月20日公開)は100+ tokens/secの処理速度でエージェント型のソフトウェア開発タスクに対応する。複数ファイルにまたがる変更の整合性維持・既存コードの文脈を踏まえたリファクタリング提案・テストケース設計への適性が高い。コーディング関連のAI技術の背景については機械学習の基礎解説も参考になる。

長文・大規模テキストの横断処理:1Mトークンのコンテキストウィンドウは、法律文書・研究論文群・決算資料の全文横断解析を可能にする。ただし、コンテキスト長の増大に伴い文書中間部の情報が相対的に参照されにくくなる「ロスト・イン・ザ・ミドル」的な問題が大規模言語モデル一般に知られており、grok4系も例外ではないとみられる。重要な情報をコンテキストの前半・後半に明示的に配置する工夫が有効だ。

リアルタイム情報へのアクセス:GrokはX(旧Twitter)との統合によりリアルタイムの情報検索が可能であり、学習データのカットオフ日に縛られない点は他の主要モデルとの差別化要素となっている。

一方、以下の限界と注意点は実務者が明確に認識すべきだ。

ハルシネーション(事実の捏造)のリスクはgrok4系でも残存する。学術文献の引用・固有名詞・具体的数値を扱う際は一次情報による照合が不可欠だ。前述の骨癌関連質問への回答精度評価研究(JST機械翻訳)が示すように、専門ドメインにおけるLLMの回答精度がベンチマーク上の高スコアから期待される水準を下回るケースがある。

コストは重タスクで急速に積み上がる。SuperGrok Heavyの月$300(約45,000円)は投資対効果を慎重に見積もったうえで判断すべき水準だ。本番投入前にサンプルデータでのコスト試算を行うことを推奨する。推論モード(reasoning effort高設定)利用時は回答生成に数十秒から数分を要する場合があるため、リアルタイム応答が求められるシステムへの組み込みでは非同期処理の設計が前提となる。

テキストマイニング・大規模データ分析の文脈でgrok4系を活用する際はテキストマイニングの解説、生成系AIの技術的背景についてはGANの解説も合わせて参照することで、grok4系の位置づけを体系的に理解できる。スパースモデリングの観点からLLMの効率化を理解したい場合はスパースモデリングの解説も参照されたい。

grok4系のマルチモーダル処理を表すイメージ(音声・映像の波形)
grok4系のマルチモーダル処理を表すイメージ(出典:クリスタルメソッド株式会社)

弊社クリスタルメソッド株式会社が開発するバーチャルヒューマン・AIアバターソリューション「DeepAI」は、実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するソリューションであり、リップシンク・表情生成・音声合成・対話AIを組み合わせて接客・研修・面接練習・広報などの用途で活用される。grok4系のマルチモーダル能力やリアルタイム音声APIは、こうしたバーチャルヒューマン領域の対話品質向上に寄与しうる技術として注目している。なお、DeepAIとgrok4系の統合については現時点で確定的な実績・数値を公表していない。

grok4系を含む主要LLMの比較についてはクリスタルメソッドのAIブログで継続的に情報を更新している。

参考文献

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • 生成AIオンプレミス導入と規制リスク——Anthropic輸出規制が示す自社インフラ回帰の必然

    生成AIオンプレミス導入と規制リスク——Anthropic輸出規制が示す自社インフラ回帰の必然

    Anthropicの輸出規制命令——生成AIオンプレミス導入が「規制リスク対策」に変わった瞬間 2026年6月、米国政府はAnthropicに対し、新モデル「M...

  • EU AI規制 企業対応の実務——ENISAとAnthropicの協議が示す日本企業への含意

    EU AI規制 企業対応の実務——ENISAとAnthropicの協議が示す日本企業への含意

    ENISAがAnthropicと直接協議——EU AI規制の監視が生成AIへ本格移行 欧州サイバーセキュリティ機関ENISA(European Union Ag...

  • Claude障害が招く業務影響と対策——AI依存リスクの経営管理指針

    Claude障害が招く業務影響と対策——AI依存リスクの経営管理指針

    Claude障害の実態:2026年6月インシデントが示すもの 2026年6月18日、AnthropicのAIチャットボット「Claude」(claude.ai)...

View more