blog

Grok 4 とは?性能・できること・使い方【2026年版】

Grok 4系モデルとは?xAIが放つ現行ラインアップの全貌

xAI(イーロン・マスク率いるAI企業)は、2026年に入りGrok 4系モデルを矢継ぎ早に投入し、AI業界での存在感を急速に高めています。現行の旗艦モデルはGrok 4.3(2026年4月30日API公開)で、「最も賢く最も速いモデル」と公式が位置付けています。コーディング・調査・複雑な文書ワークフローを中心に、100万(1M)トークンのコンテキストとネイティブ動画入力対応を備えた次世代LLMです。本記事では、現行ラインアップの実力・機能・使い方から、実務での活用シナリオまでを徹底的に深掘りします。

Grok 4系モデルが得意とする高度な数理・科学推論のイメージ
Grok 4系モデルが得意とする高度な数理・科学推論のイメージ

現行モデルラインアップと基本スペック

Grok 4系は、xAIが構築した大規模計算クラスター「Colossus」上で訓練された次世代大規模言語モデル群です。2026年5月15日に旧世代モデル(Grok 3・Grok 4初版`grok-4-0709`・Grok 4 Fast・Grok 4.1 Fastなど8モデル)が引退し、現行ラインアップに集約されました。主要モデルを以下にまとめます。

モデル 位置づけ コンテキスト APIスラッグ
Grok 4.3(旗艦・既定) 現行の最速・主力。コーディング/調査/複雑な文書ワークフロー向け。ネイティブ動画入力対応 1Mトークン grok-4.3
Grok 4.20(推論系) 上位推論モデル。強いエージェント的ツール呼び出しと低ハルシネーション率を訴求。reasoning/non-reasoningの2バリアント 1Mトークン grok-4.20-0309-reasoning / grok-4.20-0309-non-reasoning
Grok 4.20 マルチエージェント マルチエージェント処理向け 1Mトークン grok-4.20-multi-agent-0309
Grok 4 Heavy Grok 4系最上位。SuperGrok Heavy加入者向け
Grok Build 0.1(コーディング) エージェント型ソフトウェア開発専用の最速コーディングモデル。100+ tokens/sec 256kトークン grok-build-0.1

特筆すべきは、Grok 4.3が単純なスケールアップではなく、強化学習による推論最適化(reasoning effort 4段階設定が可能)を標準搭載している点です。複雑な問題に対して内部で多段階の思考ステップを踏んでから回答を生成するため、単純な次トークン予測よりもはるかに高精度な結果が得られます。

ベンチマーク結果:数字で見るGrok 4系の実力

Grok 4系がAI業界で注目を集めた大きな理由は、権威あるベンチマークでの高スコアです。特に数学・科学分野での結果は、多くの競合モデルを上回りました。

主要ベンチマークのスコア比較

ベンチマーク 内容 Grok 4系 主要競合(参考)
AIME 2025 米国数学招待試験 ~93% GPT-4o: ~74%、Claude 3.7: ~81%
HMMT 2025 高校数学トーナメント ~85% 主要競合: 60〜75%台
FrontierMath 研究者レベルの数学問題 ~25%超 既存モデル: 多くが10%以下
GPQA Diamond 博士レベル科学Q&A ~90%超 GPT-4o: ~78%、Claude 3.7: ~84%
SWE-bench Verified 実際のGitHub issueの解決 ~65%超 Claude 3.7: ~62%
Humanity’s Last Exam 人類の最難問集 ~18%超 多くのモデルで5〜10%台

※各スコアはxAI公式発表および第三者機関の検証結果を参照。評価環境によって数値は異なる場合があります。

なお、第三者の独立指標であるArtificial Analysis Intelligence Indexでは、Grok 4.3はスコア53で、GPT-5.5(60)やClaude Opus 4.7(57)に劣後しています(出典:Artificial Analysis)。xAIが「最も賢く最も速い」と自称している点は参考情報として踏まえつつ、独立ベンチも合わせて評価することをお勧めします。

FrontierMathは「現役の数学研究者が数時間〜数日かかる問題群」とされており、従来モデルがほぼ解けなかった領域で25%を超えたことは特に注目に値します。これはGrok 4系が「人間の専門家レベルの知的作業を一部代替し始めた」という証左とも言えます。

Grok 4系の主要機能:何ができるのか

1. 高度な数学・科学推論

Grok 4系の大きな差別化ポイントは、研究者レベルの数学・科学問題を扱える推論能力です。単純な計算や公式適用ではなく、「証明を構築する」「仮説を検証する」「複数のアプローチを比較してより効率的な解法を選ぶ」といった思考プロセスが実用レベルで機能します。

弊社の検証では、大学院レベルの統計学・最適化理論の問題をGrok 4.3に投げたところ、単に答えを出すだけでなく「この解法の前提条件」「別アプローチとのトレードオフ」まで自発的に明示する回答が返ってきました。単なる暗記型の回答ではなく、概念を理解した上での推論が行われていることが確認できます。

2. コーディングとエージェント機能

SWE-benchでの高スコアが示すように、Grok 4系は実際の開発タスクにそのまま使えるレベルのコーディング能力を持っています。特にコーディング特化モデルのGrok Build 0.1(2026年5月20日公開)は、`grok-code-fast-1`の後継としてエージェント型ソフトウェア開発を専門とし、100+ tokens/secの高速処理を実現しています。

  • 複雑なバグの根本原因を特定して修正パッチを生成
  • 既存のコードベースを読み解いてリファクタリング案を提示
  • テストケースの設計から実装まで一貫して対応
  • 複数ファイルにまたがる変更を整合性を保ちながら実行

上位の推論系であるGrok 4.20は、強いエージェント的ツール呼び出しと低ハルシネーション率を訴求しており、複雑な自律タスクへの適性が高いモデルです。

3. 長文コンテキスト処理

Grok 4.3・Grok 4.20は100万(1M)トークンのコンテキストウィンドウを備え、書籍数冊分に相当するテキストを一度に処理することが可能です。実務ユースケースとしては、

  • 長大な法律文書・契約書の全文レビューと要点抽出
  • 大規模コードリポジトリの横断的な分析
  • 研究論文を複数本まとめて比較・統合
  • 長期にわたる会話履歴や業務ログの分析

といった用途が考えられます。弊社では長文の技術仕様書(数万字超)を一度に投入し、要件の抜け漏れチェックに活用する検証を実施しており、実用的な精度が出ていることを確認しています。

4. リアルタイム情報へのアクセス(X連携)

GrokはX(旧Twitter)と緊密に統合されており、リアルタイムの情報検索が可能です。最新ニュース・市場動向・トレンドを即時に取得した上で推論を行えます。情報のカットオフ日に縛られない点は、ChatGPTやClaudeとの大きな差別化要素の一つです。

5. マルチモーダル入力・生成への対応

Grok 4.3はネイティブで動画入力に対応しています。加えて、生成系としてGrok Imagine(画像生成・$0.02〜$0.05/枚)、Grok Imagine Video(動画生成・$0.050〜$0.080/秒)、音声STT($0.10〜$0.20/時)、TTS($15/100万文字)、リアルタイム音声($0.05/分)がAPIで利用可能です。ドキュメントのスキャン画像から情報を抽出したり、図表・グラフを読み解いて数値的な洞察を提供したりする機能は実務で即戦力になります。

Grok 4系の使い方:アクセス方法と料金体系

利用できるプラットフォーム

X(旧Twitter)
X Premium / SuperGrok加入者向けにGrokチャットが利用可能
grok.com
xAIが提供する独立したチャットUI。ブラウザから直接アクセス可能
xAI API
開発者向けAPIエンドポイント。OpenAI互換の形式で利用可能

料金プランの概要

プラン 月額 利用できるモデル 主な特徴
Free(無料) $0 Grok(制限付き) grok.com・Xで利用可。おおむね2時間あたり約10プロンプトの制限
X Premium $8/月(約1,200円) 基本Grokアクセス XのSNS機能込みの基本プラン
SuperGrok Lite $10/月(約1,500円) Grok Imagine(480p・6秒程度)+ AIエージェント1つ 2026年3月25日投入の入門枠。Free比2倍のチャット長
SuperGrok $30/月(約4,500円)/ 年$300 Grok 4.3 + DeepSearchなど X特典なしの単体Grokサブスク
X Premium+ $40/月(約6,000円) Grokアクセス + X特典 広告なし・収益化・表示優遇などXの上位特典込み
SuperGrok Heavy $300/月(約45,000円) Grok 4 Heavy(最高性能) 高負荷プロ・重タスク向け最上位プラン
xAI API 従量課金 Grok 4.3・Grok 4.20・Grok Build 0.1 など Grok 4.3: 入力$1.25/出力$2.50(100万トークンあたり)。月最大約$175相当の無料クレジットあり(条件あり)

※料金・プラン内容は変更される場合があります。最新情報はxAI公式サイト(grok.com/plansdocs.x.ai)をご確認ください。

実務での使い分けとしては、日常的な質問・文書作成にはSuperGrokで十分なケースが多く、複雑な数学的解析や大規模コードベースの処理など重タスクにはSuperGrok HeavyやAPIの利用を検討する流れになります。

Grok 4.3の推論モードとプロセス

Grok 4.3の中核技術の一つが、reasoning effort を4段階で設定できる推論モードです。これはOpenAIのo系モデルやAnthropicのExtended Thinkingに相当する機能で、最終回答を出す前に内部で多段階の思考ステップを踏んでから回答を生成します。

▼ 推論モードの処理フロー
問題の受け取り

問題分解・整理

複数の解法候補を検討

検証・誤り修正

最終回答を生成

このモードが特に威力を発揮するのは、「一見シンプルに見えるが落とし穴がある問題」です。たとえば数学の証明問題で、一般的なモデルが誤った定理を適用して自信満々に間違い回答を返す場面でも、推論モードを使ったGrok 4.3は「この適用は条件を満たしていない」と自己修正しながら正解に到達します。

弊社の実検証でも、論理的に複数のステップが絡み合う問題(例:複数の制約条件を持つ最適化問題)において、推論モードを使用した場合と使用しない場合で回答精度に明らかな差が見られました。処理時間は長くなりますが、精度が重要なタスクでは積極的に活用すべきです。

実務での活用シナリオ

研究・学術用途

FrontierMathでの実績が示すように、Grok 4系は研究者のアシスタントとして実用的なレベルに達しています。具体的には、

  • 論文の数学的証明の検証や別証明の提案
  • 統計解析の設計レビューと潜在的バイアスの指摘
  • 文献調査での概念整理と関連研究のマッピング
  • 実験設計における対照群・変数の設定相談

「完全に任せる」のではなく「専門家レベルのレビュアーとして活用する」という使い方が、現時点での最適解です。

ソフトウェア開発

SWE-benchでの高スコアは実務直結の指標です。弊社では、

  • 既存コードの品質レビューとリファクタリング提案
  • APIドキュメントを読み込ませた上での実装支援
  • テスト戦略の設計とエッジケースの洗い出し
  • パフォーマンスボトルネックの特定と改善案の比較検討

といった用途で実際に稼働させており、特にコーディング特化のGrok Build 0.1はエージェント型の自律的なソフトウェア開発タスクへの適性が高く、「既存コードの文脈を理解した上での修正提案」の精度が高いことを確認しています。

金融・データ分析

大量のテキストデータと数値データを組み合わせた分析タスクでも強みを発揮します。決算資料・アナリストレポートを大量に投入し、指定した観点での比較分析や異常値の検出、将来シナリオの構造化などに活用できます。

法律・コンプライアンス

1Mトークンのコンテキスト処理能力を活かし、契約書や規制文書の全文を一度に解析できます。ただし最終的な法的判断には必ず専門家によるレビューが必要であることは言うまでもありません。

Grok 4系の注意点と限界

Grok 4系が優秀なモデル群であることは確かですが、実務で使う際にはいくつかの点に注意が必要です。

ハルシネーション(幻覚)は依然として発生する

精度が大幅に向上しても、事実の捏造・誤った情報を自信満々に提示するリスクはゼロではありません。特に、学術文献の引用・具体的な数値・固有名詞を扱う際は必ず一次情報での確認が必要です。Grok 4.20は低ハルシネーション率を訴求していますが、過信は禁物です。

コスト面の課題

最高性能のGrok 4 Heavyを使うためにはSuperGrok Heavy(月$300・約45,000円)が必要で、APIでも重いタスクではコストが積み上がります。用途に応じてGrok 4.3(入力$1.25/出力$2.50 per 1Mトークン)とGrok Build 0.1(入力$1.00/出力$2.00)を使い分けるコスト管理の設計が不可欠です。

レスポンス速度

推論モードや重タスクの際は、回答生成に数十秒〜数分かかる場合があります。リアルタイム性が求められるアプリケーションへの組み込みには工夫が必要です。高速処理が優先の場合はGrok Build 0.1(100+ tokens/sec)の活用を検討してください。

プライバシーとデータ管理

機密性の高い情報をAPIや外部サービスに送信する際は、利用規約・データ保持ポリシーを必ず確認してください。エンタープライズ利用では専用契約や自社環境でのデプロイも選択肢に入ります。

他のAIモデルとの比較

Grok 4系は数学・科学の高難度タスクや大規模コンテキスト処理で高い実力を持ちますが、すべての用途でベストというわけではありません。第三者の独立指標(Artificial Analysis Intelligence Index)ではGPT-5.5やClaude Opus 4.7に劣後する領域もあり、GPT-4o・Claude系・Gemini系など主要モデルと用途別に比較・整理することで、自分のユースケースに最適なモデルを選ぶ判断材料が得られます。

各モデルの詳細な比較については、AIモデルの比較(LLM比較)で網羅的に解説しています。Grok 4.3を含む主要モデルの強み・弱み・コスト・ユースケース別の適性を一覧で確認できるので、ツール選定の際にあわせてご参照ください。

Grok 4系のマルチモーダル処理を表すイメージ(音声・映像の波形)
Grok 4系のマルチモーダル処理を表すイメージ(音声・映像の波形)

Grok 4系のロードマップと今後の展望

xAIはGrok 4系ラインアップ投入後も継続的な機能拡充を進めています。現時点で示されている方向性は以下の通りです。

  • エージェント機能の強化:ブラウザ操作・外部ツール呼び出しを含む自律タスク実行の精度向上。Grok 4.20マルチエージェントはその先行実装と位置づけられます
  • マルチモーダルの拡充:動画生成・編集への対応を含む出力モダリティの追加(Grok Imagine Video等は既に提供中)
  • 企業向け機能:エンタープライズ級のセキュリティ・監査ログ・カスタムファインチューニング対応
  • API機能拡張:ファンクションコーリング・ストリーミング・バッチ処理の改善

xAIはColossusクラスターのさらなる拡張も進めており、次世代モデルの訓練に向けたインフラ整備も同時進行しています。AI開発の競争が激化する中、Grok 4系はxAIが「本物のフロンティアモデル」として競争力を持つことを示した重要なマイルストーンです。

まとめ

Grok 4系は、数学・科学・コーディングの高難度タスクと大規模コンテキスト処理において高い実力を持つ、2026年現在注目すべき大規模言語モデル群です。主なポイントを整理します。

  • 現行旗艦はGrok 4.3(APIスラッグ: grok-4.3)。1Mトークンコンテキスト・ネイティブ動画入力対応
  • 上位推論系Grok 4.20は低ハルシネーション率と強力なエージェント的ツール呼び出しを訴求
  • コーディング特化のGrok Build 0.1は100+ tokens/secの高速処理でエージェント型開発に対応
  • AIME・FrontierMath・GPQA Diamondなどで業界上位クラスのスコアを記録(ただし独立指標で首位ではない領域もあり)
  • reasoning effort 4段階設定による多段階推論で「なぜその答えか」を追跡可能
  • X連携のリアルタイム情報アクセスは他モデルにない強み
  • 料金はFree($0)〜SuperGrok Heavy(月$300・約45,000円)まで段階的に選択可能。APIはGrok 4.3で入力$1.25/出力$2.50(per 1Mトークン)

一方で、ハルシネーションリスクは残存しており、重タスクのコストも高めです。「万能ツール」として盲信するのではなく、Grok 4系が突出して強い領域(高度な推論・数学・大規模コード解析・長文処理)に集中投入し、他のモデルと使い分ける戦略が実務では最も効果的です。各モデルの詳細な比較・選定基準については、LLM比較記事も参考にしてください。

関連記事

参考文献

    監修

    河合 継(クリスタルメソッド株式会社 代表取締役)

    AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
    運営会社について編集方針

    AIブログ購読

     
    クリスタルメソッドがお届けする
    AIブログの更新通知を受け取る

    Study about AI

    AIについて学ぶ

    • GPT-5.5 Claude エージェント ベンチマーク選定——日本企業が問い直すべき評価軸

      GPT-5.5 Claude エージェント ベンチマーク選定——日本企業が問い直すべき評価軸

      GPT-5.5がClaude Fable 5を上回った——「Agents’ Last Exam」とは何か 2026年6月、AIエージェント評価の文脈...

    • 米上院 金融AI 規制 公聴会——日本の銀行・証券への実務的示唆

      米上院 金融AI 規制 公聴会——日本の銀行・証券への実務的示唆

      上院 金融AI 規制 公聴会の要点——何が、なぜ今議題に上ったか 2026年6月11日午前10時(米東部夏時間)、米上院銀行・住宅・都市問題委員会(U.S. S...

    • Cerebras NvidiaのGPUに対抗——SuperAI Singaporeデモが日本のAIインフラ調達に示す論点

      Cerebras NvidiaのGPUに対抗——SuperAI Singaporeデモが日本のAIインフラ調達に示す論点

      CerebrasがSuperAI SingaporeでNvidiaのGPUに対抗——デモの概要と報道の背景 2026年6月10〜11日、シンガポールのMarin...

    View more