blog

AIブログ

Claude Code ローカルLLM完全ガイド――構成・手順・モデル選定まで

Claude Codeは公式にはAnthropicのMessages APIクライアントとして設計されており、OllamaやDeepSeekといったサードパーティLLMの直接サポートは公式ドキュメントに記載がない。ただし、ANTHROPIC_BASE_URL環境変数でエンドポイントを差し替えることで、Anthropic Messages API互換ゲートウェイを介してローカルLLMと接続する構成が試みられている。本記事ではその仕組みと限界、実装上の注意点を公式情報に基づいて整理する。

Claude Code ローカルLLM接続の全体像――アーキテクチャと公式の立場

Claude Codeは、デフォルトではAnthropicのAPIエンドポイントへ通信してクラウド上のClaudeモデルを呼び出す。公式ドキュメント（Claude Code公式 LLMゲートウェイ）によれば、ANTHROPIC_BASE_URLに任意のゲートウェイURLを指定し、ANTHROPIC_AUTH_TOKENまたはANTHROPIC_API_KEYで認証することで、Anthropic Messages API互換のゲートウェイを経由した接続が可能になる。

重要な前提として、OllamaやDeepSeek、Qwenといったサードパーティ製LLMはClaude Codeの公式サポート対象ではない。公式が対応しているのは、あくまで「Claudeモデルの別ホスティング」（Amazon Bedrock・Google Vertex AI・Microsoft Foundry）と「Messages API互換ゲートウェイ」（LiteLLM等のサードパーティOSSを含む）の2系統だ（Claude Code公式モデル設定）。ローカルLLMを接続するには、OllamaやLM Studioが公開するOpenAI互換APIを、LiteLLMのようなゲートウェイでAnthropic Messages API形式へ変換する層を挟む必要がある。この構成は動作保証のない非公式な試みであることを前提として理解しておく必要がある。

なお、OLLAMA_BASE_URL・DEEPSEEK_API_KEY・QWEN_ENDPOINT・LLM_MODEL_OVERRIDEといった環境変数はClaude Codeに存在しない。これらの名称を見かけた場合は、情報源の信頼性を確認されたい。

図1: ローカルLLM接続の基本構成。Claude CodeはAnthropic Messages API互換ゲートウェイ（LiteLLM等）を介してローカル推論サーバーへ接続する。この構成はClaude Code公式の動作保証対象外である。出典: Claude Code公式 LLMゲートウェイ

Claude Code全般の概要はClaude Codeとはを、インストール手順の詳細はClaude Codeインストール手順記事を参照されたい。

公式サポートされるモデル接続――クラウドプロバイダ経由とゲートウェイ経由

ローカルLLM接続の設計を検討する前に、Claude Codeが公式にサポートする接続方式を把握しておく必要がある。公式ドキュメントが明示する接続先はいずれもClaudeモデルのホスティング先変更か、Messages API互換ゲートウェイの2種類だ。

クラウドプロバイダ経由（Claudeモデルを別環境でホスト）

Amazon Bedrock: CLAUDE_CODE_USE_BEDROCK=1 を設定し、AWS認証を構成する（Claude Code公式 Amazon Bedrock）。
Google Vertex AI: CLAUDE_CODE_USE_VERTEX=1 を設定し、GCP認証を構成する（Claude Code公式 Google Vertex AI）。
Microsoft Foundry: CLAUDE_CODE_USE_FOUNDRY=1 を設定する（Claude Code公式 Microsoft Foundry）。

いずれの場合も、実際に動作するモデルはAnthropicのClaudeである。サードパーティLLMへの切り替えとは根本的に異なる。

LLMゲートウェイ経由

Anthropic Messages API（/v1/messages）と互換性のあるゲートウェイであれば、ANTHROPIC_BASE_URLにゲートウェイのURLを指定することで接続できる（Claude Code公式 LLMゲートウェイ）。ゲートウェイ側には/v1/messagesの実装とanthropic-beta・anthropic-versionヘッダの転送が必要だ。認証はANTHROPIC_AUTH_TOKENまたはANTHROPIC_API_KEYで行う。

サードパーティOSSのLiteLLMはこの互換ゲートウェイの代表的な実装例として言及されているが、AnthropicによるLiteLLM自体の動作保証はない点に注意が必要だ。

ローカルLLM接続のセットアップ手順――LiteLLMゲートウェイを介した構成例

以下はLiteLLMゲートウェイ経由でOllamaのローカルLLMをClaude Codeに接続する際の概略手順だ。これは公式サポート対象外の構成であり、ツール呼び出し（function calling）の互換性や拡張機能（thinking・prompt caching・長コンテキスト等）については動作保証がない。検証・実験的用途に限定して利用されたい。

Ollamaをインストールし、対象モデルを取得する。
ollama pull gemma4:26b（例）
Ollamaの推論サーバーを起動する。デフォルトポートは11434。
ollama serve
LiteLLMをインストールし、OllamaのOpenAI互換エンドポイントをAnthropic Messages API形式へ変換するゲートウェイとして起動する。具体的な設定はLiteLLMの公式ドキュメントを参照のこと。
Claude Code側の環境変数を設定する。ANTHROPIC_BASE_URLにLiteLLMゲートウェイのURLを指定する。
export ANTHROPIC_BASE_URL=http://localhost:4000（LiteLLMのデフォルト例）
export ANTHROPIC_API_KEY=dummy（ローカル利用時はダミー値を設定）
claudeコマンドを起動し、応答が返ることを確認する。

なお、claude-code-routerなどのコミュニティツールでローカルLLMとの接続を試みる事例もあるが、これらは非公式・無保証であり、Claude Codeのアップデートにより予告なく動作しなくなる可能性がある。APIキーを仲介する構成はセキュリティリスクも伴うため、本番環境への採用は推奨されない。

動作確認で最初に踏むトラブルとその対処

接続後に頻出するのがtool use（関数呼び出し）非対応に起因するエラーだ。Claude Codeはファイル操作・コマンド実行・コード編集をfunction callingで呼び出す設計になっており、この機能を正確に実装していないモデルでは会話が成立しないかエラーが連続する。さらに、Claude Code固有の拡張機能（thinkingモード・prompt caching・大容量コンテキスト等）はローカルLLMでは利用できない。モデル選定の段階でtool use対応状況を確認するのは必須工程だ。

次に多いのがコンテキスト長不足だ。Claude Codeはエージェントとして複数ターンにわたる長いコンテキストを保持する。Ollamaの場合はnum_ctxパラメータを明示的に設定しなければデフォルト値（モデルによっては4K程度）で動作し、長大なコードベースを扱う最中に無言でトランケートされる問題が発生する。起動オプションまたはModelfileで32K以上に引き上げることを推奨する。

Claude Codeのスラッシュコマンドや操作全般についてはClaude Codeスラッシュコマンド解説とClaude Codeの使い方ガイドも参照されたい。

推奨モデル比較と選定基準――2026年6月時点で実用に耐えるローカルモデル

GMOエンジニアブログ（2026/04/20）は、十分なGPUメモリを備えたデスクトップPCであればGemma 4（26B-A3B）が有効な選択肢と報告し、Qwen3系も有力候補として言及している（GMO Next Generationブログ, 2026/04/20）。Knowleful AI（2026/04/22）は「2026年にローカルLLMが注目されているのは、使わない理由がなくなってきたから」と評し、コーディング性能の底上げを背景として指摘している（Knowleful AI, 2026/04/22）。

Harmonic Society（2026/03/22）は「量子化によってモデルサイズを圧縮し、少ないVRAMでも動作させることが可能」と整理しており（Harmonic Society, 2026/03/22）、Q4_K_M等のフォーマットを使えばVRAM 12GB前後の一般的なデスクトップGPUでも30B規模のモデルを動作させられる場合がある。ただし量子化の深さに比例してコーディング精度が低下するリスクも伴う。

Mac環境では、Reddit（r/LocalLLaMA）のスレッドでMac Studio M3 Ultra（256GBユニファイドメモリ）を推論サーバーとして活用している事例が報告されており（Reddit r/LocalLLaMA）、Apple Siliconの大容量ユニファイドメモリがローカルLLM実行環境として有効に機能することが確認できる。

以下の比較表は2026年5〜6月時点で入手可能な情報をもとに整理したものだ。推論速度・品質はハードウェア環境により大きく変動するため、あくまでモデル選定の出発点として参照されたい。なお、これらのモデルはいずれもClaude Codeの公式サポート対象外であり、ゲートウェイを介した接続においても動作が保証されるわけではない。

表1: Claude Code ローカルLLM接続モデル候補比較（2026年6月時点・非公式構成）
モデル	パラメータ規模	VRAM目安	tool use対応	コーディング適性	主な特徴・留意点
Gemma 4 (26B-A3B)	26B（MoEアーキテクチャ）	約16GB	対応	高	Google製MoE。Claude Codeとの連携報告あり（非公式）。量子化版で12GB環境にも対応可
Qwen3系（30B前後）	30B前後	約18〜24GB	対応	高	多言語・コーディング双方に強い。Function calling実装の完成度が高い
Qwen2.5-Coder系	7B / 32B	6GB〜20GB	モデルサイズによる	高（コーディング特化）	コード補完・補修に特化。7B量子化版は低スペック環境でも動作
DeepSeek-Coder-V2系	16B〜（MoE上位は大規模）	10GB〜（量子化依存）	一部対応	高	大規模コードベースの理解に強いとされるが、tool use互換性は要検証
Llama 3系（8B）	8B	約6GB	対応	中	省リソース・汎用。軽量構成の動作確認や入門的な試験運用に適する

モデル選定で外せない実務上のチェックポイントは3点だ。第一にtool use（function calling）の対応状況、第二にコンテキスト長（実用上32K以上が望ましい）、第三に商用ライセンスの可否だ。これらを満たさないモデルをバックエンドに採用しても、エージェント動作が安定しない。加えて、Claude Code固有の拡張機能（thinking・prompt caching等）はいずれのローカルLLMでも利用できない点を前提として計画する必要がある。

Claude CodeをクラウドAPIで運用する場合のコスト構造についてはClaude Code APIの料金詳細解説を参照されたい。ローカル運用との費用対効果を比較する際の基準値になる。また、Claude Code料金プランの全体像はClaude Code料金・プラン解説記事にまとめてある。

Claude Code・AIエージェントの業務導入をご検討の方は、自社での開発実例を公開しているクリスタルメソッドの無料相談をご利用ください。

コスト削減・セキュリティの実態とトレードオフ――ローカル運用の限界を正確に把握する

ローカルLLM接続を検討する主要な動機は2つだ。APIコストの排除と、コード・データを外部へ送出しないセキュリティ要件の充足。機密性の高いソースコードや個人情報を扱うプロジェクトでは、ネットワーク外への通信を物理的に遮断できる点が意思決定の決め手になることが多い。

IPAが2026年3月に公開した「AIセキュリティ短信 2026年3月号」は、LLMを活用したシステムにおけるリスク管理の重要性とデータ送信先の管理体制について言及している。組織的なセキュリティポリシーの観点からクラウドLLMの利用可否を検討する際の参照資料として有用だ（IPA AIセキュリティ短信 2026年3月号）。

IPAの2025年度未踏IT人材発掘・育成事業の採択案件評価書でも、LLMを活用した開発支援ツールの実用化において「モデルの出力精度と応答速度のバランス」が開発体験を左右する重要因子として言及されており（IPA 2025年度未踏IT人材採択案件評価書）、ローカル運用においても同じ観点が適用される。

一方でトレードオフも明確に存在する。採用前に把握しておくべき主要な制約を以下に整理する。

推論品質の差: 2026年時点においても、複雑なリファクタリング・大規模アーキテクチャ設計・曖昧な要件からの仕様起こしなど、難度の高いタスクではクラウド上の最新世代Claudeモデルが依然として品質優位を持つ。シンプルなコード生成や補完には対応できる場合があるが、要件の複雑さに応じてローカルとクラウドを使い分ける判断が求められる。
拡張機能の非対応: thinkingモード・prompt caching・大容量コンテキスト（1Mトークン等）はローカルLLMでは利用できない。これらの機能に依存したワークフローはローカル構成では再現できない。
初期投資と損益分岐点: 高性能GPU（RTX 4090等）やApple Silicon搭載Macの調達費用は数十万円規模になる。APIの利用頻度が低いチームでは、クラウドAPIの課金総額が調達費用を下回る可能性があり、単純な「コスト削減」の論理が成立しないケースがある。
インフラ管理オーバーヘッド: モデルのバージョン管理・量子化設定・推論サーバーの安定稼働・ゲートウェイ（LiteLLM等）の維持管理など、クラウドAPIにはないインフラ管理コストが発生する。特に複数人が共有する開発環境では設計が煩雑になる。
tool use互換性の個体差: tool useの実装品質はモデルごとに差があり、同じモデルでもバージョンや量子化フォーマットにより挙動が変わることがある。セットアップ段階での徹底した動作確認を必須工程として位置づける必要がある。
非公式構成のサポートリスク: Claude Codeのアップデートにより、ゲートウェイ経由の接続が予告なく動作しなくなる可能性がある。本番環境への採用は慎重に検討されたい。

J-STAGEに掲載された「LLM時代における障害者のソフトウェア開発参加の可能性」（LAM Vol.3）は、LLMを用いた開発支援が多様な開発者の参加機会を拡大する可能性を論じており（J-STAGE, LAM Vol.3）、ローカルLLMの普及がオフライン・機密環境の開発者にも恩恵をもたらしうるという視点は、ユニバーサルな開発環境整備を考える上で参照に値する。

ローカルLLM接続を現実的にどう使うか（一次情報）

当メディアの監修者・河合継はClaude Codeを3.5の時代から1年以上、実務で運用してきた。ローカルLLM接続は魅力的に見えるが、実際に効く場面は限られる。期待と現実のギャップを補足する。

主力の開発はホストされたモデルに任せ、ローカルは目的を絞る。込み入った実装や難しいデバッグでは、品質差がそのまま手戻りに跳ね返る。ローカルLLMは「外に出せないコードを扱う」「オフラインで動かしたい」といった、品質より制約が優先される場面に絞ると失望が少ない。
「コストが浮く」は運用と機材のコストまで含めて考える。API料金は減っても、動かすマシン・セットアップ・保守の手間が乗る。トータルで本当に得かは扱う量と求める品質次第で、安易な「ローカル＝無料」では計算が合わないことが多い。
機密性が目的なら、接続経路と権限まで設計する。モデルをローカルにしても、周辺の通信や権限設計が緩ければ意味が薄れる。本文の注意点のとおり、目的が機密保持なら経路全体を設計して初めて効果が出る。

実装上の注意点とセキュリティ設計――本番導入前に確認すべき事項

ローカルLLM接続を組織的な開発環境やCIパイプラインへ組み込む際には、単なる動作確認を超えた設計判断が求められる。

エンドポイント認証とネットワーク分離

OllamaをはじめとするローカルLLMサーバーは、デフォルトで認証なしのエンドポイントを公開する設定になっている場合が多い。複数人が利用する共有開発環境では、バインドアドレスの制限（localhostのみ許可）またはリバースプロキシでの認証付加を設計段階から組み込む必要がある。開発機と推論サーバーが異なるホストになる場合は、VPN経由の通信を基本として設計するべきだ。IPAのAIセキュリティ短信が示すLLMシステムのリスク管理の観点は、ローカル運用においても同様に適用される（IPA AIセキュリティ短信 2026年3月号）。

モデルライセンスの事前確認

商用利用可否・再配布条件はモデルごとに異なる。Gemma、Qwen、Llama系それぞれのライセンス条項を法務確認した上で採用する必要がある。量子化・GGUF変換版は元モデルのライセンスを継承することが多いが、変換元と変換版で条件が異なる場合もあるため個別確認が必要だ。エンタープライズ利用においてこの確認を省略するリスクは高い。

プロンプト・ログの管理

ローカル運用であってもプロンプトのログは残る。コードに含まれる認証情報・APIキー・個人情報がログに混入するリスクを考慮し、ログの保存先・保存期間・アクセス権限を明確に定義しておく必要がある。特にCI環境でClaude Codeを自動実行する場合は、ログのマスキング処理を組み込むことを推奨する。

量子化精度と実用性のバランス

VRAM制約からQ3_K_Sなど深い量子化を選ぶと、コーディングタスクでの精度低下が顕著になる場合がある。実際の開発タスク（例: 特定コードベースへの機能追加、バグ修正）でのベンチマークを自組織の環境で取得し、許容できる精度水準を定量的に把握した上で量子化フォーマットを確定することを勧める。Harmonic Society（2026/03/22）が指摘するように量子化による軽量化は有効な手段だが（Harmonic Society, 2026/03/22）、精度との兼ね合いを自組織のユースケースで検証する工程は省略できない。

Claude CodeとCursorの比較・ツール選定の観点についてはClaude Code vs Cursor比較記事を参照されたい。ローカルLLM対応の有無はツール選定の重要な軸の一つになる。また、Claude CodeとCodexの比較についてはClaude Code vs Codex比較記事も有用だ。初めてClaude Codeに触れる場合はClaude Code入門ガイドから始めることを勧める。

図2: ローカルLLM導入判断フロー。セキュリティ要件・ハードウェア調達状況・コスト比較を順に検討し、採用可否を判断する。ローカルLLM接続はClaude Code公式の動作保証対象外であることに注意。

弊社が開発するDeepAIは、実在の人物の容姿・表情・声を忠実に再現するバーチャルヒューマン／AIアバター製品だ。弊社DeepAIは実在の人物の容姿・表情・声・振る舞いをデジタル空間で再現するバーチャルヒューマン／AIアバター製品であり、コーディングエージェントとは異なる用途でAI活用を支援している。ローカルLLMによる開発効率化と組み合わせた製造・検査ラインの自動化について相談したい方は、弊社クリスタルメソッドまでお問い合わせいただきたい。

利用できるモデルも進化を続けており、現在はClaude 5世代（最上位のFable 5、速度と知能のバランスに優れたSonnet 5）とOpus 4.8・Haiku 4.5が使えます。

まとめ

Claude Codeは公式にはAnthropic Messages APIクライアントであり、OllamaやDeepSeek、Qwenといったサードパーティ製ローカルLLMの直接サポートは存在しない（Claude Code公式モデル設定）。ローカルLLMとの接続を試みる場合は、LiteLLM等のAnthropic Messages API互換ゲートウェイを介する非公式な構成が現実的な選択肢だが、ツール呼び出し形式の互換性やClaude Code固有の拡張機能（thinking・prompt caching等）については動作保証がない（Claude Code公式 LLMゲートウェイ）。

公式にサポートされる代替ホスティングはAmazon Bedrock（公式）・Google Vertex AI（公式）・Microsoft Foundry（公式）の3系統であり、いずれもClaudeモデルを別環境でホストするものだ。セキュリティ要件やコスト要件によっては、これらの公式サポートルートを優先的に検討するべきであり、ローカルLLM接続は実験的・検証的な用途に留めることを推奨する。

参考文献

Claude Code公式「モデル設定」
https://code.claude.com/docs/en/model-config
Claude Code公式「LLMゲートウェイ」
https://code.claude.com/docs/en/llm-gateway
Claude Code公式「Amazon Bedrock」
https://code.claude.com/docs/en/amazon-bedrock
Claude Code公式「Google Vertex AI」
https://code.claude.com/docs/en/google-vertex-ai
Claude Code公式「Microsoft Foundry」
https://code.claude.com/docs/en/microsoft-foundry
IPA「AIセキュリティ短信 2026年3月号」
https://www.ipa.go.jp/digital/ai/security/rcu1hd0000007gji-att/2-1_202603.pdf
IPA「2025年度未踏IT人材発掘・育成事業採択案件評価書」
https://www.ipa.go.jp/jinzai/mitou/it/2025/rcu1hd000000czdf-att/hyouka-tk-1.pdf
J-STAGE「LLM時代における障害者のソフトウェア開発参加の可能性」LAM Vol.3
https://www.jstage.jst.go.jp/article/lam/3/0/3_105/_pdf
日経XTECH「ローカルLLMでAIエージェントを試す、『Claude Code』を動かし…」（2026/05/28）
https://xtech.nikkei.com/atcl/nxt/column/18/03600/042100004/
GMO Next Generationブログ「Claude CodeをローカルLLM（Gemma 4、Qwen）で動かす」（2026/04/20）
https://recruit.group.gmo/engineer/jisedai/blog/claude-code-local-llm/
Harmonic Society「【2026年版】ローカルLLMおすすめモデル10選｜用途別に徹底比較」（2026/03/22）
https://harmonic-society.co.jp/local-llm-recommended-models-comparison/
Knowleful AI「うさぎでもわかる！ローカルLLM比較ガイド」（2026/04/22）
https://www.knowleful.ai/plus/local-llm-model-guide/
Reddit r/LocalLLaMA「Best local LLM for Xcode 2026（ObjC & Swift）」
https://www.reddit.com/r/LocalLLaMA/comments/1rxglz3/best_local_llm_for_xcode_2026_objc_swift/?tl=ja

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

Claude Code・AIエージェントの業務活用をご検討の方へ

クリスタルメソッドは、Claude Codeを実務投入している開発会社として、AIエージェント・社員AIの導入と開発効率化を支援しています。自社サイトの表示速度をAI社員（Claude Code）で12.89秒→2.03秒に短縮した実例も事例記事として公開しています。「自社の開発・業務にAIをどう組み込むか」といったご相談を承っています。

無料相談・お問い合わせ：ご相談はこちら

Study about AI

AIについて学ぶ

教育 AI 活用事例から学ぶ企業研修のDXとAnthropic無償提供が示すプロンプトの重要性

## 1. Anthropicによる教育者向けClaude無償提供ニュースの要点 2026年1月、AIスタートアップのAnthropicは、国際NGO「Teac...
AI人事評価のリスクと違法性の境界線とは？Meta社リストラ訴訟から学ぶ防衛策

近年、企業の意思決定プロセスにおいてAI（人工知能）の活用が急速に進んでいます。特に人事評価や採用、人員整理といった領域でのAI導入は、業務効率化や客観性の担保...
AIエージェントの相互運用性と規制がもたらす経営インパクト—米上院法案から紐解く日本企業の針路

自律的にタスクを遂行するAIエージェントの台頭に伴い、異なるシステムやプラットフォーム間でこれらを安全に連携させる「相互運用性」と、それを支える「規制」のあり方...