blog

AIブログ

国産 llm 比較｜2026年版ガイド

国産LLM比較2025：主要モデルの性能・料金・用途を徹底解説

「国産LLM」とは、日本の企業・研究機関が開発・公開した大規模言語モデルのことです。GPT-4やClaudeなどの海外モデルが注目を集める一方、日本語処理の精度・データ主権・コンプライアンス対応の観点から、国産モデルへの期待は急速に高まっています。本記事では、2025年時点で実用段階にある主要な国産LLMを性能・料金・用途・API提供の有無などの軸で比較し、自社導入に最適なモデルを選ぶための判断材料を網羅的に提供します。

なぜ今、国産LLMが注目されるのか

海外の大規模言語モデルは高性能ですが、企業が業務利用する際には「入力データが学習に使われるリスク」「個人情報・機密情報の海外サーバーへの転送」「日本語特有の表現・敬語・業界専門用語への対応の甘さ」という3つの課題が常につきまといます。

国産LLMはこれらの課題を解消する選択肢として機能します。具体的には次のような優位性があります。

データ主権の確保：国内サーバーで完結するため、個人情報保護法やGDPRへの対応が容易
日本語事前学習の充実：日本語コーパスを大量に取り込み、敬語・方言・業界用語の再現度が高い
ライセンス柔軟性：商用利用・オンプレミス展開が可能なモデルが多い
国内サポート体制：SLAや技術問い合わせを日本語で完結できる

一方で、パラメータ規模やベンチマーク上の絶対値は海外最先端モデルに及ばないものも多く、「何をやらせるか」による使い分けが重要です。

比較対象の国産LLM一覧

本記事で比較するのは、2025年時点でAPIまたはオープンウェイトとして実際に利用できる国産・国内主導のLLMです（情報は2025年時点のものであり、現在の状況と異なる場合があります）。研究段階にとどまるモデルや、情報が断片的なものは対象外としています。

モデル名	開発元	公開形態	ベースモデル	日本語特化
Swallow（Llama-3-Swallow）	東京工業大学・産総研	オープンウェイト	Llama 3	◎
LLM-jp	国立情報学研究所（NII）	オープンウェイト	独自アーキテクチャ	◎
Qwen2.5-based日本語モデル群（Sarashina2等）	SB Intuitions（ソフトバンクグループ）	オープンウェイト	Qwen2.5	◎
PLaMo	Preferred Networks（PFN）	API提供（β）＋オープンウェイト	独自	◎
Tanuki-8x8B	東京大学・松尾研究室系	オープンウェイト	独自MoE	◎
Fugaku-LLM	富士通・RIKEN等コンソーシアム	オープンウェイト（研究向け）	独自	◎
cyberagent/calm3	サイバーエージェント	オープンウェイト	Llama 3ベース改良	◎
ELYZA-japanese-Llama-3	ELYZA（LLMサービス）	オープンウェイト＋API	Llama 3	◎

各モデルの詳細比較：性能・特徴・適用場面

Swallow（Llama-3-Swallow）

東京工業大学と産業技術総合研究所が共同開発したモデル群で、Meta社のLlama 3に対して大規模な日本語継続事前学習を施したものです。8B・70Bのパラメータ変種があり、特に70Bクラスは日本語ベンチマーク（JGLUE、JCommonsenseQA等）で国産モデル上位の精度を記録しています。

オープンウェイトでHugging Faceから取得可能なため、オンプレミス運用や社内RAGへの組み込みに適しています。ライセンスはLlamaの利用規約に準拠（商用利用可・一定の制限あり）。推論コストを自社で管理したい製造業・金融機関での採用実績が増えています。

強み：日本語の自然な文体生成、70Bの高精度、活発なコミュニティ
弱み：マネージドAPIが公式には存在せず、自前インフラが必要
向く用途：社内文書要約、RAG、チャットボット基盤

LLM-jp

国立情報学研究所（NII）が主導する学術コンソーシアム「LLM勉強会」によって開発されたモデルです。1.3B・3.6B・13Bと複数サイズがあり、独自のトークナイザーと日本語コーパスを使って一から学習している点が特徴です。「完全日本製」の透明性を重視する場合に選ばれることが多く、医療・行政・学術分野でのPoC利用が目立ちます。

強み：学習データの出自が公開されており、説明責任が取りやすい
弱み：パラメータ規模が比較的小さく、複雑なタスクには限界がある
向く用途：研究開発、規制産業でのPoC、教育コンテンツ生成

Sarashina2（SB Intuitions）

ソフトバンクグループのSB IntuitionsがQwen2.5をベースに日本語強化した「Sarashina2」シリーズです。7B・13B・70Bのラインナップがあり、特に指示チューニング済みの「Sarashina2-Instruct」は業務向け用途で使いやすく設計されています。ソフトバンクのクラウドインフラとの統合も視野に入れた開発が進んでいます。

強み：Qwen2.5の多言語能力を下敷きにした日英混在タスクへの対応力
弱み：商用ライセンス条件はQwen系の規約に準じるため事前確認が必要
向く用途：コールセンター自動化、多言語対応チャット、社内Q&A

PLaMo（Preferred Networks）

ロボティクス・深層学習で知られるPFNが独自アーキテクチャで開発したモデルです。PLaMo-100Bという100Bパラメータクラスの大規模版がAPIベータ提供されており、日本語の長文理解・コード生成において高い評価を受けています。PFNの産業AIノウハウが反映されており、製造・研究開発領域での精度が特に高いとされます。

強み：独自開発による技術透明性、製造・エンジニアリング特化の精度
弱み：APIはまだベータ段階で一般向けの安定提供には至っていない部分もある
向く用途：製造業のナレッジ管理、技術文書生成、コード補完

Tanuki-8x8B

東京大学松尾研の研究グループが開発したMixture-of-Experts（MoE）構造のモデルです。8つのエキスパートを持つ8x8B構成で、実効的な推論コストを抑えながら高い日本語性能を実現しています。Apache 2.0ライセンスで公開されており、制限の少ない商用利用が可能な点が企業にとって魅力です。

強み：Apache 2.0の自由なライセンス、MoEによるコスト効率
弱み：MoEは推論インフラの構成が複雑になる場合がある
向く用途：スタートアップの自社プロダクト組み込み、ライセンス制約なしの商用展開

Fugaku-LLM

スーパーコンピュータ「富岳」を用いて学習した、富士通・理化学研究所・東京大学等のコンソーシアムによる大規模モデルです。13Bパラメータで、日本語・英語・コードのトリリンガル学習が特徴。主に研究目的での公開であり、医療・行政・科学技術分野での専門用語処理に強みを持ちます。

強み：高品質な学習環境（富岳）、科学技術・専門用語への対応
弱み：商用利用の条件は限定的で、一般的なビジネス用途には敷居が高い
向く用途：医療・研究機関のドメイン適応、大学・政府のAI研究基盤

CALM3（サイバーエージェント）

サイバーエージェントが開発・公開する日本語特化モデルシリーズです。CALM3-22Bはコンテンツ生成・対話・要約において特に優れており、同社のメディア事業で蓄積されたコンテンツデータを活かした日本語の流暢さが際立ちます。Apache 2.0ライセンスで商用利用可能です。

強み：自然で流暢な日本語文体、コンテンツ生成への適性の高さ
弱み：推論・論理タスクは他モデルと比べ優位性が薄い
向く用途：マーケティングコピー生成、メディア記事補助、SNS返信自動化

ELYZA-japanese-Llama-3

ELYZAはLlama 3に日本語インストラクションチューニングを施したモデルを提供しており、実用的な業務アシスタントとしての完成度が高いです。API経由での利用も可能で、法人向けのサポート体制も整っています。LINEヤフーグループ傘下となり、プロダクト連携も今後強化が見込まれます。

強み：実用性の高いインストラクションチューニング、API提供による導入容易性
弱み：Llamaライセンスの制約を引き継ぐ
向く用途：業務自動化、カスタマーサポート、社内ヘルプデスク

主要スペック・ライセンス・料金の比較表

モデル	最大パラメータ	ライセンス	商用利用	API提供	オンプレ
Swallow 70B	70B	Llama 3 Community	○（制限あり）	△（非公式）	○
LLM-jp 13B	13B	Apache 2.0	○	×	○
Sarashina2 70B	70B	Qwen準拠	要確認	△	○
PLaMo 100B	100B	独自（APIβ）	○（API経由）	○（β）	△
Tanuki-8x8B	8x8B (MoE)	Apache 2.0	○	×	○
Fugaku-LLM 13B	13B	研究用限定	△	×	条件付き
CALM3 22B	22B	Apache 2.0	○	×	○
ELYZA Llama-3	70B	Llama 3 Community	○（制限あり）	○（法人向け）	○

API料金については、PLaMoおよびELYZAが法人向けに個別見積もり対応を行っており、公開されているトークン単価は変動するため、導入検討時は各社に直接問い合わせることを推奨します。オープンウェイトモデルをクラウド（AWS・GCP・Azure等）上でセルフホストした場合のコストは、GPUインスタンス費用が主体となり、70Bクラスで月額数十万円規模が目安です。

日本語ベンチマークで見る性能比較

国産LLMの性能評価には、以下のベンチマークが広く使われています。

JGLUE
JCommonsenseQA・JNLI・JSQuAD等を含む日本語総合評価スイート

Rakuda Benchmark
日本語の自由記述・対話品質を人間評価で測定

JP-Bench
MT-Benchの日本語版。多段階の論理・対話能力を評価

MMLU-JA
英語MMLUの日本語翻訳版。知識幅の評価に使用

2024〜2025年に公開された各種評価結果（各モデルの公式技術レポートおよびLLM-leaderboardコミュニティ集計）を踏まえると、傾向として次のことが言えます。

推論・知識量：Swallow 70B・PLaMo 100B・ELYZA 70Bが上位。パラメータ規模が精度に直結しやすい。
日本語の自然さ（流暢性）：CALM3・ELYZAが評価が高く、コンテンツ生成に向く。
コード生成：PLaMoとSwallowが強く、IT・エンジニアリング用途に向く。
小規模モデルの実用性：LLM-jp 13BやTanuki 8x8Bはコスト・精度のバランスが取れており、エッジ・組み込み用途に選ばれやすい。

なお、ベンチマーク結果は評価セットのバージョンや評価方法によって変動するため、あくまで参考指標として捉え、実際の業務タスクでの検証（PoC）を行うことが重要です。

用途別：どの国産LLMを選ぶべきか

RAG・社内ドキュメント検索に使いたい

RAG（Retrieval-Augmented Generation）用途では、プロンプトの指示追従性と長文理解が鍵です。Swallow 70B Instructまたは ELYZA-japanese-Llama-3-70B-Instructが現状の選択肢として安定しています。ELYZAはAPI経由でもすぐ試せるため、プロトタイプフェーズの立ち上げが速いです。

コンテンツ生成・マーケティング文書に使いたい

CALM3-22Bが最も適しています。ブログ記事・SNSキャプション・広告コピーなど、日本語として読みやすいアウトプットを安定して生成します。Apache 2.0ライセンスのため商用プロダクトへの組み込みも問題ありません。

製造・研究開発の技術文書処理に使いたい

PLaMoが第一候補です。PFNの産業AI実績を背景に、技術仕様書・特許文書・設計レビューメモなど専門性の高いテキストへの対応が優れています。APIがまだベータ段階であるため、安定性を求める場合はSwallow 70Bのオンプレ構成と組み合わせる選択肢も現実的です。

医療・行政など規制の厳しい分野で使いたい

Fugaku-LLMまたはLLM-jpが適しています。学習データの出自が公開されており、説明責任・監査対応が取りやすいです。商用利用ライセンスの条件は研究寄りなため、法務確認を先行させることが重要です。

ライセンス制約なく自社プロダクトに組み込みたい

Tanuki-8x8BまたはCALM3を選ぶのが最も安全です。どちらもApache 2.0で、OSSプロダクトへの組み込み・クローズドなSaaS製品への統合が制約なく行えます。

国産LLMと海外主要モデルの位置付け

国産LLMを検討する際、GPT-4o・Claude 3.5 Sonnet・Gemini 1.5 Proといった海外最先端モデルとの比較は避けられません。以下の整理で判断してください。

比較軸	海外最先端モデル	国産LLM
英語・汎用推論	◎ 最上位	△〜○（用途次第）
日本語の自然さ	○ 実用的	◎ 特化モデルが優位
データ主権	× 海外データセンター	◎ 国内完結可能
コンプライアンス対応	△ 契約・規約次第	◎ 国内法準拠が容易
オンプレ展開	× 基本不可	◎ オープンウェイト多数
ファインチューニング自由度	△ 制限あり	◎ ウェイトを取得可能
導入コスト（初期）	○ APIですぐ始められる	△ 自前構築コストがかかる場合も
長期的なランニングコスト	△ トークン課金が積み上がる	◎ オンプレなら変動しない

つまり「高精度な汎用AIアシスタントをすぐ使いたい」なら海外モデルが実用的ですが、「機密データを扱う・日本語に特化したい・長期的なコスト管理をしたい・自社でモデルを改良したい」という要件が一つでもある場合は国産LLMの優位性が明確に出ます。

国産LLMの導入ステップ

ユースケースの明確化
RAG・コンテンツ生成・コード補完・チャットボットなど、何をやらせるかを先に決める。複数用途を一つのモデルで賄おうとしない。

ライセンス・コンプライアンス確認
利用するモデルのライセンス（Apache 2.0／Llama Community／独自）が自社の法務要件・取引先のデータ取り扱い規定に合致するか確認する。

インフラ選定（クラウドvs.オンプレ）
70Bクラスの推論にはA100またはH100が必要。クラウドでの従量課金か、オンプレGPUサーバーの固定投資かをTCOで比較する。

PoC（概念実証）の実施
実業務データの一部を使い、候補モデル2〜3種を同一タスクで比較評価する。自動評価指標（BLEU・ROUGE等）と人間評価を組み合わせる。

ファインチューニング・RAG構築
基盤モデルをそのまま使うのではなく、LoRA等の効率的ファインチューニングまたはRAGアーキテクチャで業務ドメインへ適応させる。

本番運用・モニタリング
出力のハルシネーション率・レイテンシ・コストを継続的に計測し、モデルの更新や切り替えタイミングを定期的に見直す。

国産LLMの今後の展望

2025年は国産LLMの「第二フェーズ」と位置付けられます。初期の「とにかく日本語で動くモデルを作る」段階から、「特定ドメインで世界水準に匹敵する精度を出す」段階へと移行しつつあります。注目すべきトレンドとして以下が挙げられます。

マルチモーダル化：テキスト単体から、画像・音声・文書PDFを入力とするマルチモーダルモデルへの拡張が各社で進行中。
エージェント化：ツール呼び出し・コード実行・Web検索と連携するAIエージェントとしての活用が加速。PLaMoやELYZAがFunction Callingへの対応を強化している。
量子化・軽量化：4bit量子化（GGUF・AWQ等）により、GPU1〜2枚の環境でも70Bクラスを動かす実装が普及。エッジ・オンプレのコストが下がり続けている。
官民連携の強化：経済産業省・デジタル庁が国産基盤モデルへの支援を継続しており、Fugaku-LLMの後継や新規コンソーシアムによるモデルが登場する可能性が高い。

まとめ

国産LLMは「データ主権」「日本語特化」「オンプレ展開可能」という点で、海外モデルには代替できない明確な価値を持っています。2025年時点では以下のような使い分けが現実的な指針でした。

高精度な汎用用途：Swallow 70B または ELYZA-japanese-Llama-3-70B
コンテンツ生成・マーケティング：CALM3-22B
製造・技術文書：PLaMo（APIベータ）
研究・規制産業：LLM-jp または Fugaku-LLM
ライセンスフリーの商用組み込み：Tanuki-8x8B または CALM3

という使い分けが現実的な指針です。どのモデルも完璧ではなく、PoC段階での実業務タスクによる検証が不可欠です。国産モデルは半年〜1年のサイクルで急速に進化しているため、選定後も定期的な評価の見直しを行うことが、長期的なAI投資対効果を高める鍵となります。

AIの業務活用・導入をご検討の方へ

クリスタルメソッドは、LLM・RAG・AIアバターを活用した業務へのAI導入を支援しています。自社の課題にどう活かせるか、まずはお気軽にご相談ください。

無料相談・お問い合わせ：ご相談はこちら
基礎から知る：LLM比較

監修

河合継（クリスタルメソッド株式会社代表取締役）

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について｜編集方針

Study about AI

AIについて学ぶ

オンボーディングの設計と実践｜定着しない根本原因と「練習ループ」の組み込み方

「オンボーディングが大事なのはわかっている。でも、実際に何をすれば定着するのかがわからない」——そんな声を、人事担当者や現場マネージャーから繰り返し聞いてきまし...
AI学習データ・公開情報の著作権リスク——Appleの訴訟が示す日本企業の法的盲点

Appleが直面した訴訟——「公開動画」をAI学習に使えば問題ないのか 2026年4月、YouTubeチャンネルh3h3ProductionsのEthan Kl...
ChatGPT翻訳の使い方：精度を引き出すプロンプトと注意点【2026年版】

ChatGPT翻訳が従来ツールと根本的に異なる理由 Google翻訳やDeepLが「文字列を別言語に置き換える」ことに特化しているのに対し、ChatGPTによる...