blog

rag 無料|2026年版ガイド

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

RAGを無料で始める完全ガイド:ツール・環境・実装方法を徹底解説

「RAGを試してみたいが、コストが心配」という方は多いはずです。RAG(Retrieval-Augmented Generation)は、大規模言語モデル(LLM)に外部の知識を動的に組み合わせる強力な技術ですが、クラウドサービスを利用すると料金がかさむイメージがあります。実は、無料で使えるツール・フレームワーク・APIの組み合わせを選べば、本番レベルに近いRAGシステムをコスト0円から構築・検証できます。本記事では、RAGの仕組みから始まり、無料で使えるツール一覧、具体的な構築手順、無料枠の限界と対処法まで、一記事で完全にカバーします。

RAGとは何か:仕組みをおさらい

RAGとは、ユーザーの質問に答える際に、LLMの学習データだけでなく、外部のドキュメントや知識ベースをリアルタイムで検索・取得(Retrieve)し、その内容を文脈としてLLMに渡して回答を生成(Generate)する手法です。ファインチューニングとは異なり、モデルの重みを変えずに最新情報や社内固有知識を扱えるのが最大の利点です。

ユーザーの質問
Retrieve
(検索・取得)

ベクトルDBで
類似文書を検索
Augment
(拡張)

質問+取得文書を
プロンプトに結合
Generate
(生成)

LLMが文脈を踏まえ
回答を生成
回答出力

RAGシステムは大きく3つのコンポーネントで構成されます。①ドキュメントの埋め込み(Embedding)とベクトル化②ベクトルデータベース(Vector DB)への格納と検索③LLMによる回答生成です。これらをすべて無料の部品で組み上げることが、本記事のゴールです。

無料でRAGを動かすための主要コンポーネント

RAGを無料で構築するには、各コンポーネントごとに「無料で使えるか」「制限はどこか」を把握することが重要です。以下に主要な選択肢を整理します。

LLM(言語モデル)の無料選択肢

サービス・モデル 無料の条件 主な制限 RAGへの適性
Google Gemini API(無料枠) Google AI Studioで無料利用可 1分あたりリクエスト数・1日あたりトークン数に上限あり ◎ 長いコンテキスト対応、日本語強い
Groq(無料枠) APIキー取得後、無料枠内で利用 1分あたりトークン数・1日リクエスト数に制限 ◎ 超高速推論、LLaMA3/Mixtral使用可
Ollama(ローカル実行) 完全無料・ローカルで動作 PCスペック依存(RAM 8GB以上推奨) ◎ プライバシー確保、制限なし
Hugging Face Inference API 無料枠あり(低速) レート制限・モデルによりウォームアップ遅延 △ 速度が課題、検証用途向き
OpenAI(無料クレジット) 新規登録時のクレジットのみ クレジット消費後は有料 ○ 初期検証向け

Embeddingモデルの無料選択肢

ドキュメントをベクトル化するEmbeddingモデルも、無料選択肢が豊富です。

モデル・サービス 無料条件 日本語対応 推奨用途
sentence-transformers(ローカル) 完全無料・OSS ◎(multilingual-e5等) 本番・プライバシー重視
Nomic Embed(ローカル/API) ローカル版は完全無料 高精度が必要な場合
Google Embedding API AI Studio無料枠内 Gemini連携時
Hugging Face BAAI/bge系 ローカル実行は完全無料 ○(bge-m3) 多言語RAG

ベクトルデータベースの無料選択肢

DB名 無料条件 特徴
Chroma 完全無料・OSS・ローカル Pythonに組み込み可、開発用途に最適
FAISS 完全無料・Meta製OSS 大規模・高速検索に強い、永続化は自前で対応
Qdrant(ローカル) OSS版は完全無料 本番利用にも耐えうる高機能、Docker推奨
Weaviate(ローカル) OSS版は完全無料 GraphQLインターフェース、フィルタ検索が得意
Pinecone(無料枠) 1インデックス・1GBまで無料 マネージドで運用楽、スケールアップは有料

RAGフレームワークの無料選択肢

各コンポーネントをつなぎ合わせる「オーケストレーション層」にも優れた無料OSSが揃っています。

  • LangChain:最もユーザーが多く情報が豊富。PythonとJavaScript両対応。RAGのパイプライン構築に特化したモジュールが充実。
  • LlamaIndex:ドキュメント読み込み・インデックス構築に特化した設計で、RAGに向いた構造。多彩なデータコネクタを標準装備。
  • Haystack(deepset):プロダクション向けRAGパイプラインを意識した設計。ドキュメント管理が堅牢。
  • RAGFlow:Web UIを持つRAGに特化したOSSプラットフォーム。PDFや表形式データの解析精度が高い。

完全無料のRAG構築手順:LangChain+Chroma+Ollama

ここでは最も再現性が高く、完全ゼロコストで動かせる構成として、LangChain + Chroma + Ollama + sentence-transformersの組み合わせを用いた手順を紹介します。インターネット接続はインストール時のみ必要で、実行はすべてローカルで完結します。

ステップ1:Ollamaのインストールとモデルの取得

OllamaはローカルでオープンソースのLLMを動かすためのランタイムです。公式サイト(ollama.com)からOSに合ったインストーラーをダウンロードし、インストールします。その後、ターミナルで以下を実行します。

# LLMとしてLlama3.1(8Bパラメータ)を取得(約5GB)
ollama pull llama3.1

# 埋め込みモデル(Nomic Embed)も取得可能
ollama pull nomic-embed-text

ステップ2:Python環境のセットアップ

Python 3.10以上を推奨します。仮想環境を作成し、必要なライブラリをインストールします。

python -m venv rag_env
source rag_env/bin/activate # Windowsは rag_env\Scripts\activate

pip install langchain langchain-community langchain-ollama
pip install chromadb sentence-transformers
pip install pypdf unstructured # PDF読み込み用

ステップ3:ドキュメントの読み込みとチャンク分割

RAGの精度はチャンク(文書の分割単位)の設計に大きく依存します。チャンクが大きすぎると不要な情報がLLMに流れ込み、小さすぎると文脈が失われます。一般的には500〜1000トークン、オーバーラップ50〜100トークンが出発点として適切です。

from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

# PDFの読み込み
loader = PyPDFLoader(“your_document.pdf”)
documents = loader.load()

# チャンク分割
splitter = RecursiveCharacterTextSplitter(
    chunk_size=800,
    chunk_overlap=80
)
chunks = splitter.split_documents(documents)

ステップ4:ベクトルDBへの格納(Chroma)

Embeddingモデルとしてはローカルで動くnomic-embed-text(Ollama経由)か、sentence-transformersのmultilingual-e5-baseを使います。日本語ドキュメントを扱う場合は多言語対応モデルを必ず選択してください。

from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OllamaEmbeddings

embeddings = OllamaEmbeddings(model=“nomic-embed-text”)

vectorstore = Chroma.from_documents(
    documents=chunks,
    embedding=embeddings,
    persist_directory=“./chroma_db” # 永続化
)

ステップ5:RAGチェーンの構築と質問応答

from langchain_ollama import ChatOllama
from langchain.chains import RetrievalQA

llm = ChatOllama(model=“llama3.1”, temperature=0)
retriever = vectorstore.as_retriever(search_kwargs={“k”: 4})

qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    return_source_documents=True
)

result = qa_chain.invoke({“query”: “製品の保証期間は何年ですか?”})
print(result[“result”])

これで、指定したPDFの内容に基づいて質問に答えるRAGシステムが完成します。費用は完全にゼロです。

ドキュメントがベクトル化されDBに格納されるRAGのイメージ
ドキュメントがベクトル化されDBに格納されるRAGのイメージ

ノーコード・低コードで試せる無料RAGサービス

コードを書かずにRAGを体験したい場合や、チームでのPoC(概念実証)を素早く行いたい場合は、以下のサービスが有効です。

Google NotebookLM(無料)

GoogleのNotebookLMは、PDFやGoogleドキュメントなどのソースをアップロードするだけで、そのドキュメントに基づくAIチャットが使えるサービスです。技術的なセットアップなし、完全無料(Googleアカウントのみ必要)で動作します。社内ドキュメントのQ&AやリサーチノートのRAG的活用として非常に優秀で、日本語対応も高品質です。ただし、独自システムへの組み込みや細かなカスタマイズはできません。

Dify(セルフホスト版は無料)

DifyはRAGアプリケーションを構築できるオープンソースプラットフォームです。Dockerで自前サーバーに立ち上げれば完全無料で利用でき、ドキュメントのアップロードからチャンク設定、LLM接続、チャットUI生成まで、Web UIで操作できます。LLM部分はOllamaやGeminiの無料枠と接続可能です。クラウド版にも無料プランがあり、月間メッセージ数に上限があります。

Flowise(OSS、完全無料)

FlowiseはLangChainをベースにしたビジュアルノーコードビルダーです。ドラッグ&ドロップでRAGパイプラインを構築でき、ノードをつなぐだけでチャンク分割→Embedding→ベクトルDB→LLMの流れを設定できます。セルフホストで費用は一切かかりません。

RAGFlow(OSS、完全無料)

InfiniFlowが開発するRAGFlowは、PDFや表形式データを高精度でパースする点が特徴のRAG専用プラットフォームです。OCRや表構造の認識精度が高く、社内ドキュメントが複雑な場合に特に効力を発揮します。Dockerでのセルフホスト運用が基本で、すべて無料で使えます。

無料枠でRAGを動かす際の実用的な注意点

無料でRAGを構築・運用する際には、いくつかの現実的な制約と対処法を知っておく必要があります。

APIの無料枠は「テスト用」と割り切る

GeminiやGroqなどのAPI無料枠は、レート制限(1分あたりのリクエスト数・トークン数)が設けられており、大量のドキュメントをリアルタイムで処理する本番用途には向きません。無料枠は開発・プロトタイプ・個人用途に最適で、チームへの展開や高頻度の利用には有料プランへの移行が現実的です。

ローカル実行はPCスペックがボトルネック

Ollamaなどでローカルのモデルを動かす場合、7Bパラメータのモデルには最低8GBのRAM、13Bモデルには16GB以上が推奨されます。GPUがあれば推論速度が大幅に向上しますが、CPU専用でも動作します。レスポンスに数秒〜十数秒かかることは許容する必要があります。

日本語精度を上げるための設定

日本語ドキュメントをRAGに使う際の落とし穴は、チャンク分割の設定です。日本語には英語のようなスペース区切りがないため、RecursiveCharacterTextSplitterの区切り文字として["\n\n", "\n", "。", "、", ""]を明示的に指定することで精度が向上します。またEmbeddingモデルはmultilingual-e5bge-m3など多言語対応のものを選択してください。

データプライバシーの観点

社内の機密ドキュメントをRAGに使う場合、外部APIにドキュメントの内容を送信することはリスクになります。このような場合はOllamaによるローカルLLM+ローカルEmbedding+ChromaやFAISSのローカルVectorDBを組み合わせた「完全ローカルRAG」構成が最適です。これはクラウドにデータが出ることなく、かつゼロコストで実現できます。

RAGにおけるドキュメントのチャンク分割と検索インデックス構築のイメージ
RAGにおけるドキュメントのチャンク分割と検索インデックス構築のイメージ

無料で使えるRAG評価・デバッグツール

構築したRAGの品質を高めるには、評価と改善のサイクルが不可欠です。以下のツールも無料で利用できます。

LangSmith(開発者向け無料枠あり)

LangChainが提供するトレーシング・評価プラットフォームです。RAGパイプラインのどのステップで問題が起きているかを可視化でき、取得文書の内容・プロンプト・レスポンスをすべて記録してデバッグできます。個人・開発用途では無料枠が十分機能します。

Ragas(OSS)

RagasはRAGシステム専用の評価フレームワークです。Faithfulness(忠実性)Answer Relevancy(回答の関連性)Context Precision(文脈の精度)などのメトリクスを自動計算し、RAGの品質を数値化できます。完全OSSで無料です。評価用のLLMにもGeminiやGroqの無料枠を使えます。

Promptfoo(OSS)

プロンプトの品質テストに使えるOSSツールです。複数のプロンプトバリエーションをまとめてテストし、RAGの回答精度を比較するのに役立ちます。

無料RAG構成の比較まとめ

構成パターン LLM Embedding VectorDB 向いている用途
完全ローカル Ollama(Llama3.1) nomic-embed / multilingual-e5 Chroma / FAISS 機密データ・コスト0・制限なし
API無料枠活用 Gemini / Groq Google Embedding API Chroma / Pinecone無料枠 高品質・個人・PoC
ノーコード NotebookLM(内蔵) 内蔵 内蔵 即時検証・非エンジニア
セルフホストUI Ollama+Groq切替可 設定可能 内蔵(Dify/Flowise) チーム共有・カスタマイズ

無料から有料に移行すべきタイミングの判断基準

無料構成でRAGを運用していると、やがて限界が見えてきます。以下のいずれかに当てはまる場合は、有料サービスへの移行を検討するタイミングです。

  • ユーザー数・リクエスト数が増加し、レート制限に頻繁に引っかかる:無料枠のAPIでは同時アクセスや1日の上限を超えるとリクエストが拒否されます。
  • ドキュメント量が数千件を超え、検索精度や速度が劣化する:大規模なベクトル検索にはマネージドサービス(Pinecone、Qdrant Cloud等)の方が管理・スケールが容易です。
  • GPUリソースを持たずに高速なローカル推論が必要になった:クラウドGPUインスタンスの利用が現実的な選択肢になります。
  • SLA(稼働保証)や監視・サポートが必要になった:本番サービスとして展開する段階では、有料のマネージドサービスが信頼性面で合理的です。

まとめ

RAGは「コストがかかる技術」というイメージがありますが、実際には完全無料の構成で本格的なシステムを構築・運用できます。要点を整理します。

  • LLMにはOllamaによるローカル実行かGemini/Groqの無料枠、Embeddingにはsentence-transformers(multilingual-e5)、ベクトルDBにはChromaまたはFAISSを組み合わせれば、コストゼロでフル機能のRAGが完成します。
  • コーディングなしに試したい場合は、Google NotebookLM(即時)、Dify・Flowise(セルフホスト)が有効な選択肢です。
  • 日本語精度を確保するには、多言語対応のEmbeddingモデル選択とチャンク分割の日本語最適化が鍵になります。
  • 機密データを扱う場合は、データが外部に出ない「完全ローカル構成」が最も安全かつ無料で実現できます。
  • 無料枠はプロトタイプ・個人用途に最適で、チーム展開や本番サービス化の段階で有料への移行を検討するのが現実的なアプローチです。

RAGは企業の知識管理、カスタマーサポート、社内問い合わせ対応など幅広い領域で実用価値の高い技術です。まずは無料の環境で動かしてみることが、最も確実な第一歩となります。

関連記事

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

    Meta インド データセンター AIインフラ——Reliance 168MW契約の深層と日本企業の実務対応

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

  • ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

    ワーナー Sureel AI 音楽 著作権——買収の意味と日本企業への示唆

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

  • Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

    Vector Lakebase ベクターDB RAG——Zillizが示す統合AIデータ基盤の論点

    監修 河合 継(クリスタルメソッド株式会社 代表取締役) AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番...

View more