blog

GPTとは?Chat GPTの起源「GPT-1」を解説します!

ChatGPTを使っていると「GPTって何の略?」「どんな仕組みで動いているの?」と疑問に思う方も多いでしょう。GPTはOpenAIが開発した大規模言語モデルの核心技術であり、ChatGPTの「賢さ」を支える基盤です。本記事では、GPTという言葉の意味と技術的な概念から、起源であるGPT-1の詳細なアーキテクチャ・学習方法、GPT-2・GPT-3・GPT-4への進化、さらに実際の活用例まで、体系的に解説します。

GPTとは何か――名称と基本概念

GPT(Generative Pre-Trained Transformer)とは、自然言語処理(NLP)分野のモデルの一種で、TransformerのDecoderを用いた事前学習に基づく汎用言語モデルです。名称を分解すると、それぞれの単語が技術的な特徴を的確に表しています。

Generative
生成型
テキストを新たに生成できる

Pre-Trained
事前学習済み
大規模コーパスで学習済み

Transformer
基盤アーキテクチャ
Attention機構を中心とした構造

GPTが「汎用」言語モデルと呼ばれる理由は、事前学習後にファインチューニングを行うことによって、テキスト含意判定・質疑応答・意味的類似性判定・文書分類など、さまざまな自然言語処理タスクを高い精度で処理できるようになるためです。

学習のプロセスは二段階で構成されます。まず事前学習は教師なし学習によって行われ、ラベルなしの大量テキストから言語の構造・文脈・意味を自律的に習得します。次のファインチューニングはタスクに合わせたラベル付きデータを用いる教師あり学習です。

このように、教師なし学習でデータそのものの特徴を学び、教師あり学習でタスクへの性能を高める学習手法を半教師あり学習といいます。この二段階の組み合わせこそが、GPTの汎用性の源泉です。

なお、OpenAIのRadfordらが2018年に発表した論文「Improving Language Understanding by Generative Pre-Training」に登場したモデルは、後継バージョンとの区別のために現在GPT-1と呼ばれています。

GPT-1が登場した背景

GPT-1が開発された当時、深層学習モデルの多くは教師あり学習を前提としており、自然言語処理においても例外ではありませんでした。しかし教師あり学習には根本的な制約がありました。

教師あり学習では、学習データとして正解ラベルを付与したデータが必要です。このラベル付け作業は人間が手動で行うため、コストが極めて高く、データセットの大規模化を妨げる大きな壁となっていました。高品質なラベル付きデータを大量に揃えるには、専門知識を持つアノテーターを大人数・長時間動員しなければならないからです。

この状況下で、ラベルなしデータを用いた教師なし学習が、データラベリングコストを回避しながら性能を高めるための重要な代替案として浮上しました。さらに、教師なし学習による特徴抽出に基づいた学習が、手動ラベリングによる教師あり学習を上回る結果を出すことを示した論文も複数登場し、研究の注目を集めるようになりました。

しかし、この半教師あり学習のアプローチには二つの未解決の課題が残っていました。

  1. タスクへの転移を最も効率よく行うには、どのような特徴量を学習すべきか(どのような目的関数を設定すべきか)
  2. 得られた特徴量をどのようにしてタスクへと転移させるか

GPT-1は、広範なタスクに対して極わずかなファインチューニングで転移できる普遍的な表現の獲得を目標として設計されました。上記の課題に対し、GPT-1は次の手法を提案しています。

  1. 言語モデルを教師なし学習によって学習する
  2. ①で得られたパラメータを、タスクに対応する目的関数によって教師あり学習でファインチューニングする

この二段階のアプローチは、当時の自然言語処理の主流な方法論を大きく塗り替えるものであり、以後のGPTシリーズ、そしてBERTやT5など多くの大規模言語モデルの設計思想に深い影響を与えました。

GPT-1における事前学習の概念:大量のテキストから言語の構造的知識を獲得するプロセス
GPT-1における事前学習の概念:大量のテキストから言語の構造的知識を獲得するプロセス

GPT-1のアーキテクチャ

GPT-1は大きく三つの部分から構成されています。それぞれが異なる役割を担い、連携することで言語理解と生成を実現しています。

① 埋め込み層
単語埋め込み+位置埋め込み
② Transformer Decoder × 12層
Masked Multi-Head Attention+Feed Forward
③ 出力層
言語モデル出力 / タスク出力

埋め込み層

埋め込み層は、非常に大きな次元のone-hotベクトルとして表現された単語を、低次元の密なベクトルに変換するための層です。語彙サイズは数万語に及ぶため、そのままでは計算が非効率になります。この埋め込みによって単語の意味的な近さを連続的なベクトル空間上に表現できます。

ここでは単語レベルの埋め込みだけでなく、位置の埋め込み(Positional Embedding)も同時に行います。Transformerは文章を並列処理するため、単語の順序情報を別途与える必要があります。元のTransformerでは位置埋め込みに正弦波関数(sinusoidal)を用いていましたが、GPT-1では位置埋め込みも学習可能なパラメータとして扱っています。これにより、モデルが学習データから位置に関する最適な表現を自ら獲得できる設計となっています。

Transformer Decoder 12層

文章を低次元ベクトルに埋め込んだ後、Transformer Decoderに通します。GPT-1では12層のTransformer Decoderを積み重ねることで、深い言語表現の学習を実現しています。

ただし、ここで使われるTransformer Decoderは、2017年の論文「Attention Is All You Need」(Vaswaniら)で提案された元のTransformerのDecoderとは異なります。元のDecoderにあったEncoder-Decoder間のMulti-Head Attention層とそれに続くAdd&Norm層が取り除かれています。これはGPT-1がEncoder側の入力を参照しない、純粋な言語モデルとして動作するためです。

残るMasked Multi-Head Attentionは、未来の単語を参照しないようにマスクをかけた上で、文脈内の各単語間の関連を計算します。このマスクによって、「これまでに登場した単語のみを使って次の単語を予測する」という言語モデルの動作が実現されます。Feed Forward層を通じて各位置の表現がさらに変換され、12層を積み重ねることで豊かな言語表現が得られます。

出力層

出力層は言語モデル出力層(Text Prediction)タスク出力層(Task Classification)の二つに分かれています。

言語モデル出力層は、GPT-1が事前学習で使う層であり、次の単語の確率分布を出力します。タスク出力層はファインチューニング時にタスクごとの応答を得るための層です。

重要な点は、①②の埋め込み層とTransformer Decoder層のパラメータが、言語モデルの学習とタスクのファインチューニングで共有されることです。事前学習で②までの層が十分に学習されていれば、タスク出力層を接続して微調整するだけで、多様なタスクに対応できるようになります。これがGPTの転移学習の核心的な仕組みです。

事前学習——言語モデルの学習

事前学習では、ラベルなしの大量テキストを使って言語モデルを学習します。言語モデルとは、一定の長さに切り取られた文章(文脈)を入力として受け取り、その続きに来る単語を予測するモデルです。

例えば、「今日の天気は」という文脈が与えられた場合、次の単語として「晴れ」「曇り」「雨」などの確率を計算し、最も確率の高い単語を出力します。天気についての話題であるという文脈を読み取った上で、文脈に合う単語を予測するのです。

この例からわかるように、言語モデルの学習が成功するということは、単語の意味・単語と単語の関係・文脈の読み方といった言語の本質的な知識をモデルが獲得したことを意味します。GPT-1は、この知識がさまざまな自然言語処理タスクでそのまま活用できると考えています。

また、言語モデルの出力を次の入力として再び利用する処理を繰り返すことで、文章の続きを逐次生成することができます。先ほどの例で言えば、「今日の天気は」→「今日の天気は晴れ」→「今日の天気は晴れです」→「今日の天気は晴れです」というように、文章が順次生成されていきます。このように自身の出力を新たに入力として使い続けるモデルを自己回帰モデルといいます。

GPT-1の事前学習には、BooksCorpusと呼ばれる数千冊分の書籍テキストが使われました。このデータセットは連続した長い文章を含んでおり、長距離の依存関係も学習できる点で優れていました。学習に使用したTransformer Decoderは12層、隠れ層の次元数は768、Multi-Head Attentionのヘッド数は12、合計パラメータ数は約1.17億(117M)です。

ファインチューニング——タスクへの適応

事前学習で言語の知識を獲得したら、次はラベル付きデータセットを用いてパラメータを解きたいタスクに最適化していきます。これがファインチューニングです。

ファインチューニングでは、タスク出力層の出力がラベルを正しく予測できるように学習します。この際、埋め込み層とTransformer Decoder層のパラメータも同時に更新されます(ただし学習率は小さく設定されます)。

注目すべき点として、ファインチューニングの際に言語モデル出力層(Text Prediction)の損失も補助的な目的関数として加えることが報告されています。タスク出力だけを最適化するよりも、言語モデルの学習を同時に継続することで、タスクに対する精度がさらに高まるという実験結果があります。これは過学習の抑制にも寄与すると考えられています。

ファインチューニングに必要なラベル付きデータの量は、事前学習なしの場合と比較して大幅に少なくて済みます。これがGPT-1の大きな実用的価値の一つです。少ないコストで特定タスクの高精度モデルを作れるという点は、産業応用においても重要な意味を持ちます。

タスクに合わせた入力の変形

GPT-1のモデル構造は、基本的に文章分類のように単一の入力テキストに対してラベルを予測するタスクを想定しています。しかし実際の自然言語処理タスクには複数のテキストを入力するものや、順序に依存するものなど、多様な形式があります。GPT-1では、モデルの構造を変えることなくさまざまなタスクに対応するために、入力のテキストをタスクに合わせて変形するアプローチをとっています。

タスク 入力の変形方法
文章分類 文章の先頭にStartトークン、末尾にExtractトークンを付与するだけでほぼそのまま入力可能
文章含意(テキスト含意判定) 前提(premise)と仮定(hypothesis)の間にDelimiterトークンを挿入し、一つの入力として連結
文章の類似性判定 「文章A+Delimiter+文章B」と「文章B+Delimiter+文章A」の二通りを作成し、それぞれのDecoder出力を足し合わせてタスク出力層に入力(順序の影響を排除)
質疑応答・常識推論 「文脈+質問+Delimiter+回答候補」を選択肢の数だけ作成し、それぞれのもっともらしさをスコアとして出力

文章分類

最もシンプルな変形です。文章の先頭にStartトークン、末尾にExtractトークンを差し込むだけで入力として使えます。全タスク共通でこの二つのトークンを使い、文章の範囲を明示します。

文章含意(テキスト含意判定)

前提(premise)が真のとき、仮定(hypothesis)も真になるかを判定するタスクです。前提と仮定という二つのテキストが入力となるため、これらの間にDelimiter(区切り文字)トークンを挿入して一つの入力として連結します。モデルはこの連結されたテキスト全体を読み込み、含意関係を判定します。

文章の類似性判定

文章同士の意味的な近さを測るタスクでは、入力の順番に意味がありません。「文章AとBの類似性」は「文章BとAの類似性」と同じだからです。そこで、「文章A+Delimiter+文章B」と「文章B+Delimiter+文章A」という順番の異なる二つの入力をそれぞれGPT-1に通し、それぞれのTransformer Decoder層の出力を要素ごとに加算したものをタスク出力層に入力します。この操作によって、順序依存性を取り除いた表現が得られます。

質疑応答と常識推論

文脈と質問が与えられ、複数の選択肢の中から最も適切な回答を選ぶタスクです。「文脈+質問+Delimiter+選択肢n」という形式の入力を選択肢の数だけ作成し、それぞれをGPT-1に通してスコアを得ます。最もスコアの高い選択肢を回答として選択します。

GPT-2・GPT-3・GPT-4への進化

GPT-1の登場後、OpenAIは継続的にモデルを発展させてきました。各バージョンの主要な変更点と意義を整理します。

バージョン 発表年 パラメータ数 主な変更点
GPT-1 2018年 約117M 事前学習+ファインチューニングの枠組みを確立
GPT-2 2019年 最大1.5B ファインチューニング廃止、Zero-shot学習、コーパス大規模化
GPT-3 2020年 175B パラメータ・コーパス大規模化、Sparse Attention採用
GPT-4 2023年 非公開 マルチモーダル対応、RLHFによるファインチューニング

GPT-2(2019年)

GPT-1からGPT-2への最も大きな変更点は、ファインチューニングの廃止です。GPT-1ではタスクごとにラベル付きデータを使ったファインチューニングが必要でしたが、これにはいくつかの問題がありました。ラベル付きデータのコスト、学習したタスク以外での精度低下、そして新しいタスクが現れるたびに再学習が必要になるという制約です。

GPT-2ではタスクの見方を根本的に変えました。従来は「入力→出力の予測」でしたが、GPT-2では「タスクの種類でConditioningされた入力→出力の予測」というパラダイムにシフトしました。例えば「以下の文章を要約せよ:〔本文〕」というように、入力テキスト自体にタスクの指示を自然言語で埋め込むことで、追加学習なしに多様なタスクをこなせるようになりました。この手法は現在「プロンプティング」として広く普及しています。

この方針転換を支えたのが、モデルの大規模化高品質コーパスの大規模化です。GPT-2の最大版のパラメータ数は約15億(1.5B)とGPT-1の約13倍に達し、Webクローリングで収集した良質な文章(Reddit上で3以上のカルマを持つリンク先の文章)を使ったWebTextコーパスが学習に使われました。大規模なデータで大規模なモデルを学習することで、ファインチューニングなしでも高い性能を発揮できることが示されました。

GPT-3(2020年)

GPT-2からGPT-3への主な変更点は以下のとおりです。

  • パラメータ数とコーパスのさらなる大規模化(約1750億パラメータ)
  • Sparse Transformer風のAttentionパターンの採用
  • Few-shot学習の性能向上

GPT-3では、GPT-2からさらにモデルが飛躍的に大規模化しました。パラメータ数は175Bと、GPT-2の最大版の約117倍です。モデルが大きいほど多様な知識と複雑な推論を表現できる可能性が広がりますが、計算量も増大します。

この計算効率の問題を解決するために、Sparse Transformer風のAttentionパターンが採用されました。元のTransformerのAttentionは、ある位置の単語を予測する際に手前のすべての単語を参照するため、計算量が入力文章の長さの二乗に比例して増加します。Sparse Transformerでは手前のすべての単語を参照するのではなく、位置ごとにどれだけ手前まで参照するかを定めることで、計算量を削減しながら精度を保ちます。

GPT-3はFew-shot学習(数例のデモンストレーションをプロンプトに含めるだけで高性能を発揮する)の能力が特に注目されました。この能力により、少ない追加学習でコーディング・翻訳・要約・数学的推論など多岐にわたるタスクを高精度に処理できることが示され、GPT-3を用いたAPIがさまざまなアプリケーションの基盤として利用されるようになりました。

GPT-4(2023年)

2023年に発表されたGPT-4は、OpenAIがそれまでの方針を変え、技術的な詳細を論文で公開しない姿勢に転換したバージョンです。モデルの詳細が非公開になった理由として、論文では汎用言語モデル開発が競争的な状況にあること、および安全上の理由が挙げられています。

公式に明かされた主な変更点の一つは、人間のフィードバックによる強化学習(RLHF:Reinforcement Learning from Human Feedback)を用いたファインチューニングの採用です。これは2022年に発表されたInstructGPTで導入された手法であり、GPTの出力を人間の好みや意図により沿わせるように学習します。単に質問に対して求められた回答を返すためだけでなく、有害・不適切な出力を減らし、人間社会のマナーや倫理観をモデルに反映させることも目的の一つです。

GPT-4の最大の特徴的変更点は、マルチモーダル対応です。テキストだけでなく画像も入力として受け取れるようになり、「この図表は何を示していますか」「この画像に写っているものを説明してください」といった視覚的な質問にも対応できます。これはテキスト処理に特化していたGPT-1から比べると革命的な進化です。

また、長い文脈を処理する能力(コンテキストウィンドウ)も大幅に向上し、より複雑なタスクや長い文書の処理が可能になっています。

GPT系モデルが言語・コード・多様なタスクを処理する概念図
GPT系モデルが言語・コード・多様なタスクを処理する概念図

GPTの実際の活用例

ChatGPTとして一般公開されたGPTは、適切な指示(プロンプト)を与えることで非常に多様なシーンで活用できます。以下に代表的な活用例を紹介します。

言語学習

GPTは大規模な多言語コーパスで学習しているため、言語そのものへの深い理解を持っています。英語学習を例にとると、次のような活用が可能です。

  • 会話練習:英語でフリートーク、特定の場面(就職面接・観光・ビジネスミーティング)を想定したロールプレイ
  • ライティング添削:自分の書いた英文の文法・表現・ニュアンスを修正してもらい、その理由を説明してもらう
  • 語彙・文法解説:単語の意味やニュアンスの違い、特定の文法構造の使い方を例文付きで説明してもらう
  • 翻訳と逆翻訳:日本語文を英語に翻訳し、さらにその英文を日本語に戻すことで翻訳の自然さを確認する

英語以外の言語でも同様に活用できます。ただし、英語以外の言語では学習データの量が少ない場合もあり、精度にばらつきがある点に注意が必要です。

プログラミング

GPTはプログラミング支援において特に高い性能を発揮します。主な活用法は以下のとおりです。

  • コード生成:「PythonでCSVファイルを読み込んでグラフを作るコードを書いて」などの自然言語の指示に対し、動作するコードを出力する
  • デバッグ支援:エラーメッセージやコードを貼り付けて原因と修正方法を聞く
  • コードの説明:理解が難しいコードの動作を日本語で説明してもらう
  • 言語変換:PythonのコードをJavaScriptに書き換えるなど、異なる言語間での変換を行う
  • テストコード・ドキュメント生成:既存のコードに対するテストケースやコメント・ドキュメントの自動作成

ただし、生成されたコードには誤りが含まれることもあるため、動作確認とコードレビューは必ず行う必要があります。

文章の要約・整形

長文を読む時間を節約したい場合や、自分の考えをわかりやすく整理したい場合に有効です。論文・議事録・ニュース記事などを貼り付けて「3点で要約してください」「小学生でもわかるように説明してください」などと指示することで、目的に応じた要約が得られます。

ただし、GPTは入力テキストの中でどの情報が重要かを完全に理解しているわけではないため、要約の際に重要な情報が抜け落ちたり、ニュアンスが変わってしまう場合があります。特に専門性の高い文書や法的・医療的に重要な文章の要約では、必ず原文と照合する習慣が必要です。

アイデア出しとブレインストーミング

「〇〇の企画を10個提案して」「このビジネスの課題を考えて」などと問いかけることで、多数のアイデアを短時間で得ることができます。全てのアイデアが使えるわけではありませんが、発想の起点として活用したり、思考の広がりをサポートするツールとして有効です。

文書作成支援

メール・報告書・プレゼン資料の草稿作成、敬語や文体の調整、長い文章の構成案の提示など、文書作成全般にわたる支援ができます。指示する際に「対象読者は〇〇」「トーンは丁寧に」「文字数は〇〇字以内」などの条件を付けることで、より目的に合った出力が得られます。

まとめ

GPT(Generative Pre-Trained Transformer)とは、TransformerのDecoder構造をベースにした事前学習済みの汎用言語モデルです。教師なし学習による大規模な事前学習で言語の普遍的な知識を獲得し、教師あり学習によるファインチューニングで特定タスクに適応するという半教師あり学習の枠組みが、GPTの汎用性を生み出しています。

GPT-1はこの枠組みを初めて実用的な規模で示したモデルであり、埋め込み層・12層のTransformer Decoder・出力層という三部構成と、タスクに合わせた入力変形という工夫によって、文章分類・テキスト含意・類似性判定・質疑応答など多様なタスクを単一のモデルで高精度に処理しました。

その後、GPT-2ではファインチューニングを廃止してゼロショット学習・プロンプティングへと発展し、GPT-3では1750億パラメータという超大規模化によりFew-shot学習の性能が飛躍的に向上しました。GPT-4ではRLHFによる安全性向上とマルチモーダル対応が加わり、テキストに加えて画像も入力として処理できるようになっています。

このGPTの技術的進化が、ChatGPTという形で一般ユーザーに届いています。言語学習・プログラミング・文章要約・アイデア出しなど応用の幅は広く、適切なプロンプトを工夫することで、その能力を最大限に引き出すことができます。GPTの仕組みを理解することは、AIツールをより賢く活用するための第一歩となるでしょう。

関連記事

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • Cursor SpaceX買収が示すAIコーディングツール企業導入の転換点

    Cursor SpaceX買収が示すAIコーディングツール企業導入の転換点

    Cursor SpaceX買収の要点――何が起きたのか 2026年4月、SpaceX(xAI統合済み)はAIコーディングスタートアップ「Cursor」(運営会社...

  • Claude Max 利用制限の契約トラブルを企業導入前に防ぐ——Anthropic提訴が示すリスク

    Claude Max 利用制限の契約トラブルを企業導入前に防ぐ——Anthropic提訴が示すリスク

    Claude Max 利用制限訴訟の要点——何が問題とされたのか 2026年6月、AnthropicはClaude AIのMaxサブスクリプションプランの使用上...

  • Google AI検索エージェント企業活用——Gemini 3.5 Flash搭載で何が変わるか

    Google AI検索エージェント企業活用——Gemini 3.5 Flash搭載で何が変わるか

    Google AI検索エージェントの登場——何が変わったか 2026年5月19日、GoogleはGemini 3.5シリーズの最初のモデルとしてGemini 3...

View more