blog

【入門】機械学習とは?種類やアルゴリズムをわかりやすく解説!

複雑なプログラミング

機械学習という言葉をご存知でしょうか?

機械学習とは、AI(人工知能)の一種で、コンピューターが大量のデータを分析して傾向等を学習する技術のことを指します。

近年はAI(人工知能)の研究が盛んで、私たちのスマートフォンや家電にも使われているくらいなじみ深いものになっています。

人工知能(AI)についてはこちらの記事をご覧ください。
>> 人工知能(AI)とは?仕組みや技術、できることをわかりやすく解説

そのAIの進化・発展において機械学習は大きな影響を与えましたが、その仕組みやディープラーニング(深層学習)との違いについて詳しく理解していない方がたくさんいらっしゃいます。下記のページではその内容が解説されていますので、ぜひご確認ください。
>> 機械学習と深層学習の違いを解説します!

この記事では、AIを専門に研究開発している会社の視点から

・機械学習の概要
・機械学習のアルゴリズム
・機械学習の分類
・機械学習でできること

について、わかりやすく簡単に下の目次の順で解説していきます。

機械学習とは

脳をモデルとする機械学習
機械学習(Machine Learning・ML)とは、コンピュータが大量のデータを分析し、ルールを自分で見つけ出して予測や判断をする技術です。

人間が「こういうルールで判断しなさい」と一つひとつ教える必要がなく、データを与えるだけでコンピュータが自動的にパターンを学習します。

たとえば、

  • スパムメールの判定:大量のメールデータから「スパムらしい特徴」を自動で学習する
  • おすすめ動画:視聴履歴から「この人が好みそうな動画」を予測する
  • 顔認証:大量の顔写真から「この顔の特徴」を学習する

これらすべてが機械学習の応用です。

機械学習の種類

コンピュータと人
機械学習は学習の方法によって大きく3種類に分かれます。

① 教師あり学習

「正解ラベル付きのデータ」を使って学習する方法です。「答え合わせしながら勉強する」方式です。

具体例:

  • メール5,000通に「スパム/スパムでない」のラベルをつけてAIに学習させる
  • 過去の住宅価格データから「この条件なら価格はいくらか」を予測する
  • 大量の猫・犬の写真に「猫/犬」ラベルをつけて画像分類を学習させる

代表的なアルゴリズム:線形回帰・ロジスティック回帰・決定木・ランダムフォレスト・サポートベクトルマシン(SVM)

最も広く使われている手法で、「教えた範囲内の問題を解く」精度は非常に高いです。

※参照:第3章 教師あり学習

② 教師なし学習

「正解ラベルなし」でデータのパターンやグループを自動的に見つける方法です。

具体例:

  • 購買データから「似た嗜好の顧客グループ」を自動で分類する
  • 膨大なニュース記事から「似たトピック同士」を自動でまとめる
  • 異常値検知:「いつもと違うパターン」を自動で検出する

代表的なアルゴリズム:k-meansクラスタリング・主成分分析(PCA)・自己符号化器(Autoencoder)

② 教師なし学習

「正解ラベルなし」でデータのパターンやグループを自動的に見つける方法です。

具体例:

  • 購買データから「似た嗜好の顧客グループ」を自動で分類する
  • 膨大なニュース記事から「似たトピック同士」を自動でまとめる
  • 異常値検知:「いつもと違うパターン」を自動で検出する

代表的なアルゴリズム:k-meansクラスタリング・主成分分析(PCA)・自己符号化器(Autoencoder)

※参照:第 4 章 教師なし学習

「試行錯誤を繰り返しながら報酬を最大化する」方法です。ゲームで「このボタンを押すとスコアが上がる」と学習していくイメージです。

具体例:

  • 囲碁AI「AlphaGo」:無数の対局を繰り返し「勝つ手」を自ら学習して人間のプロを超えた
  • 自動運転:シミュレーション環境で「事故なく走れたら報酬」を繰り返して運転を学習
  • ChatGPTのチューニング(RLHF):人間の評価者が「この回答の方が良い」と教えることでより自然な回答を生成できるよう学習

代表的なアルゴリズム:Q学習・Actor-Critic・PPO

※参照:What is reinforcement learning? The complete guide

強化学習についてはこちらの記事をご参照ください。

https://crystal-method.com/topics/reinforcement-learning

機械学習のアルゴリズム

プログラミングの画面

ChatGPTと機械学習の関係

ChatGPTを理解するには機械学習の3つの手法がすべて絡んでいることを知ると一気に整理されます。

ステップ1:教師あり学習で「文章生成」を学習

大量のテキストデータ(Webページ・書籍・論文等)を使って「次に来る単語を予測する」教師あり学習を実施。これがGPT(Generative Pre-trained Transformer)の基礎。

ステップ2:教師あり学習で「会話らしい応答」を学習

「質問と良い回答のペア」データセットを使ってチャット形式での応答を追加学習(ファインチューニング)。

ステップ3:強化学習で「人間が好む回答」に最適化

人間の評価者が「A回答よりB回答の方が良い」と評価し、その評価をもとに強化学習(RLHF:人間のフィードバックによる強化学習)でより自然で正確な回答を生成できるよう改善。

この3段階の機械学習の積み重ねがChatGPTです。

私たちクリスタルメソッドが開発するAIアバター・AIロールプレイも同様の仕組みを使っています。「AIが相手の感情を認識して適切な表情で応答する」機能は、教師あり学習で表情パターンを学習し、強化学習で「より自然な応答」に最適化することで実現しています。

機械学習の代表的なアルゴリズム

ニューラルネットワーク

人間の脳神経細胞(ニューロン)の働きを模倣したモデルです。入力→中間処理→出力の3層構造が基本で、この中間層(隠れ層)を増やしたものがディープラーニングです。現代のAIのほとんどがこのニューラルネットワークを基盤にしています。

ディープラーニング(深層学習)

ニューラルネットワークの隠れ層を多層に重ねた手法です。2012年の画像認識コンペで従来手法を大幅に上回る精度を記録し、AIブームの引き金になりました。画像・音声・自然言語のあらゆる分野で最高性能を発揮しています。

ランダムフォレストランダムフォレストの説明

複数の「決定木」を組み合わせて精度を高める手法です。「ニューラルネットワークより解釈しやすい」という利点があり、医療・金融など理由の説明が必要な分野でよく使われます。

XGBoost

勾配ブースティングを高速・高精度に実装したアルゴリズムです。データサイエンスのコンペで優勝を収めることが多く、表形式データの予測問題では特に強力です。

サポートベクトルマシン(SVM)サポートベクトルマシンの説明

データを「最も上手く分類できる境界線」を探す手法です。データ量が少なくても比較的高精度を出せるため、医療診断や文書分類などで活用されています。
ここでは、代表的な機械学習のアルゴリズムについて、紹介していきます。
機械学習には教師あり学習、教師なし学習、強化学習と3つの手法があり、それぞれで用いるアルゴリズムが存在します。

その中でも、現在主流になっているのは

  • ニューラルネットワーク
  • ディープラーニング

この2つです。

その他にも、代表的なアルゴリズムとして以下があげられ、モデルが軽量で解釈しやすいことから、ケースによって使い分けられています。

・k近傍法

k近傍法が具体的にどのように動いているのかをアニメーションにしたものです。学習を繰り返すにつれてデータが4つに分類されていく様子がわかると思います。

・決定木

・ランダムフォレスト

・XGBoost

・サポートベクトルマシン
サポートベクトルマシンは、クラス分類において、クラスを最も上手く分割する超平面を引くことで識別します。

ここでいう超平面とは、高次元における平面のようなものをいいます。下の図のように、赤と青の二種類の星を上手く分けたいと考えた時に、サポートベクトルと呼ばれる点からの距離(マージン)を最も大きくできる超平面を引くことを考えます。

なお、直線で分割(線形分離)できない場合ももちろんあるため、ある程度の許容を許したり、非線形に応用できるカーネルトリックと呼ばれる手法が用いられています。

この動画は、サポートベクトルマシンの原理をアニメーションにして解説したものです。データの間に線が引かれ、データが分類されていく様子がわかると思います。

このモデルは識別精度が高く、ディープラーニング登場前までは特に多用されていました。

ここで機械学習のアルゴリズムをまとめると以下のようになります。

▼機械学習のアルゴリズム
AIの概要
ディープラーニングは、機械学習・それもニューラルネットワークの一部に過ぎませんが、近年の台頭で「AI・機械学習=ニューラルネットワーク」というふうに扱われているのも事実です。

機械学習で一括りにされがちですが、手法や種類によって様々な専門用語が出てきますので、最初は混乱してしまうかもしれません。

しかし、このアルゴリズムの違いを知っておくことで、より機械学習についての理解が深まりますのでしっかり確認しておきましょう。

クラスタリング

クラスタリング
クラスタリングとは、AIが与えられたデータの特徴や類似性を探し、同じようなカテゴリーのグループに分けることを指します。
AIが傾向や規則性から判断するので、中には誤ったものが混じっている可能性もあります。AIが独自で判断してグループに分けるので、どういった基準でクラスタリングしたのかを考察する必要がありますので注意が必要です。
例えば、大量の名簿から共通項を持つグループを抜き出したり、ある程度AIの裁量に任せてカテゴライズしたい時にクラスタリングを使用することができます。

また、クラスタリングは、データをグループ分けする際に「階層的クラスタリング」と「非階層的クラスタリング」という方法に分けられます。

◆階層的クラスタリング

データを比較した際に類似度が近いものからまとめていく分け方です。

◆非階層的クラスタリング

階層を作らずにグループ化することです。

クラスタリングについてより詳しく知りたい方は、以下の記事をご覧ください。

https://crystal-method.com/topics/clustering

レコメンデーション

レコメンデーションとは、そのまま「推薦」という意味です。データ中から特定の行動をとるとその顧客のニーズに合った商品や情報をおすすめすることができます。現在では様々な場面で使われていて、ECサイトがその代表的な例です。このレコメンデーションには様々な種類があり場面によって使い分けられています。

異常検知

異常検知とは、データ分析で外れた値を検知・推測することができる手法です。
予め存在するデータと一致していない予測結果や実際の観測結果を異状があるかどうか確認します。
弊社では、この異常検知について取り組んでいます。その実例について知りたい方は下記をご覧ください。
音の異常検知システム|クリスタルメソッド
2D画像での異常検知システム|クリスタルメソッド

自然言語処理

自然言語処理とは、人間の扱う自然な言語を分析し、コンピュータ上で人間と同じように言語を処理できるようにすることです。日常会話で使用される自然言語は曖昧さや感情などによる解釈の差が出るので解析するのは難しいとされています。自然言語処理は、これからより正確にできるようになるとされています。
自然言語について詳しく知りたい方は以下の記事をご覧ください。
自然言語処理とは|クリスタルメソッド

機械学習の活用事例

日常生活での活用

  • スマートフォンの顔認証:教師あり学習で「この顔の特徴パターン=本人」を学習
  • Netflixのおすすめ:視聴履歴データから「この人が次に見たい作品」を予測
  • Google翻訳:Transformerベースの機械学習で文脈を考慮した翻訳を実現
  • 迷惑メールフィルター:教師あり学習でスパムの特徴を自動検出

ビジネスでの活用

採用・面接
私たちが開発する「AI面接」では、応募者の回答・表情・声のトーンを機械学習で分析し、評価のブレを減らすサポートをしています。採用担当者が100人面接しても一定品質の評価ができる仕組みを機械学習が実現しています。

営業・接客研修
「AIロールプレイ」では、AIアバターが機械学習によって相手の感情状態を認識し、「怒っている顧客」「困惑している顧客」など状況に応じたリアクションを返します。この感情認識モデルは、大量のロールプレイデータを教師あり学習させることで精度を高めています。

医療診断支援
X線・MRI画像を機械学習で解析し、がん・骨折などの異常を検出。医師の診断精度向上と業務効率化に貢献。

金融リスク管理
取引データから不正検知・信用スコアの自動算出・株価予測に活用。

最先端の活用

  • AlphaFold3:ディープラーニングでほぼすべてのタンパク質の3D構造を予測可能に。新薬開発を劇的に加速
  • 自動運転:カメラ・LiDARのデータをリアルタイムで機械学習処理し安全な走行を実現
  • 生成AI(ChatGPT・Claude・Gemini):機械学習の最先端技術の結晶。文章・画像・音楽・動画の生成が可能に

機械学習の課題と限界

データ品質への依存

機械学習は「ゴミを入れればゴミが出る」技術です。学習データの偏り・誤り・量の不足はそのまま精度に直結します。良質なデータ収集・整備が開発時間の大半を占めることも珍しくありません。

ブラックボックス問題

特にディープラーニングは「なぜその答えを出したか」を説明しにくい構造を持っています。医療・法律など「理由の説明」が必要な分野ではこの点が課題になります。

大量の計算リソース

大規模な機械学習モデルの学習には膨大な計算資源(GPU・電力)が必要です。ChatGPTの学習コストは数十億円とも言われています。

汎化の難しさ

学習データと異なる状況への対応が苦手なケースがあります。「訓練データでは高精度だが実運用では精度が落ちる」という問題(過学習)は常に開発者を悩ませます。

学習データと異なる状況への対応が苦手なケースがあります。「訓練データでは高精度だが実運用では精度が落ちる」という問題(過学習)は常に開発者を悩ませます。

よくある質問(FAQ)

Q. 機械学習とAIは同じですか?

異なります。AIは「人工知能」という広い概念で、機械学習はその実現手法のひとつです。現代のAIのほとんどは機械学習をベースにしているため混同されますが、厳密には別の言葉です。

Q. 機械学習とディープラーニングの違いは?

機械学習の中のひとつの手法がディープラーニングです。ディープラーニングは多層ニューラルネットワークを使う機械学習の発展形で、画像・音声・言語の分野で特に高い性能を発揮します。

Q. 機械学習を学ぶにはどこから始めればいいですか?

まずPython(プログラミング言語)の基礎から始めるのが最短ルートです。その後scikit-learnライブラリで基本的な機械学習を実装し、TensorFlow・PyTorchでディープラーニングに進む流れが一般的です。

Q. 機械学習は文系でも学べますか?

学べます。数学(線形代数・統計)の基礎があると理解が深まりますが、実装レベルならプログラミングとライブラリの使い方を覚えることから始められます。

Q. ChatGPTと機械学習はどう関係していますか?

ChatGPTは機械学習(特にディープラーニングと強化学習)を組み合わせて作られています。機械学習を理解するとChatGPTがなぜあのような回答をするのか、なぜ間違えるのかが見えてきます。

まとめ

  • 機械学習とはコンピュータがデータから自動的にパターンを学ぶ技術
  • AI ⊃ 機械学習 ⊃ ディープラーニング ⊃ ChatGPTの入れ子の関係を理解することが第一歩
  • 種類は教師あり学習・教師なし学習・強化学習の3つ
  • ChatGPTはこの3種類すべてを組み合わせて作られている
  • 身近なところでは顔認証・レコメンド・翻訳・迷惑メール検出などに活用されている
  • 課題はデータ品質への依存・ブラックボックス問題・計算コストの大きさ

関連記事もあわせてご覧ください
>Pythonによる機械学習

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • 採用コストを削減する方法|AI面接導入のROIを徹底解説

    一人あたりの採用コスト、平均93.6万円。この数字を見て「うちはもっとかかってる」と思った方も多いのでは。 リクルートの調査による2023年度の数字ですが、これ...

  • デジタルヒューマンとは?企業での活用事例と導入ガイド【2026年版】

    受付に立っているのは人間ではない。でも目が合うと微笑んでくれる。声をかけると自然な日本語で案内してくれる。 SF映画の話じゃないです。2026年の今、こういう「...

  • 生成AI企業活用の最前線2026|ChatGPTだけじゃない実践的AI導入

    「ChatGPTを使え」と社長に言われた。でも何に使えばいいのかわからない。そんな企業、実はすごく多い。 2024年あたりから「うちもAI使わないと」という空気...

View more