blog

エクセルを用いたテキストマイニングのやり方(無料)

テキストマイニングとは大量のテキストデータを分析し、単語の出現頻度や関係性から有用な知見を引き出す手法です。概要・仕組み・活用事例についてはテキストマイニングの親記事で詳しく解説しています。本記事では「コストをかけずにテキストマイニングを始めたい」という方に向けて、Excelを中心とした無料の実践方法を具体的に掘り下げます。

無料でテキストマイニングを始める前に知っておくべきこと

有料のテキストマイニングツールは初期費用20万円・月額10万円前後の製品も珍しくなく、導入ハードルが高いのが現状です。一方、目的が「アンケートの自由回答を集計したい」「SNSの口コミを大まかに把握したい」といった初歩的な分析であれば、ExcelとMeCab・ユーザーローカルといった無料ツールの組み合わせで十分な成果を得られます。

ただし、無料・手軽な分だけ制約もあります。Excelは形態素解析(文章を意味のある最小単位に分割する処理)を自動では行えません。また「嬉しい」と「歓喜」のように意味が近い単語を同一として扱う類義語統合、文脈を踏まえた感情分析なども標準機能の範囲外です。これらを念頭に置いたうえで、目的に合ったツールを組み合わせることがポイントになります。

ExcelでテキストマイニングをするSTEP別手順

Excelによるテキストマイニングは大きく3つのステップで構成されます。各ステップで使う関数と注意点をまとめます。

STEP 1
文章を単語に分割する
表記ゆれを関数で整える

STEP 2
単語をカウントする
COUNTIF・ピボットテーブルで集計

STEP 3
出現頻度を図で表現する
棒グラフ・ワードクラウドで可視化

STEP 1:文章を単語ごとに分割する

テキストマイニングの最初の工程は、文章を単語単位に切り出すことです。たとえばアンケートの自由回答欄に「田中太郎」という名前があれば、「田」「中」「太」「郎」と1文字ずつセルに分けるイメージです。文章データなら接続詞を除いた名詞・形容詞などを取り出し、B列以降に並べていきます。

このステップで最も手間がかかるのが表記ゆれの修正です。「UFO」と「U.F.O」、「コーヒー」と「コーヒ」のように同じ意味でも記述が異なる場合、カウントが分散してしまいます。以下の関数を使って事前に統一しておくことが重要です。

関数名 用途 使用例
SUBSTITUTE 特定の記号・文字を別の文字や空白に置換する =SUBSTITUTE(A1,”.”,””)
UPPER / LOWER アルファベットを大文字/小文字に統一する =UPPER(A1) / =LOWER(A1)
ASC / JIS 全角→半角(ASC)/半角→全角(JIS)に統一する =ASC(A1) / =JIS(A1)
PHONETIC 漢字をひらがな・カタカナに変換する =PHONETIC(A1)
TRIM 文字列前後・単語間の余分な空白を削除する =TRIM(A1)
FIND / LEFT / MID / RIGHT 特定の文字位置を起点に文字列を切り出す =LEFT(A1,FIND(“@”,A1)-1)

アンケートの選択式回答や短い単語が入力されているデータなら、これらの関数だけでかなり表記ゆれを削減できます。長文の自由回答データは後述のMeCabを併用すると効率が大幅に上がります。

STEP 2:単語ごとにカウントする

単語の切り出しと表記の統一が完了したら、各単語が何回登場するかを集計します。カウントしたい単語が決まっている場合はCOUNTIF関数、全体の傾向を把握したい場合はピボットテーブルを使う方法が便利です。

  • COUNTIF関数:=COUNTIF(C3:C100,”楽しい”) のように、範囲と検索条件を指定するだけで該当単語の出現件数を返します。複数の類義語を合算したいときはSUM関数と組み合わせて =SUM(COUNTIF(C3:C100,{“嬉しい”,”歓喜”,”喜ぶ”})) のように記述すると効率的です。
  • ピボットテーブル:単語列を「行」に、値を「個数」に設定するだけで単語ごとの出現頻度一覧が自動生成されます。並べ替えも簡単なので、上位に来るキーワードを素早く把握できます。

注意点として、自由記述の文章データを扱う場合、単純な文字数計算では意味のある集計ができません。文章が長くなるほどSTEP 1の形態素解析が重要になるため、Excelだけでの処理に限界を感じたら後述の無料ツールを活用してください。

STEP 3:出現頻度を図で表現する

集計結果を視覚化することで、単語の重要度の差異が一目でわかるようになります。Excelでは棒グラフや横棒グラフを使って上位キーワードを表現するのが基本です。さらに視覚的なインパクトを出したい場合は、出現頻度が高い単語ほど大きく表示される「ワードクラウド」が有効で、後述のユーザーローカルなどの無料ツールで簡単に作成できます。会議用の資料としても説明しやすく、関係者への共有に適しています。

テキストの出現頻度に応じて大小が変わる単語の抽象的なビジュアルイメージ
テキストの出現頻度に応じて大小が変わる単語の抽象的なビジュアルイメージ

テキストマイニングで覚えておきたいExcel関数まとめ

ここまでの解説で登場した関数を、テキストマイニングにおける役割別に整理します。初めてExcelでテキスト分析を行う際の参照用にご活用ください。

カテゴリ 関数 主な用途
カウント・集計 COUNTIF 特定の単語の出現回数を数える。テキストマイニングの核となる関数
SUM COUNTIFの結果を合算。類義語・表記ゆれを統合してカウントする際に有効
表記ゆれ修正 SUBSTITUTE 不要な記号を除去・別の文字に置き換える
UPPER / LOWER 英字の大文字・小文字を統一する
ASC / JIS 全角・半角を統一する
PHONETIC 漢字をひらがな・カタカナに変換して読み統一
TRIM 余分な空白を一括削除
文字列操作 FIND 特定の文字が何文字目にあるかを検索。LEFT/MID/RIGHTと組み合わせて切り出しに使用
LEFT / MID / RIGHT 文字列を左・中・右から指定文字数分切り出す

Excelと組み合わせると便利な無料テキストマイニングツール

Excelだけでも基本的な集計は可能ですが、文章データの量が増えたり精度を上げたりしたい場合には、以下の無料ツールを組み合わせると作業が大幅に効率化されます。

MeCab(Windows向け・形態素解析エンジン)

MeCabは、日本語の文章を品詞ごとに自動で分割する形態素解析エンジンです。STEP 1の「文章を単語に分割する」作業を自動化してくれます。アンケートの自由回答や音声データを文字起こしした長文テキストは手作業での分割が非常に大変ですが、MeCabに文章を入力すれば名詞・動詞・形容詞などの品詞と読み仮名に分けた状態で出力されます。その結果をExcelに貼り付ければ、STEP 2以降の集計作業へスムーズに移れます。

難点はインターフェースが非GUI(コマンドライン操作)でありパソコン操作に不慣れな方には取っつきにくい点です。ただし使い方を解説した記事やチュートリアルが豊富にあり、手順通りに進めれば難しい操作はありません。なお、Pythonと組み合わせてより高度な処理を自動化する方法についてはテキストマイニング(Python編)も参照してください。

ユーザーローカル テキストマイニングツール

ユーザーローカルが無料公開しているテキストマイニングツールは、ブラウザ上でテキストを貼り付けるかファイルをアップロードするだけで、ワードクラウド・頻出語ランキング・共起ネットワークなどの可視化を自動で行ってくれるサービスです。

ワードクラウドとは、出現頻度が高い単語ほど大きく・低い単語ほど小さく表示することで、テキスト全体のキーワード構造を一枚の図で直感的に伝えられる可視化手法です。Excelには標準でこの機能が搭載されていないため、会議用の資料や報告書に添付する図として非常に重宝します。

操作がシンプルで専門知識不要な点が最大の強みです。ただしアップロードできるデータ量に制限がある場合があるため、大規模データには別途ツールの検討が必要です。

KH Coder(研究・学術利用にも対応)

KH Coderは、計量テキスト分析・内容分析のために開発された無料のオープンソースソフトウェアです。MeCabを内部で使用しながら、共起ネットワーク分析・対応分析(コレスポンデンス分析)・階層的クラスター分析など、有料ツールに匹敵する分析機能をGUIで提供します。学術論文での引用実績も多く、研究目的の分析にも耐えられる信頼性があります。インストールはやや複雑ですが、公式マニュアルが整備されています。

Googleスプレッドシート+GAS(Google Apps Script)

Excelの代替としてGoogleスプレッドシートを使う場合、GAS(Google Apps Script)でスクリプトを書くことで、正規表現を使った文字列の一括処理や外部APIとの連携が可能になります。クラウドベースのため複数人での共同作業や、データ更新の自動化にも向いています。プログラミングの基礎知識があればExcel VBAより学習コストが低い場合もあります。

無料ツール別の特徴比較

ツール 操作難易度 主な用途 対応OS インストール
Excel 低〜中 単語カウント・集計・グラフ作成 Windows / Mac 既存環境で利用可
MeCab 中〜高 形態素解析・単語分割の自動化 主にWindows(Mac版もあり) 要インストール
ユーザーローカル ワードクラウド・頻出語・共起ネットワーク生成 ブラウザで利用可 不要(Web利用)
KH Coder 中〜高 共起分析・クラスター分析・計量テキスト分析 Windows / Mac / Linux 要インストール
Googleスプレッドシート+GAS チーム共同作業・処理の自動化 ブラウザで利用可 不要(Googleアカウントのみ)

Excelテキストマイニングの限界と次のステップ

Excelと無料ツールの組み合わせは手軽に始められる反面、以下のような場面では限界が生じます。

  • 大量データへの対応:数万件を超えるレコードはExcelの動作が重くなり、処理が現実的でなくなる場合があります。
  • 感情分析・ポジネガ判定:「良い」「悪い」などの感情極性を自動で判定する機能はExcelには搭載されていません。
  • リアルタイム分析:SNSやカスタマーサポートのデータを継続的に自動収集・分析する仕組みはExcel単体では構築困難です。
  • 自然言語処理(NLP)の高度活用:文脈理解・要約・固有表現抽出などはPythonのNLTK・spaCy・Transformersなどのライブラリが必要です。

こうした高度な分析が必要になった場合は、PythonとMeCabを組み合わせた方法が有効です。詳しくはテキストマイニング(Python実装)をご参照ください。また、実際の業務でテキストマイニングをどう活用するかの具体的な事例はテキスト・マイニングの応用事例でまとめています。

まとめ

無料でテキストマイニングを行う基本的なアプローチは、「MeCabで単語を自動分割→Excelで関数を使って表記ゆれを整え・カウント・集計→ユーザーローカルでワードクラウドとして可視化」という3段階の組み合わせです。

  • アンケートの選択式回答や短文データ:ExcelのCOUNTIF・ピボットテーブルだけで十分に対応できます。
  • 自由記述の長文データ:MeCabを使った形態素解析と組み合わせることで精度が上がります。
  • 研究・学術目的の詳細分析:KH Coderが有力な選択肢になります。
  • チーム共同作業や自動化:Googleスプレッドシート+GASが適しています。

まずはユーザーローカルのWebツールで手元のテキストデータを試してみることから始めるのがもっとも手軽です。分析の規模や目的が明確になってきたら、MeCabやExcel関数を組み合わせた独自の分析フローを構築してみてください。

監修

河合 継(クリスタルメソッド株式会社 代表取締役)

AI・ディープラーニングに関する特許16件の発明者。過去、国立がん研究センターとの共同研究や、テレビ番組でのAI解説実績を持つAI研究者として、AIの研究開発を主導している。
運営会社について編集方針

AIブログ購読

 
クリスタルメソッドがお届けする
AIブログの更新通知を受け取る

Study about AI

AIについて学ぶ

  • Claude企業導入「AI専門センター」戦略——Wipro事例から日本企業が学ぶべきこと

    Claude企業導入「AI専門センター」戦略——Wipro事例から日本企業が学ぶべきこと

    WiproのClaude専用AI専門センター開設——何が起きたか 2026年6月16日、インドIT大手Wipro(NYSE: WIT)は、AnthropicのC...

  • Cursor SpaceX買収が示すAIコーディングツール企業導入の転換点

    Cursor SpaceX買収が示すAIコーディングツール企業導入の転換点

    Cursor SpaceX買収の要点――何が起きたのか 2026年4月、SpaceX(xAI統合済み)はAIコーディングスタートアップ「Cursor」(運営会社...

  • Claude Max 利用制限の契約トラブルを企業導入前に防ぐ——Anthropic提訴が示すリスク

    Claude Max 利用制限の契約トラブルを企業導入前に防ぐ——Anthropic提訴が示すリスク

    Claude Max 利用制限訴訟の要点——何が問題とされたのか 2026年6月、AnthropicはClaude AIのMaxサブスクリプションプランの使用上...

View more