blog
AIブログ
エクセルを用いたテキストマイニングのやり方(無料)
テキストマイニングとは、大量の文章(テキスト)を分析し、単語などの出現頻度や出現傾向などを解析するテキストの分析方法です。
しかし、有料のテキストマイニングツールを見ていると、初期費用20万・月額10万とかなり費用が請求され、手軽に使えるようなツールではありません。また、自社ではそこまで高機能・高性能な分析を求めていないと言う場合も、あるでしょう。そこで、今回は高い金額を使わずにでテキストマイニングを行うために、エクセルを使ったテキストマイニングのやり方やMecab、ユーザーローカルについてわかりやすく有益な情報を簡単にご紹介していきます。
テキストマイニングとは
テキストマイニングとは、大量の文字データから有用な情報を見つけ、経営戦略などに活かすための方法。電話によるお問い合わせに加えて、現代ではSNSやネット上での書き込みなどによって、非常に大量のデータが溢れています。そこで、そのデータを分析し、頻出する単語とその関係性を理解することで、製品・サービスに対する消費者の動向・要望などを把握することができます。
現代の消費者は、バックグラウンドから趣向によって様々な趣向が生まれ、欲求や不満などは以前に比べて把握しきれないほど多種多様なものが存在します。故に、その全てを把握することは困難であると言えます。だからこそ、テキストマイニングを活用して、消費者の感じる思いを分析・表現して戦略に活かす必要があります。
テキストマイニングについて詳しく知りたい方はこちら
テキストマイニングとは?やり方やツールを詳しく解説!
エクセルでのテキストマイニングのやり方
エクセルでテキストマイニングをするうえで大前提として、注意するべきはエクセルでは細かな分析を行うことはできません。また、似たような意味を持つ単語が登場した時に、同じものとしてカウントするための用意が必要になります。例えば、”嬉しい”と”歓喜”は意味として似た様なことを表しますが、エクセルでは自動的にそれを認識してはくれないので、そう言った点において差異が生まれやすい事を念頭に置く必要があります。
文章を単語ごとに分ける
テキストマイニングを行う時、例えばアンケート集計や文章に含まれている中から、特定の文字が含まれている回数を数える事になると思いますが、まずはカウントする為にも単語ごとに分ける必要があります。例えば、名前に含まれている頻出漢字を調べたい時は、「田中太郎」と言う名前を、「田」「中」「太」「郎」と言う風に、それぞれのセルに分ける必要があります。これがアンケートなら、接続詞を除いた名詞だけを取り出して、B列以降のセルに並べることになります。
ここで注意が必要なのは、同じ言葉でも「UFO」と「U.F.O」といったように、表記の仕方が異なる(表記ゆれ)が含まれている事。エクセルで行うときは、これを修正するのが一番大変な作業にはなりますが、これらは関数を使用する事で解消することができます。
例えば、
- 余計な記号が含まれている時はsubstitute関数を使用し、特定の記号を別の文字に置き換える・空白にすることができる
- 文章に含まれているアルファベットを大文字に統一する時には、UPPER関数を使用する。逆に小文字に統一する時はLOWER関数を使用。
- 文字に含まれているアルファベット・数字を、全角から半角に統一する時はASC関数を使用。逆に、半角から全角に統一する時には、JIS関数を使用する。
- 漢字で記入された単語をひらがな・カタカナに変換する時は、PHONETIC関数で統一することができます。ひらがな・カタカナのどちらに変換するかは、ふりがなの設定にて選ぶこ
もしアンケートの集計などで単語が記入されていれば、これらの関数を使用する事で比較的簡単に表記揺れを削減することができます。記号の種類が増えたり、文章になってくると抽出がいささか大変ではありますが、これらの関数を覚えておくだけでもずいぶん楽になるかと思います。
単語ごとでカウントする
続いて、先ほどのステップで分けた単語の数を、カウントするステップに移ります。この作業に関してはエクセルで簡単に行える分野になり、自分のカウントしたい文字が決まっているのであれば、例えばCOUNTIF関数で特定の文字をカウントさせる事で、簡単に集計することができます。もしくは、ピポットテーブルを使用する事でも、単語ごとに集計を行って表にし、更に並べ替えなども簡単に行うことができます。
ただ、これもアンケートを行った時に、選択肢を選ばせたり単語で答えるものであれば、簡単に求める結果が得られやすいですが、文章で答えたデータであると単純に文字数を計算するだけでは求める結果は分析できないので、より難しくなります。
出現頻度を表す図を作成する
単語ごとにカウントしたら、あとはそれを分かりやすくするために図で表記しましょう。先ほど紹介したピポットテーブルもそうですが、他にも棒グラフでも良いです。また、ワードクラウドと言う、使用された回数の多い単語はより大きく表示し、使用されることの少ない単語は文字を小さく表示した、一つの絵のようなグラフを使用することもツールを使えば可能です。その差異を視覚的に判別しやすくなります。
テキストマイニングで覚えておきたい関数
COUNTIF関数
テキストマイニングを行う上で、特定の文字が使用された回数をカウントするのは重要なことですが、その上で必要なのがCOUNTIF関数。テキストマイニングにおいて、必須の関数であるとも言えるでしょう。使い方は、
「=COUNTIF (範囲, 検索条件)」
このようになっているため、そこまで難しいものではありません。データが記入されている範囲をC3:C100までといった感じで選択肢、検索条件には調べたい単語を”楽しい”と言う風にクオーテーションを付けて入力します。する事で、調べたい範囲の中で”楽しい”と言う単語がいくつ含まれているかを表示してくれます。
SUM関数
エクセルの代表的な関数でもあるのが、このSUM関数。これを使用することで、手作業では修正することのできない表記揺れや、似たような意味を持つ単語を集計する時にも、COUNTIF関数と組み合わせることで、求める結果が得られやすくなります。
表記揺れを減らすための関数
先ほど紹介したような、UPPER・LOWER関数や、記号を別の言葉や空白に置換してくれるSUBSTITUTE関数などは、特に覚えておくと便利な関数でしょう。また他にも、メールアドレスにおける@より前の文字数を調べたい時など、特定の文字を見つける時にはFIND関数などの手法もあります。
合わせて使いたい無料で利用できるツール
ここまでエクセルで行うテキストマイニングの技術を3ステップに分けて紹介してきましたが、正直ステップ1が手作業で行うと一番面倒臭い部分になります。また、ステップ3に関しても、必要というわけではありませんが、ワードクラウドを表示するために便利なツールなどもあります。なので、利用すると便利な無料ツールを簡単に紹介していきます。
MeCab(Widows用)
こちらはステップ1における単語を分ける作業を、一括して行ってくれるツールになります。アンケート集計や音声データを文字起こししたものは、かなりの文字数になるため、人の手で行うにはかなり大変な作業になると言えるでしょう。故に、このツールを使うことで、簡単にその手間を減らし、表記ゆれを発見するのも容易になります。
ただ、難点としてはいささかパソコンに不慣れな方にとっては、インストールから操作画面までが旧時代的で、分かりにくさを感じること。しかし、使い方自体はネットで調べるとたくさん情報が出てきますし、順番に追っていけば難しいものではありません。
ユーザーローカル
こちらはステップ3における、ワードクラウドを作るためのサイトになります。それぞれ単語を直接入力したり、ファイルをアップロードすることで自動的に作成されるため、非常に使い方が簡単なツールです。このワードクラウドは必須のものではなく、特にエクセルにその機能もついていないため、面倒に感じるのであれば使う必要はありませんが、使用することで会議における資料としては分かりやすいものになるでしょう。
以下はサイトのURLです。
テキストマイニングツール|UserLocal
まとめ
今回はエクセルを利用したテキストマイニングについてご紹介していきました。簡潔にいうと、エクセルで行うにはかなり労力が伴う部分が大きく、面倒ではありますが、それを補助するツールもたくさん出ているため、それらを利用することで無料で簡単にテキストマイニングを行いやすくなるでしょう。また、データを集計する際に関数を利用することも、手間を省く上で重要になってくるため、ぜひ利用してみてください。
Study about AI
AIについて学ぶ
-
「Diffusion Transformers (DiTs)」とは。わかりやすく解説
「Diffusion Transformers (DiTs)」とは Diffusion Transformers (DiTs) は、画像生成における新しいアプロ...
-
3D画像での異常検知システム(3DのAI・深層学習)
3DのAI・深層学習 3Dデータとは? 写真等の一般的な2Dデータは、ピクセル(画素)の縦×横の2次元の配列です。では3Dデータはどの様に表現されるのでしょうか...
-
AI問題点を分かりやすく解説!新たな技術の課題とは?
AI(人工知能)は革新的な技術である一方で、さまざまな問題点も浮かび上がってきました。本記事では、AIの問題点についてわかりやすく解説します。 AIの急速な発展...