エクセルでのテキストマイニングのやり方

エクセルでテキストマイニングをするうえで大前提として、注意するべきはエクセルでは細かな分析を行うことはできません。また、似たような意味を持つ単語が登場した時に、同じものとしてカウントするための用意が必要になります。例えば、”嬉しい”と”歓喜”は意味として似た様なことを表しますが、エクセルでは自動的にそれを認識してはくれないので、そう言った点において差異が生まれやすい事を念頭に置く必要があります。
文章を単語ごとに分ける

テキストマイニングを行う時、例えばアンケート集計や文章に含まれている中から、特定の文字が含まれている回数を数える事になると思いますが、まずはカウントする為にも単語ごとに分ける必要があります。例えば、名前に含まれている頻出漢字を調べたい時は、「田中太郎」と言う名前を、「田」「中」「太」「郎」と言う風に、それぞれのセルに分ける必要があります。これがアンケートなら、接続詞を除いた名詞だけを取り出して、B列以降のセルに並べることになります。
ここで注意が必要なのは、同じ言葉でも「UFO」と「U.F.O」といったように、表記の仕方が異なる(表記ゆれ)が含まれている事。エクセルで行うときは、これを修正するのが一番大変な作業にはなりますが、これらは関数を使用する事で解消することができます。
例えば、
- 余計な記号が含まれている時はsubstitute関数を使用し、特定の記号を別の文字に置き換える・空白にすることができる
- 文章に含まれているアルファベットを大文字に統一する時には、UPPER関数を使用する。逆に小文字に統一する時はLOWER関数を使用。
- 文字に含まれているアルファベット・数字を、全角から半角に統一する時はASC関数を使用。逆に、半角から全角に統一する時には、JIS関数を使用する。
- 漢字で記入された単語をひらがな・カタカナに変換する時は、PHONETIC関数で統一することができます。ひらがな・カタカナのどちらに変換するかは、ふりがなの設定にて選ぶこ
もしアンケートの集計などで単語が記入されていれば、これらの関数を使用する事で比較的簡単に表記揺れを削減することができます。記号の種類が増えたり、文章になってくると抽出がいささか大変ではありますが、これらの関数を覚えておくだけでもずいぶん楽になるかと思います。
単語ごとでカウントする

続いて、先ほどのステップで分けた単語の数を、カウントするステップに移ります。この作業に関してはエクセルで簡単に行える分野になり、自分のカウントしたい文字が決まっているのであれば、例えばCOUNTIF関数で特定の文字をカウントさせる事で、簡単に集計することができます。もしくは、ピポットテーブルを使用する事でも、単語ごとに集計を行って表にし、更に並べ替えなども簡単に行うことができます。
ただ、これもアンケートを行った時に、選択肢を選ばせたり単語で答えるものであれば、簡単に求める結果が得られやすいですが、文章で答えたデータであると単純に文字数を計算するだけでは求める結果は分析できないので、より難しくなります。
出現頻度を表す図を作成する

単語ごとにカウントしたら、あとはそれを分かりやすくするために図で表記しましょう。先ほど紹介したピポットテーブルもそうですが、他にも棒グラフでも良いです。また、ワードクラウドと言う、使用された回数の多い単語はより大きく表示し、使用されることの少ない単語は文字を小さく表示した、一つの絵のようなグラフを使用することもツールを使えば可能です。その差異を視覚的に判別しやすくなります。