テキストマイニング手法の分類

テキストマイニングの分析手法はセンチメント分析、共起分析、対応分析、主成分分析の4つの方法に分けられます。それぞれの分析手法について解説します。
◆センチメント分析
センチメント分析とは、sentiment(感情)を分析する手法です。レビューや感想などが、ポジティブなものかネガティブなものかを判断することができます。またTwitterなどのSNSの投稿についても活用されています。
◆共起分析
共起分析とは、ある単語が別のある単語と一緒に使用される度合いを分析する手法です。具体的には、「みかん」に対する「あまい」「すっぱい」など単語の組み合わせを分析することで、みかんの強み・弱みを分析することができます。
◆対応分析
対応分析とは、別々の結果を一緒にまとめて表すことで関係性を分析する手法です。例えば自社と複数の他社のブランドの特徴を散布図にすることで、各社の特徴を比較、分析することができます。
例として小説「こころ」の各章を象徴する特徴語となる単語の対応分析の図を示します。

原点(0, 0)から見て、「上_先生と私」などの各章の方向にあって、原点に近いと意味ない言葉、原点から離れている語ほど、その章を強く特徴する単語となっています。
◆主成分分析
主成分分析とは、膨大なデータを分析する際、いくつかの項目でデータで擬似的に簡易表現する分析手法です。データ量を減らすことで分析しやすくなる反面、一部の情報を切り捨ててしまいます。例えば、Webページ内容を評価する際に、閲覧数、文字数、画像枚数のみに着目すれば分析しやすくなります。しかし、モバイルに対応しているかどうかなどの考慮すべき情報が落ちてしまう可能性があり、注意が必要です。
代表的な分析手法
具体的な分析手法として、主成分分析のひとつであるTF-IDFとLDAを紹介します。
TF-IDF
TF-IDFはTFとIDFという単語にわけられます。TFはTerm Frequencyの略で、文書中の「ある単語」が「どれくらい多い頻度で出現するか」を表し、IDFはInverse Document Frequencyの略で「(逆に)どれくらい少ない頻度で存在するか」を表します。
◆TF値の意味
一つの文章の中の特定の種類の単語を一つの文章全体の単語の種類数で割った値をTFとします。このようにして文章の中の頻出単語を抽出し文章の単語による特徴を把握していきます。
◆TF値の計算式
ある文書djに出現する単語tiについて考える場合、出現回数を表す関数をfとするとTF値は以下の式のようになります。TF値は文書、単語ごとに定義されるので、同じ単語であっても文書が異なる場合は、値が一致するということではありません。

出現回数が多いほどTF値は大きくなり,出現回数が低いほどTF値は小さくなります.
ここまでの話から,単純に文書内にたくさん出現している単語ほど,その文書をよく表しているといったことになりそうですが、そのようなわけではありません.例えば、日本語の中でよく含まれているような助詞の「の」のような単語は抽出して文章を特徴づけてもあまり意味が無いということが分かるでしょう。
そこで,「その単語が他の文書にはないレアな単語である」ことを表すIDF値が重要となります。
◆IDF値の意味
次にIDFの説明をします。IDFは逆に文字の多さではなく文字のレアリティに注目します。IDF値は文書集合の中のある単語が含まれる文書の割合の逆数を表します.単語が他の文章にも多く出現しているほどIDF値は小さくなり,単語が他の文章にあまり出現していないほどIDF値は大きくなります。
◆IDF値の計算式
ある文書集合における単語tiについて考える場合,dfを単語tiが出現する文書数とすると,IDF値は以下の式から計算できます.TF値と違い,IDF値は単語ごとに存在することに注意が必要です.TFと同様にIDFの値を数式として表すと
のようになりますが、文書内に一度も出現しない単語のIDF値を計算しようとした場合,0除算(division-by-zero)が発生してしまう.そのため,分母に+1を追加した以下の式を使用するのが一般的です。

そしていよいよTF-IDFの紹介に入ります。
◆TF−IDF値の意味
TF-IDF値はTF値とIDF値をかけ合わせて計算します。このようにすることで、ある文書内での出現回数は多いが他の文書には出現しない単語のTF-IDF値は大きくなり、それ以外の単語についてはTF-IDF値は相対的に小さくなります。上記で算出したTF値とIDF値をかけ合わせることで,単語毎の重要度を算出し、文章の中から文章の特徴と成る単語を抽出しつつ、その抽出した単語が特徴になりえないようなありふれた単語であるということを防ぐ、という作業を行います。またTF-IDF値は文書ごと,単語ごとに存在します。
TF-IDFの計算は以下のようになります。

LDA

LDAは「Latent Dirichlet Allocation」の略称で、日本語では「潜在的ディリクレ配分法」と言います。具体的にはLDAは文章を、その文章が含む単語の内容をつかむことで文章全体のトピックを決める方法です。
例えば分類分けをしてしまうと、「C.ロナウド、世界で最も稼いだアスリート」と言うような記事があった時、この記事は「スポーツ」と「経済」どちらかしか含まれませんが、LDAはこのような場合でも「スポーツ」、「経済」のトピックを記事に付与することによってどちらの可能性も損ないません。
みなさんが使っているようなニュースサイトでも「経済のニュース」、「スポーツのニュース」、「芸能のニュース」というようなそれぞれのトピックの内容を適切に読者に伝えるためにもこのようなアルゴリズムが裏で活用されています。