代表的なデータマイニング手法

続いて、代表的なデータマイニングの手法について解説していきます。
手法によって、どのような状況において使いやすいのか、そして知識発見・仮説検証のうち、どちらを得意としているかが異なります。
ロジスティック回帰分析
ロジスティック回帰分析とは、とある事象が発生する可能性を予測するのに長けた分析方法です。
例えば、顧客に新商品を紹介するDMを送った時、その商品が購入されるかどうか。
そして、仮に購入される時は、どのような要素が関係しているのかを分析します。
この手法はマーケティングにおいては広く利用されており、他にも患者が病気を発症する確率を予測する医療現場や、金融のリスクを計算することにも使われていたりします。
クラスター分析
クラスター分析とは、「知識発見」に適したデータマイニングの手法になります。
類似するデータをグループ分けすることで、今まで見えてこなかった新たな関係性を見つけ出す事が可能になります。
クラスター分析の中でも、階層クラスタリング・非階層クラスタリングなどがあり、必要なデータ量・人間が前提条件を設定することによる正確性、そして必要な計算量などに差があります。
また、階層クラスタリングはグループ分けをする過程が可視化されるため、理解しやすいのに対して、非階層クラスタリングは定められたグループ数にキッパリと分けてしまうため、なぜそのようなグループ分けがされたのかを理解する難しさがあります。
↓クラスタリングについてのさらに詳しい解説はこちらから!
クラスタリングとは | 分析の手法などをわかりやすく解説!
マーケット・バスケット分析
マーケット・バスケット分析とは、小売店において売上を伸ばす方法を考えたときに、一見して繋がりのわからない、購入されやすい商品の組み合わせを見つけ出すための手法です。
例えば、後ほど詳しく紹介しますが、1992年にウォルマートにおける購買行動の分析結果として、紙おむつとビールが一緒に購入されやすいという事が、米紙「ウォールストリートジャーナル」によって紹介されました。
消費者の行動には見えていない部分が非常に多くあるため、マーケット・バスケット分析を活用することで、最適な商品陳列を行いやすくなります。
機械学習
最近非常に注目されている機械学習ですが、データマイニングにおいても活躍する手法の一つです。
教師あり学習と教師なし学習の二つがあり、教師あり学習では入力するデータと正解とするデータを用意し、入力されたデータを分析した結果がどの程度正解に近づいたかを参考に、内部の処理の仕方を変化させていく学習方法であり、仮説検証に役立つといえます。
対して、教師なし学習とは正解とするデータを利用しないため、問題を解決することに不向きな代わりに、新しいパターンを発見する知識発見に優れているといえます。そして、先ほど紹介したクラスター分析(クラスタリング)も、この教師なし学習の一つに含まれます。
↓機械学習についてのさらに詳しい解説はこちらから!
【入門】機械学習とは?種類やアルゴリズムを簡単に解説!