データマイニングの基礎知識
データマイニング(Data mining)とは、統計学やパターン認識などを用いて、有益な知見を探る方法です。1989年頃に、データマイニングの起源となる学術研究分野が確立され、1990年代にデータウェアハウスがデータ蓄積として活用されはじめるとともに、データマイニングも発展してきました。データマイニングにより組織の意思決定は改善し、さまざまなビッグデータがビジネスに活用されるようになりました。
データマイニングのプロセスは、主に以下の4つで構成されます。
4つのプロセス
- 目標の設定・・・ビジネス上の課題を定義する
- データ準備・・・関連するデータを収集し、クリーニングを行う
- モデル構築・・・分析に応じてデータの関係を調査
- 結果の評価・・・データを集計し、結果を評価
データマイニングでは、結果を評価し有用性を理解するスキルが求められます。得られた知識を駆使して戦略を立て、目的達成のための実行力も必要となります。
- クラスタリング・・・データ間の類似性を分析する方法
- ロジスティック回帰分析・・・2値の結果の確率を予測する方法
- アソシエーション分析・・・データ同士の関係を見つける方法
- 決定木分析・・・ツリー構造を使い変数を見つける方法
分析手法
データマイニングには、さまざまな分析手法があります。
代表的なものをご紹介します。
データマイニングは、上記のプロセスと分析方法を使うことで予測と分類、関係性などを表面化しマーケティング施策などに役立てることができます。