データマイニングとは

データマイニング(Data mining)とは、統計学、パターン認識、人工知能等のデータ解析の技法を大量のデータに網羅的に適用することで知識を取り出す技術。DMと略して呼ばれる事もある。通常のデータの扱い方からは想像が及びにくい、発見的(heuristic)な知識獲得が可能であるという期待を論理包含演算|含意していることが多い。英語ではknowledge-discovery in databases(データベースからの知識発見)の頭文字をとってKDDとも呼ばれる。

==定義==

データマイニングの定義としては,"明示されておらず今まで知られていなかったが、役立つ可能性があり、かつ、自明でない情報をデータから抽出すること" 、また、 "データの巨大集合やデータベースから有用な情報を抽出する技術体系"などがある。
データマイニングは,通常はデータの解析に関する用語として用いられるが、人工知能という用語などと同様、包括的な用語であり、様々な文脈において多様な意味で用いられる。

==歴史==
データマイニングの発展には、大量のデータ蓄積が可能となったことが直接的に関係している。デジタル形式でのデータの収集は、コンピュータを用いてデータ解析をすることを念頭に置いて1960年代には既に行われつつあった。リレーショナルデータベースとその操作用の言語SQLが1980年代に出現し、オンデマンドで動的なデータ解析が可能となった。1990年代に至り、データ量は爆発的に増大した。データウェアハウスがデータの蓄積に用いられ始めた。
これに伴い、データベースにおける大量データを処理するための手法としてデータマイニングの概念が現れ、統計解析の手法や人工知能分野での検索技術等が応用されるようになった。

==解析手法==
===頻出パターン抽出===
データ集合の中から,高頻度で発生する特徴的なパターンを見つける。
*相関ルール抽出
**データベースに蓄積された大量のデータから、頻繁に同時に生起する事象同士を相関の強い事象の関係、すなわち相関ルールとして抽出する技術。販売時点情報管理|POSや電子商取引|Eコマースの取引ログに含まれる購買履歴を利用したバスケット解析が著名である。
***例1:スーパーでビデオを買った人のうちガムテープを買う人が多い → 両者を同じ場所に置く。
***例2:本Aを買う人は、後に本Bを買うことが多い → 購入者に本Bを薦めるダイレクトメールを送る。
*その他の頻出パターン
**時系列やグラフを対象としたものもある

===クラス分類===
クラス分類は与えられたデータに対応するカテゴリを予測する問題。
*代表的な手法:単純ベイズ分類器, 決定木, サポートベクターマシン
**例:薬品の化合物のデータから,その化合物に薬効がある・ないといったカテゴリを予測

===回帰分析===
与えられたデータに対応する実数値を予測する問題
*代表的な手法:線形回帰、ロジスティック回帰、サポートベクトル回帰
**例:曜日、降水確率、今日の売上げなどのデータを元に、明日の売上げという実数値データを予測

===クラスタリング===
データの集合をクラスタと呼ぶグループに分ける。クラスタとは、同じクラスタのデータならば互いに似ていて、違うクラスタならば似ていないようなデータの集まり。
*データ・クラスタリングを参照
**例:Webの閲覧パターンのデータから、類似したものをまとめることで、閲覧の傾向が同じ利用者のグループを発見する。

出典:フリー百科事典『ウィキペディア(Wikipedia)』 GNU Free Documentation License.

営業・販売に関する人気コラム一覧

ビジネス用語・経営用語辞典カテゴリ

経営者支援コンテンツ

比較ビズで一括見積もりしませんか?

会員メニュー

おすすめコンテンツ

経営マガジンへの掲載

▲ページTOP