データマイニングとは大量のデータから、購入された商品の組み合わせの規則性の特徴など、「知識」を見いだすための技術です。近年データマイニングがビジネスで注目されていますが、その理由はどのようなものでしょうか。この記事では、データマイニングの定義や、ビジネスで注目される理由、データサイエンスとの違い、データマイニングの具体的な方法や注意点などを解説していきます。
➡︎【資料ダウンロード】ビジネスにコミットする「データ利活用のガイドブック」
目次
まずはデータマイニングの定義や基礎知識を解説します。
データマイニング(Data mining)とはデータをマイニング、つまり発掘するという意味です。大量のデータから、統計学や人工知能などの分析手法を駆使して「知識」を見いだすための技術を言います。
もともとはデータベースからの知識発見(Knowledge Discovery in Databases:KDD)と呼ばれていましたが、1996年にデータベースからの知識発見とデータマイニングという語を紐付けた形で定義が提案され、今では同意義で使われことが多くなっています。
コンピューターの高速化やストレージの大容量化が進み、データマイニングはビッグデータと呼ばれる巨大なデータを扱えるようになると同時に「知識発見プロセス」の理解も進歩し、データマイニングはデータの取得、クレンジング、前処理、発見ステップ、結果の後処理、運用システムへの統合なども包含するようになりました。
さまざまな知識発見プロセスがありますが、いずれも共通するのは、プロセスの各段階で必要に応じて人間とコンピューターが相互的にかつ反復的に作用し合い、データから知識発見を行うという前提で、種々の技術を研究開発していく立場をとるという点です。
近年、ネットワークの発達や、スマートフォンやセンサーなど、さまざまなモノに通信機能が搭載され、それらのデータはインターネット経由で取得されるようになりました。このような技術をIoT(モノのインターネット)技術と呼びます。またデータ保管技術の進歩により、企業は膨大なデータを収集し、ビッグデータとして保管ができるようになりました。
企業はこのビッグデータを用い、マーケティング課題の解決を検討しています。マーケティング課題の解決とは、企業市場において次の4Pを明確にすることを言います。
この4Pを明確にするための手段の1つとして、企業はデータマイニングに注目をしているのです。
★データマイニングとは?
→大量のデータから、統計学や人工知能などの分析手法を駆使して「知識」を見いだすための技術
・データベースからの知識発見と同意義で使われことが多くなっている
・データの取得、クレンジング、前処理、発見ステップ、結果の後処理、運用システムへの統合までをデータマイニングの範囲とする
・企業はマーケティング課題を明確にするための手段の1つとして、データマイニングに注目をしている
➡︎【資料ダウンロード】ビジネスにコミットする「データ利活用のガイドブック」
データサイエンスもデータマイニングと同じく、大量のデータから知識を導き出すことを行いますが、対象としているプロセスの範囲が異なります。
データサイエンスでは、以下の4つを把握、運用することを担当します。
データマイニングでは、データサイエンスのプロセスの内、主に「3.データの解析・可視化」を取り扱います。つまり、収集されたデータに対し、状況や課題の理解から、データクレンジング、データの見極めや確認などの前処理、分析結果のモデリングや検証、運用システムが使いやすい形に統合することまでがデータマイニングの範囲です。
➡︎【資料ダウンロード】ビジネスにコミットする「データ利活用のガイドブック」
データマイニングおよび知識発見プロセスは、すでに何かしらの仮説がある場合はその検証を行えばよいですが、仮説がまったくない場合、仮説を作るところから始める必要があります。そのため、仮説を立てることと仮説を検証することの2つのアプローチに大きく分けることができます。
この2つのアプローチは機械学習のアプローチとほぼ同等です。機械学習では、仮説検証を行う場合は教師あり学習、仮説発見を行う場合は教師なし学習として、統計解析により大量データからルールを自動で生成します。
ここでは、仮説検証としての教師あり学習と、仮説発見としての教師なし学習について具体的な方法を記載します。
あらかじめ、正解とする入力データと出力データをコンピューターにインプットしておきます。そして新たなデータを与えられた際、正解と比較して判定を行う手法が教師あり学習です。
教師あり学習は、どのようにデータを分類するかという目的変数を決める「分類」と、あらかじめ与えられた傾向(説明変数)をもとに予測(目的変数)を決定する「回帰」の2つがあります。
画像から個人を判断するのは分類の例です。顔画像や指紋、声などの情報から個人を分類できます。回帰の例としては、テストの点数から志望校への合格確率予測であったり、地域や気候データなどから店舗の売上金額を予測したりすることです。
以下、教師あり学習のアルゴリズムとしてよく知られているものを紹介します。
①線形回帰分析
線形回帰とは、回帰分析の一種で、ある目的変数の値を、別の説明変数の値にもとづいて予測する手法です。例えば、SNSに投稿されたとあるケーキ屋さんの投稿数からケーキの売上金額を予測する場合、説明変数はSNSの投稿数、目的変数はケーキの売上金額となるでしょう。このように1つの説明変数を持つ場合は単回帰分析といい、SNSの投稿数の他に、チラシの配布枚数など説明変数を1つ以上持つ場合は重回帰分析といいます。
他にも、目的変数にカテゴリーや比率を設定するロジスティック回帰や、2つの母集団を設定し、あるサンプルがどちらの母集団に属するのかを推測する判別分析などがあります。
②サポートベクターマシン(SVM)
サポートベクターマシンとは、2つのクラスがどのように異なるかを構成する手法であり、2つのクラスを識別する直線(関数)を求めます。例えば、よく壊れるメガネとそうでないメガネを識別する関数などです。この関数を識別面といいますが、ここから最も近いデータ(サポートベクター、サポートベクトル)を用いて識別面を決定します。サポートベクターマシンは説明変数が多くても利用することができ、使いやすいと言われています。
③決定木
決定木はディシジョンツリーとも呼ばれます。ツリー構造を作り出し、分類を行うルールを作成する分析・予測手法です。例えば、スーパーなどで買い物に来る客のうち、見込み客となるユーザーはポイントカードを持っており、購入金額がX円以上といった属性を分類し、今後の予測に用いることができます。「過学習」という学習のしすぎにより、学習したデータから少しでも外れる未知のデータに対して、予測精度が下がるという現象が起きやすいのが欠点です。
④ランダムフォレスト
ロジスティック回帰やサポートベクターマシン、決定木など複数の学習モデルを組み合わせることをアンサンブル学習と言います。アンサンブル学習の観測データから、一部をランダムにサンプリングし、複数の学習モデルを並列に学習させたデータをもとに、多くの決定木を用いて分類や回帰、クラスタリングを行う機械学習のアルゴリズムがランダムフォレストです。複数の決定木を用いることで決定木の過学習を克服し、シンプルでわかりやすく精度が高いと言われています。
⑤ニューラルネット
ニューラル(neural)は、ニューロン(神経細胞)のという意味で、ニューラルネットは脳神経のメカニズムを人工的にコンピューターのプログラムで再現した、機械学習の手法の一つです。
脳では、ニューロンが他のニューロンから信号を受け取り、その受け取った信号の量に応じて他のニューロンに次々に信号を伝達し、情報を処理します。ニューラルネットではこの仕組を関数で再現します。ある程度の情報量を獲得したものが「情報」として次の層に出力され、さらにその層である程度の情報量を獲得すると「知識」として出力するようなイメージです。
ディープラーニングは、この中間層(隠れ層)を何層にも重ねてニューロンの数を増やすことで、より精度の高い判断ができるようにしたものです。
教師あり学習と異なり、教師なし学習では仮説を発見することを目標とするため、データの中に正解を持っていません。そのため、教師なし機械学習では、何かしらの観点にもとづいて、似ているデータ同士を分類します。教師なし学習ではこの分類そのものが主な目的です。分類されたグループが持つ意味に対して、人が解釈を行う必要があります。
大量のデータやグループに対して分類を行うことで、 人が気が付かない特徴や、異常なデータの発見に役立てることができます。
教師なし学習の主な手法には、次元圧縮とクラスタリングがあります。
次元圧縮はデータの特徴を抽出することで説明変数の数を削減する手法です。次元削減ともいいます。次元圧縮を行った結果の学習データは情報量が少ないため把握しやすくなります。クラスタリングは、データを特徴が近いもの同士に分類する手法です。
教師なし学習のアルゴリズムとして知られているものを紹介します。
①主成分分析(PCA)
主成分分析は次元圧縮の代表的な手法です。多くのデータ(説明変数)を、より少ない指標(合成変数)に要約する手法です。 身長と体重のデータから肥満度を表すBMI(Body Mass Index)を計算することは、データの情報を保ちながら少ない指標にする主成分分析の例といえます。
②因子分析
因子分析も次元圧縮の手法です。因子分析とは観測変数の結果を引き起こす少数の潜在因子を明らかにする手法です。
因子分析は知能の構造を説明するための方法として考案されました。テストの成績について、国語は良いのに社会は悪い理由を説明する際、成績の背後に隠れている能力、たとえば読解力、推理力といった「因子」を見いだすことができれば説明が容易になります。
③クラスター分析
クラスター(cluster)とは、英語で「群れ」や「かたまり」を意味します。クラスター分析とは、データから特徴が近いデータを集めて分類し、特性などを把握する分析手法です。
特徴が近いデータの集団を「クラスター」といい、このクラスターを作ることを「クラスタリング」といいます。
④アソシエーション分析
アソシエーション分析は、データの中からパターンや関連性を抽出する手法です。代表的なものには「マーケット・バスケット分析」があります。商品の中から、商品間の関連性や同時性を見つけるのに有益といわれます。オンライン販売サイトにて、見ている商品に関連したものをおすすめする「レコメンデーション」はこのアソシエーション分析が用いられています。
⑤自己組織化マップ(SOM)
自己組織化マップはニューラルネットの一種で、膨大な情報から傾向や相関関係を自動的に判別し、視覚的に理解できるようにする可視化の手法です。自己組織化マップはもともと、大脳視覚野における機能地図の自己組織化モデルに由来するため、このような名前となっています。
➡︎【資料ダウンロード】ビジネスにコミットする「データ利活用のガイドブック」
ビッグデータは膨大なため、そのまま機械学習などに利用できません。事前に情報を加工し、データの傾向や特徴を把握することが必要です。また、機械学習実施後に得られたデータについても、信頼性はあるか、偏りなどがないか、評価をすることが必要です。
膨大なデータはそのまま使うことができないため、事前にデータ確認し、前処理やコンピューターに読み込ませるデータを決める必要があります。前処理はクレンジングと呼ばれ、不要な情報の削除や、データの欠損・異常値などの削除を行います。その後、コンピューターに読み込ませるデータである「特徴量」の決定を行います。状態をグラフや表などで可視化した上で決定する必要があります。
機械学習を行い分析結果を得られたとしても、もともとのデータが信頼できるものでない場合や、データの収集対象に偏りがある場合は、分析結果は不正確となってしまいます。データが信頼できる機関によって取得されたものか、データの量は十分であるか、データの取得方法や対象は正確であるかなど、取得したデータに対して「信頼性」「量」「偏り」の評価を行うようにしましょう。
➡︎【資料ダウンロード】ビジネスにコミットする「データ利活用のガイドブック」
データマイニングの定義やデータマイニングの具体的な方法を、機械学習の手法とともに解説しました。データマイニングおよび知識発見プロセスは、人間とコンピューターが相互的にかつ反復的に作用し合い、有益な知識を効率的に発見していきます。
デジタル技術の浸透で人々の生活をより良いものへと転換するデジタルトランスフォーメーション(DX)も、人とコンピューターが相互的に作用し合うことでビジネスや生活を取り巻く環境をより豊かにしていくものです。
データマイニングによってビッグデータを活用し、マーケティング課題の解決に活かしていきましょう。
モンスターラボは、約20年にわたるサービス・プロダクト開発実績から得られたデジタル領域の知見や技術力を活かし、デジタルプロダクト開発事業を展開しています。
先端テクノロジーに対応した高度なIT人材があらゆるプラットフォーム上での開発を支援します。アジャイル開発とDevOpsによる柔軟な開発進行や、国内外のリソースを活用したスケーラブルな開発体制の構築も可能です。 また、リリース後の保守運用や品質向上支援まで伴走可能です。
モンスターラボが提供するサポートの詳しい概要は以下リンクをご確認ください。