資料挖掘簡介 在1990年代由於大量資料的產生、資料倉儲的協助、計算能力的提昇及強大的競爭力,商業用的資料挖掘在最近幾年大量地被應用。 資料挖掘(Data Mining)是經由自動或半自動的方法探勘及分析大量資料,以建立有效的模型及規則,讓企業透過資料挖掘來更瞭解他們的客戶。進而改進他們的行銷、業務及客服的運作。 資料挖掘的工作包括對資料的分類(classification)、推估(estimation)、預測(prediction)、關聯分組(affinity grouping)、群集化(clustering)以及描述(description)。 分類(classification): 分類是分析一個新事物的所有特質,在將其指派至一個現有的群集中,根據我們的需要,這些分類的事物通常是一組資料庫中的交易資料,並且賦於每一筆資料用以區別群集的辦識碼,決策樹以及記憶基礎理解是特別適用於分類的工作,而連結分析(link analysis),在某些情況下也能夠進行分類的工作。 推估(estimation): 分類所給的總是像「是與否」這樣不連續的答案,而推估則是善於處理連續性的問題,藉由輸入資料,用來推估一些未知的連續性變數。類神經網路在推估的作業上,能夠發揮強大的功能。 預測(prediction): 預測是去推估未來的數值以及趨勢,歷史資料可以用來建立模型以檢視近來觀察值的資料,如果利用最新資料作為輸入值,可以獲得關於未來變化的預測值。購物籃分析(Market Basket Analysis)、記憶基礎理解、決策樹以及類神經網路都是用來進行預測作業的技術,不過要視輸入資料的性質、想預測的數值類型以及預測結果的解釋性來斟酌使用技術。 關聯分組(affinity grouping): 關聯分組的功能是去發覺哪些事情總是同時發生,最典型的案例就是去分析在超級市場購物的購物籃,因此有時會稱之為購物籃分析。關聯分組也可以用來確立交叉銷售(cross selling)的基礎,並藉此設計吸引消費者的促銷方案。 群集化(clustering): 群集化就是將一群異質的群體區隔為同質性較高的群集或是子集。這與分類不同的是,群集化並沒有依靠事先明確定義的類別進行分類。 描述(description):有時,資料挖掘的目的只是簡單的描述在這複雜的資料庫中,到底發生了什麼?透過這種方式,能夠對客戶、產品以及流程有更多的認識。一個詳盡的顧客行為描述,通常能帶來更多行為的解釋,描述可以讓我們知道該從何處著手去解釋這些現象。像購物籃分析就是屬於敘述性的技術,而像是類神經網路,就完全無法提供任何敘述性的資訊。 下列簡單介紹資料挖掘的各種技術: 購物籃分析: 購物籃分析是「群集分析」的一種形式,著眼點在於找出可以一起販售的商品組合-它能顯示商品組合的售出率有多高並形成規則。零售業是購物籃分析最有密切關係的企業。 記憶基礎理解(MBR): 記憶基礎理解是一種監督式資料挖掘技術,利用已知的範例形成推斷未知的模型。記憶基礎理解分析會找尋與已知部分最接近的案例,並且將它們結合,以產生分類項與預測值。 決策樹: 決策樹是由分類與回歸樹(Classification and Regression Trees, CART)和卡方自動歸納法(Chi-Squared Automatic Induction)等技術產生的強大模型。決策樹可應用在監督式資料挖掘上,尤其是資料分類,它能將訓練模組的紀錄區分為獨立的子群-並且每一子群都有自己的規律。決策樹的優勢在於它的可解釋性高,因為它採用的規則都由直接淺明的文字寫成,這可以讓使用者評價結果、過程中找出關鍵屬性。 人工類神經網路: 類神經網路可以說是最常見的資料挖掘技術,利用人類神經思考過程的原理,它可以從訓練資料組中學習,並產生歸類和預測的模型。類神經網路的優勢在於它的廣泛應用度,因為它有眾多的軟體製造商的大量應用軟體和工具支援。類神經網路有兩大缺點,其一是它產生的模型難以解釋,其二是他們對於資料的形式過度敏感-資料的形式不同,結果可能會天差地遠。 基因演算法: 基因演算法應用基因演化和天擇的機制找尋預測功能的最佳參數,因此多用在監督式資料挖掘上。基因演算法類似統計學,模型的形式必須先行確定,基因演算法使用選擇、雜交(Crossover)和突變繁衍出成功世代的各種模型。在世代繁衍的過程中,優勝劣敗,直到最佳方案出現。
|