Data Mining

 

前言

Data Mining是一個浮現中的新領域。在範圍和定義上、推理和期望上有一些不同。挖掘的資訊和知識從巨大的資料庫而來,它被許多研究者在資料庫系統和機器學習當作關鍵研究議題,而且也被企業體當作主要利基的重要所在。

Data Mining

所謂Data Mining就是從資料中發掘資訊或知識(有人稱為Knowledge Discovery in Databases, KDD), 也有人稱為「資料考古學」(Data Archaeology)、「資料樣型分析」(Data Pattern Analysis)或「功能相依分析」(Functional Dependency Analysis),目前已被許多研究人員視為結合資料庫系統與機器學習技術的重要領域,許多產業界人士也認為此領域是一項增加各企業潛能的重要指標。

根據Glymour等人的研究,提出一個參考的進行步驟如下:1.理解資料與進行的工作;2.獲取相關知識與技術(Acquisition);3.融合與查核資料(Integration and checking);4.去除錯誤或不一致的資料(Data cleaning);5.發展模式與假設(Model and hypothesis development);6.實際資料挖掘工作;7.測試與檢核所挖掘的資料(Testing and verfication);8.解釋與使用資料(Interpretation and use)。

目前企業界把Data Mining應用在許多領域。例如,行銷、財務、銀行、製造廠、通訊等。並且產學合作下,發展出許多實用的系統,例如MDT、Coverstory and Spotlight 、NichWork visualization system、LBS、FALCON、FAIS、NYNEX、TASA等等。

資料倉儲、KDD、Data Mining的關係

許多人對於資料倉儲(Data Warehouse)和資料挖掘(Data Mining)時常混淆,不知如何分辨。其實,資料倉儲是資料庫技術的一個新主題,在資料科技日漸普及下,利用電腦系統幫助我們操作、計算和思考,讓作業方式改變,決策方式也跟著改變。另外,決策支援系統和主管資訊系統也日漸普遍,它們操作資料的方式不盡相同,因而有必要把作業性資料庫和資料倉儲分隔開來,利用不同資料庫系統與技術操作,才能達系統最佳化。

資料倉儲本身是一個非常大的資料庫,它儲存著由組織作業資料庫中整合而來的資料,特別是指從線上處理系統(OLTP)所得來的資料。將這些整合過的資料置放於資料倉儲中,而公司的決策者則利用這些資料作決策;但是,這個轉換及整合資料的過程,是建立一個資料倉儲最大的挑戰。因為將作業中的資料轉換成有用的的策略性資訊是整個資料倉儲的重點。資料倉儲集合具有成功有效率地探測資料的世界,則挖掘出決策有用的資料與知識,是建立資料倉儲與使用Data Mining的最大目的。而從資料倉儲挖掘有用的資料,則是Data Mining的研究重點,兩者的本質與過程是兩碼事。換句話說,資料倉儲應先行建立完成,Data mining才能有效率的進行,因為資料倉儲本身所含資料是「乾淨」(不會有錯誤的資料參雜其中)、完整的,而且是整合在一起的。因此,或許可說Data Mining是從巨大資料倉儲找出有用資訊之一種過程與技術。
 

KDD(Knowledge Discovery in Database)和Data Mining的關係也是需要釐清的,根據Fayyad 等人對KDD的定義:「The nontrivial Process of identifying valid、novel、potentially useful , and ultimately understandable patterns in data」,其流程步驟是:先理解要應用的領域、熟悉相關知識,接著建立目標資料集,並專注所選擇(Selection)之資料子集;再從目的資料中作前置處理(Pre-processing),去除錯誤或不一致的資料;然後作資料簡化與轉換工作(Transformation);在經由「Data Mining」的技術程序成為樣型(Patterns)、做回歸分析或找出分類型態;最後經過「Interpretation/ Evaluation」成為有用的知識。這些程序是一個循環的關係,一直重複的步驟,最後才得到一些有用的知識。所以,KDD是一連串的程序,Data Mining是其中的一個步驟而已。

總而言之,Data Mining,Data warehouse,KDD三者的關係可以如此釐清,即Data warehouse是一個經過處理、整合之資料庫,而KDD是一種知識發現的一連串程序,Data Mining只是KDD的一個重要程序。它們最終目的,乃為組織取得決策支援所需的資訊,這個資訊是突破盲點、見人所未見的知識和訊息,能替組織取得競爭優勢。