讀書筆記《數據挖掘概念與技術》第1章 引言


書籍信息
【書名】       數據挖掘:概念與技術(原書第2版)

【原書名】    Data Mining: Concepts and Techniques, Second Edition

【作者】       (加)Jiawei Han; Micheline Kamber
【譯者】       范明;孟小峰
【出版社】    機械工業出版社
【書號】       9787111205388
【出版日期】2007 年3月
 

第1章     引言
1.1 什么激發了數據挖掘,為什么它是重要的
Ø 需要是發明之母。——柏拉圖
Ø 聯機事務處理(OLTP)
Ø 數據庫系統技術的演變(圖1-1)

Ø 數據倉庫,數據倉庫技術包括數據清理、數據集成、聯機分析處理(OLAP)
Ø 數據豐富加上對強有力的數據分析工具的需求可描述為 數據豐富,但信息貧乏。 快速增長的海量數據收集、存放在大型和大量數據存儲庫中,沒有強有力的工具,理解它們已經遠遠超出了人的能力。結果,收集在大型數據存儲庫中的數據變成了 “數據墳墓”——難得再訪問的數據檔案。這樣,重要的決策常常不是基於數據存儲庫中信息豐富的數據,而是基於決策者的直覺,因為決策者缺乏從海量數據中提 取有價值知識的工具。此外,當前的專家系統技術通常以來用戶火領域專家人工地將知識輸入知識庫。遺憾的是,這一過程常常有偏差和錯誤,並且耗時和費用高。 數據挖掘工具進行數據分析,可以發現重要的數據模式,對商務策略、知識庫、科學和醫學研究做出巨大貢獻。正在擴大的數據和信息之間的裂口呼喚系統地開發數 據挖掘工具,將數據墳墓轉換成知識“金塊”。
 
1.2 什么是數據挖掘
Ø 簡單地說,數據挖掘是指從大量數據中提取或“挖掘”知識。
Ø 有一些術語具有和數據挖掘類似但稍微不同的含義,如從數據中挖掘知識、知識提取、數據/模式分析、數據考古和數據捕撈。
Ø  知識發現過程(圖1-4)

1.         數據清理(消除噪聲和不一致數據)

2.         數據集成(多種數據源可以組合在一起)

3.         數據選擇(從數據庫中提取與分析任務相關的數據)

4.         數據變換(數據變換或統一成適合挖掘的形式,如通過匯總或聚集操作)

5.         數據挖掘(基本步驟,使用智能方法提取數據模式)

6.         模式評估(根據某種興趣度度量,識別表示知識的真正有趣的模式)

7.         知識表示(使用可視化和知識表示技術,向用戶提供挖掘的知識)

步驟1-4是數據預處理的不同形式,為挖掘准備數據。

Ø 本書中,采用數據挖掘功能的廣義觀點:數據挖掘是從存放在數據庫、數據倉庫或其他信息庫中的大量數據中發現有趣知識的過程。
Ø  典型數據挖掘系統的結構(圖1-5)

 
Ø 通過數據挖掘,可以從數據庫中提取有趣的知識、規律或高層信息,並可以從不同的角度觀察或瀏覽它們。發現的知識可以用於做決策、過程控制、信息管理和查詢處理。因此,數據挖掘在信息和數據庫系統方面是最重要的前沿之一,是信息技術最有發展前途的交叉學科之一。
 

1.3 對何種數據進行數據挖掘
1.3.1 關系數據庫
關系數據庫是數據挖掘 最常見、最豐富的數據源,因此,它是我們數據挖掘研究的一種主要數據形式。
 
1.3.2 數據倉庫
Ø  數據倉庫是一個從多個數據源手機的信息存儲庫,存放在一個一致的模式下,並且通常駐留在單個站點。數據倉庫通過數據清理、數據變換、數據集成、數據裝入和定期數據刷新過程來構造。圖1-7

 

Ø 數據倉庫的實際物理結構可以是關系數據存儲或多維數據立方體(multidimensional data cube)。

Ø  數據倉庫與數據集市的區別:數據倉庫手機了跨部門的整個組織的主題信息,因此它是企業范圍的。另一方面,數據集市(data mart)是數據倉庫的一個部門子集。它的焦點在選定的主題上,是部門范圍的。
 
1.3.3 事務數據庫
Ø 一般,事務數據庫由一個文件組成,其中每個記錄代表一個事務。
 
1.3.4 高級數據和信息系統與高級應用

1.         對象——關系數據庫

2.         時間數據庫、序列數據庫和時間序列數據庫

a)         時間數據庫(temporal database)通常存放包含時間相關屬性的關系數據。這些屬性可能設計若干時間標簽,每個都具有不同的語義。

b)        序列數據庫(sequence database)存放具有或不具有具體時間概念的有序事件的序列。例子包括顧客購物序列、web點擊流和生物學序列。

c)         時間序列數據庫(time-series database)存放定時(如每小時、每天、每周)重復測量得到的值或事件的序列。例子包括股票交易、庫存控制和自然現象(如氣溫和風力)觀測收集的數據。

可以使用數據挖掘技術發現數據庫中對象演變特征或對象變化趨勢。這些信息對於決策和規划是有用的。

3.         空間數據庫和時間空間數據庫

a)         空間數據庫(spatial database)包含設計空間的信息。例子包括地理(地圖)數據庫、超大規模集成電路(VLSI)或計算機輔助設計數據庫以及醫療和衛星圖像數據庫。空 間數據可能用光柵格式(raster format)標識,由n維位圖或像素圖構成。地圖也可以用向量格式表示。

b)        你可能會問:“對於空間數據庫可以進行何種數據挖掘?” 數據挖掘可以發現描述坐落在特定類型地點(如公園)附近的房屋特征。其他模式可能描述不同海拔高度的山區氣候,或根據城市離主要高速公路的距離描述大城市 貧困率的變化趨勢。可以考察空間對象集之間的聯系,發現空間自相關或關聯的對象子集。通過空間聚類分析可以發現簇和離群點。此外,還可以進行空間分類,根 據空間對象的相關特征集構造預測模型。進一步,可以構造“空間數據立方體”,將數據組織到多維結構和層次結構中,可以對其進行OLAP操作(如下鑽和上 卷)。

c)         存放隨時間變化的空間對象的空間數據庫稱作時間空間數據庫(spatiotemporal database),從這種數據庫可以挖掘有趣的信息。例如,我們可以將移動對象的趨勢分組,識別移動怪異的車輛,或者根據疾病隨時間的地理分布,區別生物恐怖攻擊與正常的流感爆發。

4.         文本數據庫和多媒體數據庫

a)         文本數據庫是包含對象的詞描述的數據庫。

b)        對文本數據庫的數據挖掘可以發現什么?” 通過挖掘文本數據可以發現文本文檔的簡明概括的描述、關鍵詞或內容關聯,以及文本對象的聚類行為。為做到這一點,需要將標准的數據挖掘技術與信息檢索技術 和文本數據特有的層次構造(如字典和辭典),以及面向學科的(如生物化學、醫學、法律或經濟)術語分類系統集成在一起。

c)         多媒體數據庫存放圖像、音頻和視頻數據。

d)        對於多媒體數據挖掘,需要將存儲和搜索技術與標准的數據挖掘方法集成在一起。有前途的方法包括構造多媒體數據立方體、多媒體數據的多特征提取和基於相似性的模式匹配。

5.         異構數據庫和遺產數據庫

a)         異構數據庫(heterogeneous database)由一組互聯的、自治的成員數據庫組成。這些成員相互通信,以便交換信息和回答查詢。

b)        遺產數據庫(legacy database)是一組異構數據庫,將不同類型的數據系統組合在一起。

6.         數據流

a)         數據流具有的特性:海量甚至可能無限,動態變化,以固定的次序流進和流出,只語序一遍或少數幾遍掃描,要求快速(常常是實時的)響應時間。

b)        由於數據流通常不存放在任何數據存儲庫中,數據流的有效管理和分析對研究者提出了巨大挑戰。

c)         挖 掘數據流設計數據中的一般模式和動態變化的有效發現。例如,我們可能希望根據消息流中的異常檢測計算機網絡入侵,這可以通過數據流聚類、流動型動態構造或 將當前的頻繁模式與前一次的頻繁模式進行比較來發現。大部分流數據存在於相當低的抽象層,而分析者常常對較高抽象層或多抽象層更感興趣。因此,還應當對流 數據進行多層、多維聯機分析和挖掘。

7.         萬維網

a)         盡管web頁面好看並且信息豐富,但是它們可能是高度非結構化的,並且缺乏預定義的模式、類型或格式。這樣,對於系統地進行信息檢索和數據挖掘,計算機很難理解各種web頁面的語義並把它們以有組織的形式結構化。

b)        基於web頁面之間鏈接的權威web頁面分析(authoritative web page analysis可以根據web頁面的重要性、影響和主題,幫助對web頁面定制。

c)         自動web頁面聚類和分類有助於基於頁面的內容,以多維的方式對went頁面分組和安排。

d)        Web社區分析(web community analysis有助於識別隱藏的web社會網絡和社團,並觀察它們的演變。

e)         Web挖掘旨在開發可伸縮的、有效的web數據分析和挖掘方法。這可能幫助我們一般的了解web上信息的分布、描述web頁面的特征並對web頁面進行分類,發現不同的web頁面、用戶、社團和基於web的活動之間的web動態特性、關聯和其他聯系。

 

1.4 數據挖掘功能——可以挖掘什么類型的模式
Ø 一般而言,數據挖掘任務可以分為兩類: 描述預測。描述性挖掘任我描述數據庫中數據的一般性質。預測性挖掘任務對當前數據進行推斷,以做出預測。
Ø 在某些情況下,用戶不知道他們的數據中什么類型的模式是有趣的,因此可能想並行地搜索多種不同的模式。這樣,重要的是數據挖掘系統 要能挖掘多種類型的模式,以滿足不同的用戶需求或不同的應用。此外,數據挖掘系統 應當能夠在各種粒度(即不同的抽象層)發現模式。數據挖掘系統還 應當允許用戶給出提示,指導或聚焦有趣模式的搜索。由於有些模式並非對數據庫中的所有數據都成立,通常每個被發現的模式都附上一個 確定性或“可信性”度量
 
1.4.1 概念/類描述:特征化和區分
Ø 數據可以與類或概念相關聯。用匯總的、簡潔的和精確的方式描述各個類和概念可能是有用的。這種類或概念的描述稱為 / 概念描述(lass/concept description)。這種描述可以通過下述方法得到:(1) 數據特征化,一般地匯總所研究類(通常稱為目標類(target class))的數據;(2) 數據區分,將目標類與一個或多個可比較類(通常稱為對比類(contrasting class))進行比較;(3) 數據特征化和比較
Ø 數據特征的輸出可以用多種形式,包括 餅圖條圖曲線多維數據立方體和包括交叉表在內的 多維表。結果描述也可以用 廣義關系(generalized relation)或規則形式(稱作 特征規則)提供。
Ø  1-4 數據特征化。數據挖掘系統應當能夠產生一年之內雜字AllElectronics花費1000美元以上的顧客特征的匯總描述。結果可能是顧客的一般輪廓,如年齡在40~50歲、有工作和有很好的信譽等級。系統應當語序用戶任意維下鑽,一邊根據他們的職業類型來觀察這些顧客。
Ø  1-5 數據區分。 數據挖掘系統應當能夠比較AllElectronics的兩組顧客,如定期(每月多於2詞)購買計算機產品的顧客和偶爾(如每年少於3次)購買這種產品的 顧客。結果描述提供顧客比較的一般輪廓,頻繁購買計算機產品的顧客80%在20~40歲之間,受過大學教育;二不經常購買這種產品的顧客60%或者年齡太 多或者太年輕,沒有大學學位。沿一個維下鑽,如沿occupation下鑽,或添加新的維,如income_level,可以幫助發現兩類之間的更多區分 特性。
 
1.4.2 挖掘頻繁模式、關聯和相關
Ø 頻繁模式(frequent pattern)是在數據中頻繁出現的模式。
Ø  1-6 關聯分析。加上做完AllElectronics的市場部經理,想確定在相同的事務中,哪些商品經常被一塊購買。
Ø 包含單個謂詞的關聯規則稱作 單維關聯規則(single-dimensional association rule)。
 
1.4.3 分類和預測

Ø 分類(classification是這樣的過程,它找出描述和區分數據類或 概念的模型(或函數),以便能夠使用模型預測類標號未知的對象類。導出模型是基於對訓練數據集(即類標號已知的數據對象)的分析。

Ø “ 如何提供導出的模型?”導出的模型可以用多種形式表示,如 分類( IF-THEN )規則決策樹數學公式神經網絡(圖 1-10)。決策樹是一種類似於流程圖的樹結構,期中每個節點代表在一個屬性值上的測試,每個分支代表測試的一個輸出,二樹葉代表類或類分布。決策樹容易 轉換成分類規則。當用於分類時,神經網絡是一組類似於神經元的處理單元,單元之間加權連接。還有構造分類模型的其他方法,如朴素貝葉斯分類、支持向量機和 k最鄰近分類。

Ø 分類預測分類的(離散的、無序的)標號,預測(prediction)建立連續值函數模型。也就是說,它用來預測空缺的或不知道的數值數據值,而不是類標號。盡管術語預測可以指數值預測和類標號預測,在本書,預測主要是指數值預測。盡管還存在其他方法,但是回歸分析(regression analysis)是一種最常使用的數值預測的統計學方法。預測也包含基於可用數據的分布趨勢識別。

Ø  相關分析(relevance analysis)可能需要在分類和預測之前進行,它視圖識別對於分類或預測過程無用的屬性。這些屬性應當排除。
Ø  1-7 分類和預測
 
1.4.4 聚類分析

Ø 聚類(clustering)分析數據對象不考慮已知的類標號。一般情況下,訓練數據中不提供類標號,因為開始並不知道類標號。可以使用聚類產生這種標號。對象根據最大化類內部的相似性、最小化類之間的相似性的原則進行聚類或分組。也就是說,對象的簇這樣形成,使得相比之下在一個簇中的對象具有很高的相似性,而與其他簇中的對象很不相似。所形成的每個簇可以看做一個對象類,由它可以導出規則。聚類也便於分類法組織形式(taxonomy formation),將觀測組織成類分層結構,把類似的事件組織在一起。

Ø  1-8 聚類分析 可以對AllElectronics的顧客數據進行聚類分析,識別顧客的同類子族。這些簇可以表示每個購物目標群。圖1-11顯示一個城市內顧客位置的二維圖。數據點的三個簇是顯而易見的。

1.4.5 離群點分析

Ø 數據庫中可能包含一些數據對象,它們與數據的一般行為或模型不一致。這些數據對象是離群點(outlier)。大部分數據挖掘方法將離群點視為噪聲或異常而丟棄。然而,在一些應用中(如欺騙檢測),罕見的事件可能比正常出現的事件更令人感興趣。離群點數據分析稱作離群點挖掘(outlier mining)。

Ø  1-9 離群點分析。離群點分析可以通過檢測一個給定的賬號與正常的付費相比,購買數額特別大來發現信用卡欺騙性的使用。離群點值還可以通過購物地點和類型或購物頻率來檢測。
 
1.4.6 演變分析
Ø  數據演變分析(evolution analysis)描述行為隨時間變化的對象的規律或趨勢,並對其建模。
Ø  1-10 演變分析 假設你又紐約股票交易所過去幾年的主要股票市場(時間序列)數據,並希望投資高科技產業公司的股票。股票交易數據挖掘研究可以識別整個股票市場和特定的公司的股票演變規律。這種規律可以幫助預測股票市場價格的未來走向,幫助你對股票投資做出決策。
 

1.5 所有模式都是有趣的嗎
Ø 不是

Ø 存在一些模式興趣度的客觀度量。這些度量基於所發現模式的結構和關於它們的統計。對象形如的關聯規則,一種客觀度量是規則的支持度(support)。規則的支持度表示滿足規則的事務數據庫的事務所占的百分比。關聯規則的另一種客觀度量是置信度(confidence),它評估發現的規則的確定性程度。

Ø 一般,每個興趣度量與一個閾值相關聯,該閾值可以由用戶控制。例如,不滿足置信度閾值50%的規則可以認為是無趣的。低於閾值的規則可能反映噪聲、異常或少數情況,可能不太有價值。
 
1.6 數據挖掘系統的分類
Ø 數 據挖掘是一個交叉學科領域,受多個學科影響,包括數據庫系統、統計學、機器學習、可視化和信息科學。此外,依賴於所用的數據挖掘方法,可以使用其他學科的 技術,如神經網絡、模糊和/或粗糙集合論、知識表示、歸納邏輯程序設計或高性能計算。依賴於所挖掘的數據類型或給定的數據挖掘應用,數據挖掘系統也可能集 成空間數據分析、信息檢索、模式識別、圖像分析、信號處理、計算機圖形學、Web技術、經濟學、商業、生物信息學或心理學領域的技術。(圖1-12)

Ø  根據挖掘的數據庫類型分類: 數據挖掘系統可以根據挖掘的數據庫類型分類。數據庫系統本身可以根據不同的標准(如數據模型、數據類型或所涉及的應用)分類,每一類可能需要自己的數據挖 掘技術。這樣數據挖掘系統就可以相應分類。例如,根據數據模型分類,可以有關系的、事務的、對象-關系的或數據倉庫的挖掘系統。如果根據所處理數據的特定 類型分類,可以有空間的、時間序列的、文本的、流數據的、多媒體的數據挖掘系統,或萬維網挖掘系統。
Ø  根據挖掘的知識類型分類: 數據挖掘系統可以根據所挖掘的知識類型分類,即根據數據挖掘的功能分類,如特征化、區分、關聯和相關分析、分類、預測、聚類、離去點分析和演變分析。一個 綜合的數據挖掘系統通常提供多種和/或集成的數據挖掘功能。此外,數據挖掘系統還可以根據所挖掘的只是的粒度或抽象層進行區分,包括廣義知識(高抽象 層)、原始層知識(原始數據層)或多層知識(考慮若干抽象層)。一個高級數據挖掘系統應當支持多抽象層的知識發現。數據挖掘系統還可以分類為挖掘數據的規 則性(通常出現的模式)與挖掘數據的奇異性(如異常或離群點)。一般地,概念描述、關聯和相關分析、分類、預測和聚類挖掘數據的規則性,將離群點作為噪聲 排除。這些方法也能幫助檢測離群點。
Ø  根據所用的技術類型分類: 數據挖掘系統也可以根據所用的數據挖掘技術分類。這些技術可以根據用戶交互程度(例如自動系統。交互探查系統、查詢驅動系統),或搜用的數據分析方法(例 如面向數據庫或面向數據倉庫的技術、機器學習、統計學、可視化、模式識別、神經網絡等)描述。復雜的數據挖掘系統通常采用多種數據挖掘技術,或采用有效 的、集成的技術,結合一些方法的優點。
Ø  根據應用分類:數據挖掘系統也可以根據其應用分類。例如,可能有些數據挖掘系統特別適合金融、典型、DNA、股票市場、Email等。不同的應用通常需要集成對於該應用特別有效的方法。因此,泛化的全能的數據挖掘系統可能並不適合特定領域的挖掘任務。
 
1.7 數據挖掘任務原語
Ø 每個用戶頭腦中都有一個 數據挖掘任務,即想進行的數據分析形式。數據挖掘任務可以用指定的 數據挖掘查詢的形式說明數據挖掘系統的輸入。數據挖掘查詢用 數據挖掘任務原語定義。這些原語允許用戶在知識發現過程中交互的與數據挖掘系統進行同學,指導挖掘過程,或從不同的角度或深度考察所發現的結果。 數據挖掘原語說明定義如下,如圖1-13所示的下述挖掘意圖:

n 欲挖掘的 任務相關數據集:指明數據庫或數據集中用戶感興趣的部分。這包括感興趣的數據庫屬性或數據倉庫的維(稱作相關屬性或維)。
n 欲挖掘的 知識類型:說明要執行的數據挖掘功能,如特征化、區分、關聯或相關分析、分類、預測、聚類、離群點分析或演變分析。
n 用於發現過程的 背景知識:這種關於挖掘領域的知識對於指導知識發現過程和評估發現的模式是非常有用的。 概念分層是背景知識的一種流行形式,它允許在多個抽象層挖掘數據。概念分層的一個例子是age屬性(或維)的概念分層,如圖1-14所示。 用戶對數據中聯系的信賴是另一種形式的背景知識。

n 模式評估的 興趣度度量和閾值:可以用於指導挖掘過程,或在發現模式之后,評估所發現的模式。不同類型的知識可能有不同的興趣度度量。例如,對於關聯規則,興趣度度量包括支持度和置信度。其支持度和置信度的值小於用戶指定的閾值的規則認為是不感興趣的。
n 發現模式的期望的 可視化表示:涉及發現模式的顯示形式,可能包括規則、表、圖表、圖、決策樹和立方體。
Ø 可以設計 數據挖掘查詢語言集成這些原語,允許用戶靈活的與數據挖掘系統交互。數據挖掘查詢語言也為建立友好的圖形用戶界面提供了基礎。這將有助於數據挖掘系統與其他信息系統通信,有利於整個信息處理環境的集成。
Ø 設計一種綜合的數據挖掘語言是一個挑戰,因為數據挖掘任務涉及面寬,涵蓋數據特征化到演變分析。每種任務都有不同的需求。有效的數據挖掘查詢語言的設計需要深入理解各種數據挖掘任務的能力、局限性和基本機制。
Ø  1-11 挖掘分類規則
 
1.8 數據挖掘系統與數據庫系統或數據倉庫系統的集成
Ø  數據挖掘(DM )系統設計的一個關鍵問題是如何將DM 系統與數據庫(DB )系統和/ 或數據倉庫(DW )系統集成或耦合。如果DM系統作為一個孤立的系統或嵌入應用程序中,則不存在DB或DW系統與它通信。這種簡單的方案稱為 不耦合,期中DM設計所關注的主要問題停留在開發挖掘可用數據集的有效算法。然而,當DM系統工作在一個需要與其他信息系統成分(如DB和DW系統)通信的環境下,可能的方案包括不耦合、松散耦合、半緊密耦合和緊密耦合。
Ø  不耦合(no coupling :不耦合意味着DM系統不利用DB或DW系統的任何功能。它可能由特定的數據源(如文件系統)提取數據,使用某些數據挖掘算法處理數據,然后再將挖掘結果存放到另一個文件中。
盡管這種系統簡單,但有不少缺點。首 先,DB系統在存儲、組織、訪問和處理數據方面提供了很大的靈活性和有效性。不使用DB/DW系統,DM系統可能要花大量的時間查找、手機、清理和變換數 據。在DB和/或DW系統中,數據多半被很好的組織、索引、清理、集成或統一,使得找出任務相關的、高質量的數據成為一項容易的任務。其次,有許多經過測 試的、可伸縮的算法和數據結構在DB或DW系統中得到實現。使用這種系統開發有效的、可伸縮的實現是可行的。此外,大部分數據已經或將要存放在DB/DW 系統中。要是沒有任何這樣的系統耦合,DM系統就需要使用其他工具提取數據,使得很難將這種系統集成到信息處理環境中。因此, 不耦合是一種很糟糕的設計
Ø  松散耦合(loose coupling :松散耦合意味着DM系統將使用DB或DW系統的某些設施,從這些系統管理的數據庫中提取數據,進行數據挖掘,然后將挖掘結果存放到文件中,或者存放到數據庫或數據倉庫的指定位置。
n 松 散耦合比不耦合好,因為它可是使用查詢處理、索引和其他系統設施提取存放在數據庫或數據倉庫中數據的任意部分。這帶來了這些系統提供的靈活性、有效性等優 點。然而,許多松散耦合的挖掘系統是基於內存的。由於挖掘本身不利用DB或DW提供的數據結構和查詢優化方法,因此,對於大學數據集,松散耦合系統很難獲 得高度可伸縮性和良好的性能。
Ø  半緊密耦合(semitight coupling : 半緊密耦合意味着除了將DM系統連接到一個DB/DW系統之外,一些基本數據挖掘原語(通過分析頻繁遇到的數據挖掘功能確定)的有效實現可以在DB/DW 系統中提供。這些原語可能包括排序、索引、聚集、直方圖分析、多路連接和一些基本的統計度量(如求和、計數、最大值、最小值、標准差等)的預計算。此外, 一些頻繁使用的中間挖掘結果也可以預計算,並存放在DB/DW系統中。由於這些中間挖掘結果或者是預計算,或者可以有效地計算,這種設計將提高DM系統的 性能。
Ø  緊密耦合(tight coupling : 緊密耦合意味着DM系統平滑的集成到DB/DW系統中。數據挖掘子系統視為信息系統的一個功能組件。數據挖掘查詢和功能根據DB或DW系統的挖掘查詢溫 馨、數據結構、索引模式和查詢處理方法優化。隨着技術進步,DM、DB和DW系統將進化和集成在一起,成為一個具有多種功能的信息系統。這將提供一個一致 的信息處理環境。

Ø 有了這些分析,可以看出數據挖掘系統應當與一個DB/DW系統耦合。松散耦合盡管不太有效,也比不耦合好,因為它可以使用DB/DW的數據和系統設施。緊密耦合是高度期望的,但其實現並非易事,在此領域還需要更多的研究。半緊密耦合是松散和緊密耦合 之間的折衷。重要的是識別常用的數據挖掘原語,提供這些原語在DB/DW系統中的有效實現。

 
1.9 數據挖掘的主要問題
Ø 本書強調數據挖掘的主要問題,考慮挖掘技術、用戶界面、性能和各種數據類型。這些問題介紹如下:
Ø  數據挖掘技術和用戶界面問題:這反映所挖掘的知識類型、在多粒度上挖掘知識的能力、領域知識的使用、臨場即席挖掘和知識可視化。
挖掘數據庫中不同類型的知識
多個抽象層的交互知識挖掘
結合背景知識
數據挖掘查詢語言和特定的數據挖掘
數據挖掘結果的表示和可視化
處理噪聲和不完全數據
模式評估即興趣度問題
Ø  性能問題:這包括數據挖掘算法的有效性、可伸縮性和並行處理。
Ø  關於數據庫類型的多樣性問題:
n 關系的和復雜的數據類型的處理
n 從異構數據庫和全球信息系統挖掘信息
 
1.10 小結
Ø  數據庫技術已經從原始的數據處理,發展到開發具有查詢和事務處理能力的數據庫管理系統。進一步的發展導致越來越需要有效的數據分析和數據理解工具。這種需求是各種應用收集的數據爆炸性增長的必然結果;這些應用包括商務和管理、行政管理、科學和工程、環境控制。
Ø  數據挖掘是 從大量數據中發現有趣模式,這些數據可以存放在數據庫、數據倉庫或其它信息存儲中。這是一個年青的跨學科領域,源於諸如數據庫系統、數據倉庫、統計學、機 器學習、數據可視化、信息檢索和高性能計算。其它有貢獻的領域包括神經網絡、模式識別、空間數據分析、圖像數據庫、信號處理和許多應用領域,如商務、經濟 學和生物信息學。
Ø  知識發現過程包括數據清理、數據集成、數據變換、數據挖掘、模式評估和知識表示。
Ø 典型的數據挖掘系統 結構包括數據庫和/或數據倉庫及相應的服務器,數據挖掘引擎和模式評估模塊(二者與知識庫交互),以及圖形用戶界面。作為一個整體,數據挖掘組件與數據庫或數據倉庫系統 集成可能是不耦合、松散耦合、半緊密耦合或緊密耦合。一個設計良好的數據挖掘系統應當提供與數據庫和/或數據倉庫系統的緊密耦合或半緊密耦合。
Ø 數據模式可以從不同類型的 數據庫挖掘,如關系數據庫、數據倉庫、事務數據庫和、對象-關系數據庫。有趣的數據模式也可以從其它類型的 信息庫中提取,包括空間的、時間序列的、序列的、文本的、多媒體的數據庫和遺產數據庫、數據流和萬維網。
Ø  數據倉庫是一種數據的長期存儲,這些數據來自多個數據源,經過組織數據倉庫以有利於管理決策的方式組織。這些數據在一種一致的模式下存放,並且通常是匯總的。數據倉庫提供一些數據分析能力,稱作 OLAP (聯機分析處理)
Ø  數據挖掘功能包括發現概念/類描述、關聯和相關、分類、預測、聚類、趨勢分析、離群點和偏差分析以及相似性分析。特征化和區分是數據匯總的形式。
Ø 模式表示 知識,如果它易於理解的,在某種必然程度上對於檢驗數據是有效的,並且可能有用、新穎或者驗證用戶好奇的直覺。 模式興趣度度量,無論是客觀的還是主觀的,都可以用來指導發現過程。
Ø  數據挖掘系統可以根據所挖掘的數據庫類型、所挖掘的知識類型、所使用的技術或應用加以分類。
Ø 我們研究了五種以 數據挖掘查詢形式說明數據挖掘任務的 原語。這些原語說明任務相關的數據(即待挖掘的數據集)、挖掘的知識類型、背景知識(通常是概念分層形式)、興趣度度量以及用來顯示所發現模式的知識表示和可視化技術。
Ø 可以設計 數據挖掘查詢語言,支持即席的和交互的數據挖掘。數據挖掘查詢語言(如DMQL)應當提供說明每種數據挖掘原語的命令。這種查詢語言是基於SQL的,並且課能最終形成標准,稱為數據挖掘圖形用戶界面的基礎。
Ø 大型數據庫中有效的數據挖掘對於研究者和開發者提出了大量需求和巨大的挑戰。所涉及的問題包括數據挖掘方法、用戶交互、性能和可伸縮性、以及大量不同數據類型的處理。其它問題包括數據挖掘的應用開發和它們的社會影響。
 
習題
 

注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
  © 2014-2022 ITdaan.com 联系我们: