《數據挖掘概念與技術》讀書筆記(一)


轉自:http://blog.csdn.net/zhucanxiang/article/details/9843901

之前看過經典的《數據挖掘導論》,然后又看了韓家煒的《數據挖掘概念與技術》這本數據挖掘入門書籍,對數據挖掘也有了一個初步的了解,特此寫篇文章總結一下自己讀這兩本書后對數據挖掘的認識。

 

一. 什么是數據挖掘,數據挖掘的知識體系及應用范圍

1. 定義:

又稱數據中的知識發現,從大量的數據中挖掘有趣模式和知識的過程。

知識發現的過程:

  1). 數據清理: 除噪聲和刪除不一致數據

  2). 數據集成: 多種數據源的組合

  3). 數據選擇: 取和分析與任務相關的數據

  4). 數據變換: 數據變換和統一成適合挖掘的形式

  5). 數據挖掘: 使用智能方法提取數據格式

  6). 模式評估: 識別代表知識的有趣模式

  7). 知識表示: 使用可視化和知識表示技術,向用戶提供挖掘的知識

2. 為什么要進行數據挖掘

     未來將是大數據時代,IDC(國際數據公司)研究報告指出2012年全球信息資料量為2.8ZB(2的40次方GB),而在2020年預計會達到40ZB,平均每人擁有5247GB的數據。龐大的數據量背后隱藏着巨大的潛在價值,人們手握巨量的數據卻沒有很好的手段去充分挖掘其中的價值,因此對數據挖掘的研究可以幫助我們將數據轉化成知識。

 

3. 數據挖掘的知識體系

    數據挖掘作為一個應用驅動的領域,吸納了許多應用領域的技術,包括:

統計學、機器學習、模式識別、數據庫和數據倉庫、信息檢索、可視化、算法、高性能計算等。

 

數據挖掘的任務分類:

描述性任務: 刻畫目標數據的一般性質

預測性任務: 歸納及做出預測

 

數據挖掘功能:

1). 數據特征化與數據區分

2). 頻繁模式

3). 關聯和相關性挖掘

4). 分類和回歸

5). 聚類分析

6). 離群點分析

 

4. 數據挖掘應用領域

1. 金融數據分析

2. 零售與電信業: 例如分析零售數據有利於做出正確的決策;產品推薦;顧客保有及促銷策略

3. 科學與工程數據挖掘

4. 網絡數據挖掘: 社交網絡用戶行為分析,多媒體、文本和web數據分析

5. 信息檢索: 搜索引擎、雲計算、數據倉庫

 

二. 認識數據

1. 屬性總結:

標稱屬性:一些符號和事物的名稱,如頭發顏色和學歷是描述人的屬性。

二元屬性:只有0、1兩種狀態

序數屬性: 可能的值具有有意義的序,如教師職稱

數值屬性: 定量的,用實數值表示

 

2. 度量數據的相似性和相異性(即數據的鄰近性)

非對稱二元屬性: Jaccard屬性

數值屬性:歐幾里得距離、曼哈頓距離、閔可夫斯基距離、上確界距離

相似性評估:余弦相似性(用於比較文檔)、Tanimoto系數

 

3. 數據預處理

1). 數據清理:填補缺失值、光滑噪聲、識別離群點、糾正數據不一致性,通常是一個兩步迭代過程,包括偏差檢測盒數據變換

  處理缺失值:有忽略元組、人工填寫、全局常量填充、     

             均值或中位數填充、同類均值或中位數填充、最可能值填充六種方法。

  噪聲數據處理:分箱(考察近鄰數據值,有箱均值、箱中位數、箱邊界光滑方法)

                回歸、離群點分析

2). 數據集成: 將來自多個數據源的數據整合成一致的數據存儲

實體識別問題:模式集成和對象匹配。如在一個系統中discount用於訂單,而在另一個系統中用於商品,集成不正確導致商品不正確打折

 

冗余和相關分析:

冗余指一個屬性能由另一個或另一組屬性導出,則這個屬性是冗余的,可用相關分析檢測到。

標稱數據使用卡方檢驗,數值屬性用相關系數和協方差

 

3). 數據規約:簡化數據集的表示,包括維規約和數值規約

維規約:數據壓縮技術(如小波變換和主成分分析), 屬性子集選擇,屬性構造

數值規約: 參數模型(如回歸),非參數模型(聚類、抽樣、直方圖)

 

4). 數據變換:將數據變換成適於挖掘的形式

變換策略包括: 光滑,屬性構造,聚集,規范化,離散化,由標稱數據產生概念分層。

 

 

《數據挖掘概念與技術》讀書筆記(二)

三. 數據倉庫與數據立方體技術

1. 數據倉庫基本概念:

   1). 數據倉庫定義:一個面向主題的、集成的、時變的、非易失的數據集合,支持管理者的決策過程。

   2). 數據庫與數據倉庫的區別:

      主要區別在於數據庫是面向事務操作處理的,而數據倉庫是面向分析信息處理的。

      數據庫的用戶為數據庫專業人員、處理日常操作,而數據倉庫為主管和分析人員,為決策提供支持。

   3). 數據倉庫體系架構: 底層數據,中間層OLAP服務器,頂層前端工具

   4). 數據倉庫模型:

         企業倉庫:提供企業范圍內的數據集成,企業范圍的

         數據集市:包含企業范圍數據的一個子集,對特定的用戶群,咸魚選定的主題,部門范圍的。

         虛擬倉庫: 操作數據庫上視圖的集合

2. 數據倉庫建模

數據立方體: 允許以多維數據建模和觀察,由維(屬性)和事實(數值)定義

方體:給定諸維的每個可能的自己產生一個方體,結果形成方體的格,方體的格稱作數據立方體。

 

多維模型:

         星形模式:包括一個大的中心表(事實表)、一組小的附屬表(維表),維表圍繞中心表

         雪花模式:是星形的表變種,某些維表被規范化費解到附加的表中,用於數據集市

         事實星座:多個事實表分享維表,用於復雜的應用,常用於企業數據倉庫

 

3. 典型OLAP操作:

上卷:沿一個維的概念分層向上攀升或通過維規約進行聚集,如由city上卷到country

下鑽:沿維的概念分層向下或引入附加的維來實現,如由季度數據到更詳細的月數據

切片:在立方體的一個維上進行選擇,定義一個子立方體,如選擇季度一的數據

切塊:在立方體的兩個或多個維上進行選擇,定義子立方體, 如選擇季度為一和商品類型            為計算機的數據

轉軸:轉動數據視角,或將3D立方變換成2D平面序列

 

物化:

完全物化(完全立方體):計算定義數據立方體的格中所有的方體,需要過多存儲空間,導                致維災難

部分物化:選擇性計算子立方體

冰山立方體: 一個數據立方體,只存放其聚集值大於某個最小支持度閾值的立方體單元。

立方體外殼: 只預計算涉及少數維的方體,這些方體形成對應的數據立方體。

 

4. 數據立方體的計算方法:

1). 多路數組聚焦:

基本思想:使用多維數組作為基本數據結構,使用數組直接尋址,其中維值通過位置或對應數組位置的下標訪問。可能產生稀疏數組結構,可以采用chunkID+ offset 作為單元尋址機制來壓縮數組。

優點:比傳統的基於關系記錄的計算方法快

缺點:因為維數增長,計算的方體數指數增長,因此該方法僅對具有較少維的立方體有效;

      不能計算冰山立方體,因為該方法從基本方體開始計算,逐步向上泛化,因而不能利用先驗剪枝,導致即時單元不滿足冰山條件指定的最小支持度,也無法剪掉。

 

2).  BUC:

基本思想:以相反的次序觀察方體的格,頂點方體在底部,而基本方體在頂部,因而實際上市自底向上的,BUC可以分擔數據划分開銷,在構造立方體是可以使用先驗性質進行剪枝。

優點:可以計算冰山立方體,可以分擔數據划分開銷

缺點:易受維的次序和傾斜數據影響。理想地,應該先處理最有區分能力的為,維應當以基數遞減序處理。

 

3).Star-Cubing:

基本思想:利用自底向上和自頂向下模式的計算模式。在全局計算次序上,使用自底向上,而它下面有一個基於自頂向下模式的子層,利用共享維的概念。這種集成允許算法在多個維上聚集,而仍然划分父母分組並剪裁不滿足冰山條件的子女分組。

如果共享維上的聚集值不滿足冰山條件,則沿共享維向下的所有單元也不滿足冰山條件,這樣的單元和它們所有的后代都可以剪枝。

優點:計算完全立方體,速度比BUC快,可以與MultiWay相媲美;計算冰山立方體速度比BUC快。

4). 外殼片段立方體:

冰山立方體的計算和存儲開銷雖然比完全立方體小,但是仍然很高,一個可能的解決方案是計算一個很薄的立方體外殼,但是這種立方體外殼不支持高維OLAP,它不支持在4維或更多維上的OLAP,並且它甚至不支持沿3個維下鑽,因此取代計算立方體外殼可以只計算它的一部分或片段。

外殼片段立方體基本思想:給定一個高維數據集,把維划分成互不相交的維片段,把每個片段轉換成倒排索引表示,構造立方體外殼片段,使用預計算立方體外殼片段,計算所需要的數據立方體的方體單元,這可以通過倒排索引上的集合交操作完成。



注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
  © 2014-2022 ITdaan.com