轉自:http://blog.csdn.net/zhucanxiang/article/details/9843901
之前看過經典的《數據挖掘導論》,然后又看了韓家煒的《數據挖掘概念與技術》這本數據挖掘入門書籍,對數據挖掘也有了一個初步的了解,特此寫篇文章總結一下自己讀這兩本書后對數據挖掘的認識。
1. 定義:
又稱數據中的知識發現,從大量的數據中挖掘有趣模式和知識的過程。
知識發現的過程:
1). 數據清理: 除噪聲和刪除不一致數據
2). 數據集成: 多種數據源的組合
3). 數據選擇: 取和分析與任務相關的數據
4). 數據變換: 數據變換和統一成適合挖掘的形式
5). 數據挖掘: 使用智能方法提取數據格式
6). 模式評估: 識別代表知識的有趣模式
7). 知識表示: 使用可視化和知識表示技術,向用戶提供挖掘的知識
2. 為什么要進行數據挖掘
未來將是大數據時代,IDC(國際數據公司)研究報告指出2012年全球信息資料量為2.8ZB(2的40次方GB),而在2020年預計會達到40ZB,平均每人擁有5247GB的數據。龐大的數據量背后隱藏着巨大的潛在價值,人們手握巨量的數據卻沒有很好的手段去充分挖掘其中的價值,因此對數據挖掘的研究可以幫助我們將數據轉化成知識。
3. 數據挖掘的知識體系
數據挖掘作為一個應用驅動的領域,吸納了許多應用領域的技術,包括:
統計學、機器學習、模式識別、數據庫和數據倉庫、信息檢索、可視化、算法、高性能計算等。
數據挖掘的任務分類:
描述性任務: 刻畫目標數據的一般性質
預測性任務: 歸納及做出預測
數據挖掘功能:
1). 數據特征化與數據區分
2). 頻繁模式
3). 關聯和相關性挖掘
4). 分類和回歸
5). 聚類分析
6). 離群點分析
4. 數據挖掘應用領域
1. 金融數據分析
2. 零售與電信業: 例如分析零售數據有利於做出正確的決策;產品推薦;顧客保有及促銷策略
3. 科學與工程數據挖掘
4. 網絡數據挖掘: 社交網絡用戶行為分析,多媒體、文本和web數據分析
5. 信息檢索: 搜索引擎、雲計算、數據倉庫
1. 屬性總結:
標稱屬性:一些符號和事物的名稱,如頭發顏色和學歷是描述人的屬性。
二元屬性:只有0、1兩種狀態
序數屬性: 可能的值具有有意義的序,如教師職稱
數值屬性: 定量的,用實數值表示
2. 度量數據的相似性和相異性(即數據的鄰近性)
非對稱二元屬性: Jaccard屬性
數值屬性:歐幾里得距離、曼哈頓距離、閔可夫斯基距離、上確界距離
相似性評估:余弦相似性(用於比較文檔)、Tanimoto系數
3. 數據預處理
1). 數據清理:填補缺失值、光滑噪聲、識別離群點、糾正數據不一致性,通常是一個兩步迭代過程,包括偏差檢測盒數據變換
處理缺失值:有忽略元組、人工填寫、全局常量填充、
均值或中位數填充、同類均值或中位數填充、最可能值填充六種方法。
噪聲數據處理:分箱(考察近鄰數據值,有箱均值、箱中位數、箱邊界光滑方法)
回歸、離群點分析
2). 數據集成: 將來自多個數據源的數據整合成一致的數據存儲
實體識別問題:模式集成和對象匹配。如在一個系統中discount用於訂單,而在另一個系統中用於商品,集成不正確導致商品不正確打折
冗余和相關分析:
冗余指一個屬性能由另一個或另一組屬性導出,則這個屬性是冗余的,可用相關分析檢測到。
標稱數據使用卡方檢驗,數值屬性用相關系數和協方差
3). 數據規約:簡化數據集的表示,包括維規約和數值規約
維規約:數據壓縮技術(如小波變換和主成分分析), 屬性子集選擇,屬性構造
數值規約: 參數模型(如回歸),非參數模型(聚類、抽樣、直方圖)
4). 數據變換:將數據變換成適於挖掘的形式
變換策略包括: 光滑,屬性構造,聚集,規范化,離散化,由標稱數據產生概念分層。
1. 數據倉庫基本概念:
1). 數據倉庫定義:一個面向主題的、集成的、時變的、非易失的數據集合,支持管理者的決策過程。
2). 數據庫與數據倉庫的區別:
主要區別在於數據庫是面向事務操作處理的,而數據倉庫是面向分析信息處理的。
數據庫的用戶為數據庫專業人員、處理日常操作,而數據倉庫為主管和分析人員,為決策提供支持。
3). 數據倉庫體系架構: 底層數據,中間層OLAP服務器,頂層前端工具
4). 數據倉庫模型:
企業倉庫:提供企業范圍內的數據集成,企業范圍的
數據集市:包含企業范圍數據的一個子集,對特定的用戶群,咸魚選定的主題,部門范圍的。
虛擬倉庫: 操作數據庫上視圖的集合
2. 數據倉庫建模
數據立方體: 允許以多維數據建模和觀察,由維(屬性)和事實(數值)定義
方體:給定諸維的每個可能的自己產生一個方體,結果形成方體的格,方體的格稱作數據立方體。
多維模型:
星形模式:包括一個大的中心表(事實表)、一組小的附屬表(維表),維表圍繞中心表
雪花模式:是星形的表變種,某些維表被規范化費解到附加的表中,用於數據集市
事實星座:多個事實表分享維表,用於復雜的應用,常用於企業數據倉庫
3. 典型OLAP操作:
上卷:沿一個維的概念分層向上攀升或通過維規約進行聚集,如由city上卷到country
下鑽:沿維的概念分層向下或引入附加的維來實現,如由季度數據到更詳細的月數據
切片:在立方體的一個維上進行選擇,定義一個子立方體,如選擇季度一的數據
切塊:在立方體的兩個或多個維上進行選擇,定義子立方體, 如選擇季度為一和商品類型 為計算機的數據
轉軸:轉動數據視角,或將3D立方變換成2D平面序列
物化:
完全物化(完全立方體):計算定義數據立方體的格中所有的方體,需要過多存儲空間,導 致維災難
部分物化:選擇性計算子立方體
冰山立方體: 一個數據立方體,只存放其聚集值大於某個最小支持度閾值的立方體單元。
立方體外殼: 只預計算涉及少數維的方體,這些方體形成對應的數據立方體。
4. 數據立方體的計算方法:
1). 多路數組聚焦:
基本思想:使用多維數組作為基本數據結構,使用數組直接尋址,其中維值通過位置或對應數組位置的下標訪問。可能產生稀疏數組結構,可以采用chunkID+ offset 作為單元尋址機制來壓縮數組。
優點:比傳統的基於關系記錄的計算方法快
缺點:因為維數增長,計算的方體數指數增長,因此該方法僅對具有較少維的立方體有效;
不能計算冰山立方體,因為該方法從基本方體開始計算,逐步向上泛化,因而不能利用先驗剪枝,導致即時單元不滿足冰山條件指定的最小支持度,也無法剪掉。
2). BUC:
基本思想:以相反的次序觀察方體的格,頂點方體在底部,而基本方體在頂部,因而實際上市自底向上的,BUC可以分擔數據划分開銷,在構造立方體是可以使用先驗性質進行剪枝。
優點:可以計算冰山立方體,可以分擔數據划分開銷
缺點:易受維的次序和傾斜數據影響。理想地,應該先處理最有區分能力的為,維應當以基數遞減序處理。
3).Star-Cubing:
基本思想:利用自底向上和自頂向下模式的計算模式。在全局計算次序上,使用自底向上,而它下面有一個基於自頂向下模式的子層,利用共享維的概念。這種集成允許算法在多個維上聚集,而仍然划分父母分組並剪裁不滿足冰山條件的子女分組。
如果共享維上的聚集值不滿足冰山條件,則沿共享維向下的所有單元也不滿足冰山條件,這樣的單元和它們所有的后代都可以剪枝。
優點:計算完全立方體,速度比BUC快,可以與MultiWay相媲美;計算冰山立方體速度比BUC快。
4). 外殼片段立方體:
冰山立方體的計算和存儲開銷雖然比完全立方體小,但是仍然很高,一個可能的解決方案是計算一個很薄的立方體外殼,但是這種立方體外殼不支持高維OLAP,它不支持在4維或更多維上的OLAP,並且它甚至不支持沿3個維下鑽,因此取代計算立方體外殼可以只計算它的一部分或片段。
外殼片段立方體基本思想:給定一個高維數據集,把維划分成互不相交的維片段,把每個片段轉換成倒排索引表示,構造立方體外殼片段,使用預計算立方體外殼片段,計算所需要的數據立方體的方體單元,這可以通過倒排索引上的集合交操作完成。
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。