讀書筆記《數據挖掘概念與技術》第2章 數據預處理 2.5 數據規約


《數據挖掘:概念與技術(原書第2版)》

2.5數據規約

Ø 數據歸約技術可以用來得到數據集的歸約表示,它小得多,但仍接近保持原數據的完整性。這樣,對歸約后的數據集挖掘將更有效,並產生相同(或幾乎相同)的分析結果。

Ø 數據歸約的策略如下:

1數據立方體聚集:聚集操作用於數據立方體結構中的數據。

2屬性子集選擇:可以檢測並刪除不相關、弱相關或冗余的屬性或維。

3維度歸約:使用編碼機制減小數據集的規模。

4數值歸約:用替代的、較小的數據表示替換或估計數據,如參數模型(只需要存放模型參數,而不是實際數據)或非參數方法,如聚類、抽樣和使用直方圖。

5離散化和概念分層產生:屬性的原始數據值用區間值或較高層的概念替換。數據離散化是一種數據歸約形式,對於概念分層的自動產生是有用的。離散化和概念分層產生是數據挖掘強有力的工具,允許挖掘多個抽象層的數據。

 

2.5.1 數據立方體聚集

Ø 數據立方體提供對預計算的匯總數據進行快速訪問,因此,適合聯機數據分析處理和數據挖掘。

Ø 在最低抽象層創建的立方體稱為基本方體(base cuboid。基本方體應當對應於感興趣的個體實體,如salescustomer。換言之,最低層應當是對於分析可用的或有用的。最高層抽象的立方體稱為頂點方體(apex cuboid。對於圖2-14的銷售數據,頂點方體將給出一個匯總值—所有商品類型、所有分店三年的總銷售額。對不同抽象層創建的數據立方體稱為方體(cuboid,因此數據立方體可以看作方體的格(lattice of cuboids)。每個較高層抽象將進一步減少結果數據的規模。當回答數據挖掘查詢時,應當使用與給定任務相關的最小可用方體


2.5.2 屬性子集選擇

Ø 遺漏相關屬性或留下不相關屬性都是有害的,會導致所用的挖掘算法無所適從。這可能導致發現質量很差的模式。此外,不相關或冗余的屬性增加可能會減慢挖掘進程。

Ø 屬性子集選擇通過刪除不相關或冗余的屬性(或維)減小數據集。屬性子集選擇的目標是找出最小屬性集,使得數據類的概率分布盡可能地接近使用所有屬性得到的原分布。對減小的屬性集挖掘還有其他優點。它減少了出現在發現模式的屬性數目,使得模式更易於理解。

Ø “如何找出原屬性的一個‘好的’子集?”對於n個屬性,有2^n個可能的子集。窮舉搜索找出屬性的最佳子集可能是不現實的,特別是當n和數據類的數目增加時。因此,對於屬性子集選擇,通常使用壓縮搜索空間的啟發式算法。通常,這些方法是貪心算法,在搜索屬性空間時,總是做看上去當時最佳的選擇。策略是做局部最優選擇,期望由此導致全局最優解。在實踐中,這種貪心方法是有效的,並可以逼近最優解。

Ø “最好的”(和“最差的”)屬性通常使用統計顯著性檢驗來確定。這種檢驗假定屬性是相互獨立的。也可以使用其他屬性評估度量,如建立分類決策樹使用信息增益度量。

Ø 屬性子集選擇的基本啟發式方法包括以下技術,其中一些圖示在圖2-15中。


Ø 逐步向前選擇:該過程由空屬性集作為歸約集開始,確定原屬性集中最好的屬性,並將它添加到歸約集中。在其后的每一次迭代步,將剩下的原屬性集中最好的屬性添加到該集合中。

Ø 逐步向后刪除:該過程由整個屬性集開始。在每一步,刪除尚在屬性集中最差的屬性。

Ø 向前選擇和向后刪除的結合:可以將逐步向前選擇和向后刪除方法結合在一起,每一步選擇一個最好的屬性,並在剩余屬性中刪除一個最差的屬性。

Ø 決策樹歸納:決策樹算法,如ID3C4.5CART最初是用於分類的。決策樹歸納構造一個類似於流程圖的結構,其中每個內部(非樹葉)節點表示一個屬性的測試,每個分枝對應於測試的一個輸出;每個外部(樹葉)節點表示一個類預測。在每個節點,算法選擇“最好”的屬性,將數據划分成類。

當決策樹歸納用於屬性子集選擇時,由給定的數據構造決策樹。不出現在樹中的所有屬性假定是不相關的出現在樹中的屬性形成歸約后的屬性子集

方法的結束標准可以不同。該過程可以使用一個度量閾值來決定何時停止屬性選擇過程。

 

2.5.3 維度規約

Ø 維度歸約使用數據編碼或變換,以便得到原數據的歸約或“壓縮”表示。如果原數據可以由壓縮數據重新構造而不丟失任何信息,則該數據歸約是無損的。如果我們只能重新構造原數據的近似表示,則該數據歸約是有損的。有一些很好的串壓縮算法。盡管它們通常是無損的,但是只允許有限的數據操作。本節,我們介紹另外兩種流行、有效的有損的維歸約方法:小波變換主成分分析

Ø 小波變換

離散小波變換(DWT是一種線性信號處理技術,當用於數據向量X時,將它變換成數值上不同的小波系數向量X'。兩個向量具有相同的長度。當這種技術用於數據歸約時,每個元組看作一個n維數據向量,即X = (x1, x2, , xn),描述n個數據庫屬性在元組上的n個測量值。

DWT與離散傅里葉變換(DFT)有密切關系,DFT是一種涉及正弦和余弦的信號處理技術。然而一般地說,DWT是一種更好的有損壓縮。也就是說,對於給定的數據向量,如果DWTDFT保留相同數目的系數,DWT將提供原數據的更准確的近似。因此,對於等價的近似,DWTDFT需要的空間小。不像DFT,小波空間局部性相當好,有助於保留局部細節。

只有一種DFT,但有若干族DWT。圖2-16顯示了一些小波族。流行的小波變換包括Haar-2, Daubechies-4Daubechies-6變換。應用離散小波變換的一般過程使用一種分層金字塔算法(pyramid algorithm),它在每次迭代將數據減半,導致很快的計算速度。該方法如下:


 

1)輸入數據向量的長度L必須是2的整數冪。必要時(Ln),通過在數據向量后添加0,這一條件可以滿足。

2)每個變換涉及應用兩個函數。第一個使用某種數據光滑,如求和或加權平均。第二個進行加權差分,產生數據的細節特征。

3)兩個函數作用於X中的數據點對,即用於所有的測量對(x2i, x2i+1)。這導致兩個長度為L/2的數據集。一般,它們分別代表輸入數據的光滑后的版本或低頻版本和它的高頻內容。

4)兩個函數遞歸地作用於前面循環得到的數據集,直到得到的數據集長度為2

5)由以上迭代得到的數據集中選擇值,指定其為數據變換的小波系數。

 

等價地,可以將矩陣乘法用於輸入數據,以得到小波系數。所用的矩陣依賴於給定的DWT。矩陣必須是標准正交的,即列是單位向量並相互正交,使得矩陣的逆是它的轉置。盡管受篇幅限制,這里我們不再討論,但這種性質允許由光滑和光滑-差數據集重構數據。通過將矩陣因子分解成幾個稀疏矩陣,對於長度為n的輸入向量,“快速DWT”算法的復雜度為O (n)

小波變換可以用於多維數據,如數據立方體。可以按以下方法做:首先將變換用於第一個維,然后第二個,如此下去。計算復雜性關於立方體中單元的個數是線性的。對於稀疏或傾斜數據和具有有序屬性的數據,小波變換給出很好的結果。據報道,小波變換的有損壓縮比當前的商業標准JPEG壓縮好。小波變換有許多實際應用,包括指紋圖像壓縮、計算機視覺、時間序列數據分析和數據清理。

 

Ø 主成分分析

假定待歸約的數據由n個屬性或維描述的元組或數據向量組成。主成分分析(principal components analysis)或PCA(又稱Karhunen-LoeveK-L方法)搜索k個最能代表數據的n維正交向量,其中kn。這樣,原來的數據投影到一個小得多的空間,導致維度歸約。不像屬性子集選擇通過保留原屬性集的一個子集來減少屬性集的大小,PCA通過創建一個替換的、更小的變量集“組合”屬性的基本要素。原數據可以投影到該較小的集合中。PCA常常揭示先前未曾察覺的聯系,並因此允許解釋不尋常的結果。

基本過程如下:

1)對輸入數據規范化,使得每個屬性都落入相同的區間。此步有助於確保具有較大定義域的屬性不會支配具有較小定義域的屬性。

2PCA計算k個標准正交向量,作為規范化輸入數據的基。這些是單位向量,每一個方向都垂直於另一個。這些向量稱為主成分。輸入數據是主成分的線性組合。

3)對主成分按“重要性”或強度降序排列。主成分基本上充當數據的新坐標軸,提供關於方差的重要信息。也就是說,對坐標軸進行排序,使得第一個坐標軸顯示數據的最大方差,第二個顯示次大方差,如此下去。例如,圖2-17顯示原來映射到軸X1X2的給定數據集的前兩個主成分Y1Y2。這一信息幫助識別數據中的分組或模式。

4)既然主成分根據“重要性”降序排列,就可以通過去掉較弱的成分(即方差較小)來歸約數據的規模。使用最強的主成分,應當能夠重構原數據的很好的近似。

 

Ø PCA計算開銷低,可以用於有序和無序的屬性,並且可以處理稀疏和傾斜數據。多於2維的多維數據可以通過將問題歸約為2維問題來處理。主成分可以用作多元回歸和聚類分析的輸入。與小波變換相比,PCA能夠更好地處理稀疏數據,而小波變換更適合高維數據。

 

2.5.4 數值規約

Ø “我們能通過選擇替代的、‘較小的’數據表示形式來減少數據量嗎?”數值歸約技術確實可以用於這一目的。這些技術可以是參數的,也可以是非參數的。參數方法使用一個模型估計數據,只需要存放數據參數,而不是實際數據。(離群點也可能存放。)對數線性模型是一個例子,它估計離散的多維概率分布。存放數據歸約表示的非參數方法包括直方圖、聚類和抽樣。

 

Ø 回歸和對數線性模型

回歸和對數線性模型可以用來近似給定的數據。在(簡單)線性回歸中,對數據建模,使之擬合到一條直線。例如,可以用以下公式,將隨機變量y(稱作響應變量)建模為另一隨機變量x(稱為預測變量)的線性函數

y = wx + b

其中,假定y的方差是常量。在數據挖掘中,xy是數值數據庫屬性。系數wb(稱作回歸系數)分別為直線的斜率和Y軸截距。系數可以用最小二乘方法求解,它最小化分離數據的實際直線與直線估計之間的誤差。多元線性回歸是(簡單)線性回歸的擴充,允許響應變量y建模為兩個或多個預測變量的線性函數。

對數線性模型(log-linear model近似離散的多維概率分布。給定n維(例如用n個屬性描述)元組的集合,可以把每個元組看作n維空間的點。可以使用對數線性模型基於維組合的一個較小子集,估計離散化的屬性集的多維空間中每個點的概率。這使得高維數據空間可以由較低維空間構造。因此,對數線性模型也可以用於維歸約(由於低維空間的點通常比原來的數據點占據較少的空間)和數據光滑(因為與較高維空間的估計相比,較低維空間的聚集估計較少受抽樣方差的影響)。

回歸和對數線性模型都可以用於稀疏數據,盡管它們的應用可能是受限制的。雖然兩種方法都可以處理傾斜數據,但是回歸可望更好。當用於高維數據時,回歸可能是計算密集的,而對數線性模型表現出很好的可伸縮性,可以擴展到10維左右。回歸和對數線性模型將在6.11節進一步討論。

 

Ø 直方圖

直方圖使用分箱來近似數據分布,是一種流行的數據歸約形式。直方圖曾在2.2.3節介紹過。屬性A直方圖A的數據分布划分為不相交的子集或桶。如果每個桶只代表單個屬性值/頻率對,則該桶稱為單桶。通常,桶表示給定屬性的一個連續區間。

 

“如何確定桶和屬性值的划分?”有一些划分規則,包括如下:

等寬:在等寬直方圖中,每個桶的寬度區間是一致的

等頻(或等深):在等頻直方圖中,創建桶,使得每個桶的頻率粗略地為常數(即每個桶大致包含相同個數的鄰近數據樣本)。

V最優:給定桶的個數,如果我們考慮所有可能的直方圖,則V最優直方圖是具有最小方差的直方圖。直方圖的方差是每個桶代表的原來值的加權和,其中權等於桶中值的個數。

MaxDiff: MaxDiff直方圖中,考慮每對相鄰值之間的差。桶的邊界是具有b1個最大差的對,其中b是用戶指定的桶數。

 

V最優和MaxDiff直方圖看來是最准確和最實用的。對於近似稀疏和稠密數據,以及高傾斜和均勻的數據,直方圖是高度有效的。上面介紹的單屬性直方圖可以推廣到多屬性。多維直方圖可以表現屬性間的依賴。業已發現,這種直方圖能夠有效地近似多達5個屬性的數據。對於高維的多維直方圖的有效性尚需進一步研究。對於存放具有高頻率的離群點,單桶是有用的。

 

Ø 聚類

聚類技術將數據元組視為對象。它將對象划分為群或簇,使一個簇中的對象相互“相似”,而與其他簇中的對象“相異”。通常,相似性基於距離函數,用對象在空間中的“接近”程度定義。簇的“質量”可以用直徑表示,直徑是簇中任意兩個對象的最大距離。質心距離是簇質量的另一種度量,定義為由簇質心(表示“平均對象”,或簇空間中的平均點)到每個簇對象的平均距離。

在數據庫系統中,多維索引樹主要用於對數據的快速訪問。它也能用於分層數據的歸約,提供數據的多維聚類。這可以用於提供查詢的近似回答。對於給定的數據對象集,索引樹遞歸地划分多維空間,其樹根節點代表整個空間。通常,這種樹是平衡的,由內部節點和樹葉節點組成。每個父節點包含關鍵字和指向子女節點的指針,子女節點一起表示父節點代表的空間。每個樹葉節點包含指向它所代表的數據元組的指針(或實際元組)。

這樣,索引樹可以在不同的分辨率或抽象層存放聚集和細節數據。它提供了數據集的分層聚類,其中每個簇有一個標記,存放該簇包含的數據。如果我們把父節點的每個子女看作一個桶,則索引樹可以看作一個分層的直方圖。例如,考慮圖2-20所示B+樹的根,具有指向數據鍵986339654118392 9544的指針。假設該樹包含10 000個元組,其鍵值由19999。樹中的數據可以用6個桶的等頻直方圖近似,其鍵值分別從 1985986339533965410541183918392954395449999。每個桶大約包含10 000/6個數據項。類似地,每個桶進一步分成更小的桶,允許在更細的層次聚集數據。作為一種數據歸約形式使用多維索引樹依賴於每個維上屬性值的次序。二維或多維索引樹包括R樹、四叉樹和它們的變形。它們都非常適合處理稀疏數據和傾斜數據


 

Ø 抽樣

抽樣可以作為一種數據歸約技術使用,因為它允許用數據的小得多的隨機樣本(子集)表示大型數據集。假定大型數據集D包含N個元組。我們看看可以用於數據歸約的、最常用的對D的抽樣方法,如圖2-21所示。


Ø s個樣本無放回簡單隨機抽樣(SRSWOR:從DN個元組中抽取s個樣本(s < N),其中D中任意元組被抽取的概率均為1/N,即所有元組的抽取是等可能的。

Ø s個樣本有放回簡單隨機抽樣(SRSWR:該方法類似於SRSWOR,不同在於每次一個元組從D中抽取后,記錄它,然后放回原處。也就是說,一個元組抽取后,放回D,以便它可以再次被抽取。

Ø 聚類抽樣:如果D中的元組分組放入M個互不相交的 “簇”,則可以得到s個簇的簡單隨機抽樣(SRS),其中s < M。例如,數據庫中元組通常一次檢索一頁,這樣每頁就可以視為一個簇。例如,可以將SRSWOR用於頁,得到元組的簇樣本,由此得到數據的歸約表示。也可以利用其他攜帶更豐富語義信息的聚類標准。例如,在空間數據庫,可以基於不同區域位置上的鄰近程度地理地定義簇。

Ø 分層抽樣:如果D划分成互不相交的部分,稱作層,則通過對每一層的SRS就可以得到D的分層樣本。特別是當數據傾斜時,這可以幫助確保樣本的代表性。例如,可以得到關於顧客數據的一個分層樣本,其中分層對顧客的每個年齡組創建。這樣,具有顧客最少數目的年齡組肯定能夠被表示。

 

采用抽樣進行數據歸約的優點是,得到樣本的花費正比於樣本集的大小s,而不是數據集的大小N。因此,抽樣的復雜度子線性(sublinear)於數據的大小。其他數據歸約技術至少需要完全掃描D。對於固定的樣本大小,抽樣的復雜度僅隨數據的維數n線性地增加;而其他技術,如使用直方圖,復雜度隨n指數增長。

用於數據歸約時,抽樣最常用來估計聚集查詢的回答。在指定的誤差范圍內,可以確定(使用中心極限定理)估計一個給定的函數所需的樣本大小。樣本的大小s相對於N可能非常小。對於歸約數據集的逐步求精,抽樣是一種自然選擇。通過簡單地增加樣本大小,這樣的集合可以進一步求精。

 


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
  © 2014-2022 ITdaan.com