【讀書筆記-數據挖掘概念與技術】高級模式挖掘


模式挖掘是一個比頻繁挖掘模式更一般的術語,因為前者還涵蓋了稀有模式和負模式。然而,在沒有歧義時,兩者可以互換地使用。

模式挖掘路線圖


分類

  • 基本模式
  • 基於模式所涉及的抽象層
  • 基於規則或模式所涉及的維數
  • 基於規則或模式中所處理的值類型
  • 基於挖掘選擇性模式的約束或標准
  • 基於所挖掘的數據類型和特征

多層、多維空間中的模式挖掘

  • 挖掘多層關聯規則
對於所有層使用一致的最小支持度——一致支持度在較低層使用遞減的最小支持度——遞減支持度使用基於項或基於分組的最小支持度——基於分組的支持度
  • 挖掘多維關聯規則
使用量化屬性的靜態離散化挖掘多維關聯規則
  • 挖掘量化關聯規則
1.數據立方體方法2.基於聚類的方法3.解釋異常行為的統計學方法
  • 挖掘稀有模式和負模式

基於約束的頻繁模式挖掘

  • 元規則制導的挖掘
  • 基於約束的模式產生:模式空間剪枝和數據空間剪枝
1.用模式剪枝約束對模式空間剪枝

模式剪枝約束分為五類:

反單調的:如果一個項集不滿足規則約束,則它的任何超集不可能滿足該約束

單調的:如果一個項集滿足這個規則約束,則它的所有超集也滿足。

簡潔的:可以枚舉並且僅枚舉可以確保該約束的所有集合,該類約束不必迭代檢驗

可轉變的:不屬於以上三類,但該約束在項集一特定次序排列時可能成為單調的或反單調的。

不可轉變的:大部分都屬於以上四類。


2.用數據剪枝約束對數據空間剪枝

挖掘高維數據和巨型模式

模式融合

基本思想:融合少量較短的頻繁模式,形成巨型模式候選。首先,他以有限的寬度遍歷樹,只使用有限大小的候選池中的模式作為模式樹向下搜索的開始結點,避免了指數搜索空間問題。它產生巨型模式的近似解,可以找出大部分巨型模式。

步驟:1. 池初始化:一個短長度(長度不超過3)頻繁模式的完全集。

             2. 迭代的模式融合:從當前池中隨機選取k個種子,對每個種子找出直徑為T的球內所有模式,將這些球融合成超模式集。由於每個超模式的支集隨迭代而收縮,因此迭代過程終止。

模式融合合並打魔石的小的子模式,而不是用單個項增量地擴展模式。


核模式

挖掘壓縮或近似模式

基於聚類的壓縮:采用一個好的相似性度量,把相似的對象聚合到一個簇中,代表模式從每個簇中選取,從而提供頻繁模式集的一個壓縮版本。

模式距離:閉模式之間的距離度量。包含模式的支持度信息。

感知冗余的top-k模式:具有低冗余的k個代表模式的小集合。一種減少挖掘返回的模式數量的策略。

閉模式:頻繁模式集的無損壓縮 極大模式:有損壓縮

模式挖掘的應用

1). 作為預處理,用於噪聲過濾盒數據清理
2). 發現隱藏在數據中的固有結構和簇

3). 基於模式的分類

4). 高維空間中子空間的有效聚類

5). 對時間空間、序列、圖像、視頻數據進行分析

6). 序列與結構數據的分析,如圖、樹、子序列和網絡分析

7). 作為基本的索引結構

8). 推薦系統




注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com