模式挖掘是一個比頻繁挖掘模式更一般的術語,因為前者還涵蓋了稀有模式和負模式。然而,在沒有歧義時,兩者可以互換地使用。
模式剪枝約束分為五類:
反單調的:如果一個項集不滿足規則約束,則它的任何超集不可能滿足該約束
單調的:如果一個項集滿足這個規則約束,則它的所有超集也滿足。
簡潔的:可以枚舉並且僅枚舉可以確保該約束的所有集合,該類約束不必迭代檢驗
可轉變的:不屬於以上三類,但該約束在項集一特定次序排列時可能成為單調的或反單調的。
不可轉變的:大部分都屬於以上四類。
基本思想:融合少量較短的頻繁模式,形成巨型模式候選。首先,他以有限的寬度遍歷樹,只使用有限大小的候選池中的模式作為模式樹向下搜索的開始結點,避免了指數搜索空間問題。它產生巨型模式的近似解,可以找出大部分巨型模式。
步驟:1. 池初始化:一個短長度(長度不超過3)頻繁模式的完全集。
2. 迭代的模式融合:從當前池中隨機選取k個種子,對每個種子找出直徑為T的球內所有模式,將這些球融合成超模式集。由於每個超模式的支集隨迭代而收縮,因此迭代過程終止。
模式融合合並打魔石的小的子模式,而不是用單個項增量地擴展模式。
基於聚類的壓縮:采用一個好的相似性度量,把相似的對象聚合到一個簇中,代表模式從每個簇中選取,從而提供頻繁模式集的一個壓縮版本。
模式距離:閉模式之間的距離度量。包含模式的支持度信息。
感知冗余的top-k模式:具有低冗余的k個代表模式的小集合。一種減少挖掘返回的模式數量的策略。
閉模式:頻繁模式集的無損壓縮 極大模式:有損壓縮1). 作為預處理,用於噪聲過濾盒數據清理
2). 發現隱藏在數據中的固有結構和簇
3). 基於模式的分類
4). 高維空間中子空間的有效聚類
5). 對時間空間、序列、圖像、視頻數據進行分析
6). 序列與結構數據的分析,如圖、樹、子序列和網絡分析
7). 作為基本的索引結構
8). 推薦系統
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。