數據挖掘概念與技術——讀書筆記(7)


原書第三版
Jiawei Han   Micheline Kamber   Jian Pei 著


第七章 高級模式挖掘

模式挖掘:一個路線圖

這里寫圖片描述

  • 多層關聯規則:涉及不同的抽象層
    例如:buy(電腦)=》buy(打印機),buy(手提電腦)=》buy(彩色打印機)
  • 多維關聯規則:涉及兩個或多個維
    例如:age(20~29歲),並且income(五萬到六萬)=》buy(iPad)

多層、多維空間中的模式挖掘

挖掘多層關聯規則

一般而言,采用自頂向下策略,在每個概念層累積計數,計算頻繁項集,直到不能再找到頻繁項集。對於每一層,可以使用發現頻繁項集的任何算法。

  • 對於所有層使用一致的最小支持度(一致支持度)
    搜索被簡化,但如果閾值設置太高,則可能錯失在較低抽象層中出現的有意義的關聯。如果閾值設置太低,則可能會產生出現在較高抽象層的無趣的關聯。

  • 在較低層使用遞減的最小支持度(遞減支持度)
    抽象層越低,對應的閾值越小。

  • 使用基於項或基於分組的最小支持度(基於分組的支持度)
    建立用戶指定的基於項或基於分組的最小支持度閾值。

挖掘多層關聯的一個嚴重副作用是,由於項之間的“祖先”關系,可能產生冗余規則。
例如:buy(手提電腦)=》buy(HP打印機),buy(戴爾手提電腦)=》buy(HP打印機)
后一個規則可能是無用的,如果置信度或者支持度顯示它不提供任何附加信息。

挖掘多維關聯規則

把每個數據庫屬性或數據倉庫的維看做一個謂詞,則可以挖掘包含多個謂詞的關聯規則。

  • 單維或維內關聯規則
    buy(數碼相機)=》buy(HP打印機),因為包含單個謂詞的多次出現。
  • 多維或維間關聯規則
    age(20~29歲),並且occupation(學生)=》buy(手提電腦),因為包含多個謂詞且均只出現一次。
  • 混合維關聯規則
    age(20~29歲),並且buy(手提電腦)=》buy(HP打印機),因為包含某些謂詞的多次出現。

根據量化屬性的處理,挖掘多維關聯規則的技術可以分為兩種基本方法:

  • 使用量化屬性的靜態離散化挖掘多維關聯規則
    如對income屬性,用區間值進行划分。這里離散化是靜態的和預先確定的。離散化的數值屬性具有區間標號,可以像標稱屬性一樣處理。
  • (動態)量化關聯規則
    根據數據分布將量化屬性離散化或聚類到“箱”。該策略將數值屬性的值處理成數量。

在多維關聯規則挖掘中,不是搜索頻繁項集,而是搜索頻繁謂詞集。例如{age, occupation, buy}是一個3-謂詞集

挖掘量化關聯規則

  • 基於數據立方體挖掘
    數據立方體在多維空間存儲聚集信息(例如:計數)。使用n維方體的單元存放對應的n-謂詞集的支持度計數。
    這里寫圖片描述
    0-D(頂點)方體包含與任務相關數據中事務的總數。

  • 基於聚類的方法
    一般假定是,有趣的頻繁模式或關聯規則通常在量化屬性相對稠密的簇中發現

    • 自頂向下的方法
      對每個量化維,可以使用一種標准的聚類算法,發現該維上滿足最小支持度閾值的簇。然后考慮該簇與另一維的一個簇或標稱屬性值組合生成的二維空間,看這一組合是否滿足最小支持度閾值。如果滿足,則繼續在該二維區域搜索簇,並進一步考察更高維空間。

    • 自底向上的方法
      發現高維聚類很困難,因此這種方法不太現實

挖掘稀有模式和負模式

在珠寶銷售數據中,購買鑽石表示稀有的,然而涉及鑽石表銷售的事務可能是令人感興趣的。在超市數據中,一起購買經典可樂和無糖可樂可能是一個負(相關)模式。

  • 非頻繁(稀有)模式
    支持度低於用戶指定的最小支持度閾值的模式。在實際中,可以指定稀有模式的其他條件。比如,至少包括一件價格超過500美元的商品。
  • 負模式

    • 如果項集X和Y都是頻繁的,但很少一起出現( sup(XY)<sup(X)×sup(Y) ),則項集X和Y是負相關的,並且模式 XY 是負相關模式,如果 sup(XY)<<sup(X)×sup(Y) ,則項集X和Y是強負相關的,並且模式 XY 是強負相關模式
      此條定義不是零不變的

    • 如果X和Y是強負相關的
      sup(XY¯)×sup(X¯Y)>>sup(XY)×sup(X¯Y¯)
      此條定義不是零不變的

    • 假設項集X和Y都是頻繁的,如果( (P(X|Y)+P(Y|X))/2<ε ),其中 ε 是負模式閾值,則 XY 是負相關模式。
      此條定義是零不變的

基於約束的頻繁模式挖掘

讓用戶說明他們的這種直觀或期望,作為限制搜索空間的約束條件。

  • 知識類型約束:指定待挖掘的知識類型,如關聯、相關、分類或聚類。
  • 數據約束:指定任務相關的數據集。
  • 維/層約束:指定挖掘中所使用的數據維(或屬性)、抽象層,或概念分層結構的層次。
  • 興趣度約束:指定規則興趣度的統計度量閾值,如支持度、置信度和相關性。
  • 規則約束:指定要挖掘的規則形式或條件。

下面主要討論最后一點,基於規則約束的挖掘。

關聯規則的元規則制導挖掘

這里寫圖片描述

基於約束的模式生產:模式空間剪枝和數據空間剪枝

挖掘關聯規則的約束舉例

銷售數據庫,包含以下內容:

  • item(item_ID, item_name, description, category, price)
  • sales(transaction_ID, day, month, year, store_ID, city)
  • trans_item(item_ID, transaction_ID)

假設查詢為“對於芝加哥2010年的銷售,何種廉價商品(低於10美元)促進了何種昂貴商品(高於50美元)的銷售的模式或規則”
這個查詢包括4個約束:

  • sum(I.price)<10,I表示廉價商品的item_ID
  • min(J.price)>50,J表示昂貴商品的item_ID
  • T.city = Chicago
  • T.year = 2010,T表示transaction_ID

用模式剪枝約束對模式空間剪枝

檢查候選模式,確定模式是否可以被剪掉。
- 反單調的
考慮規則約束sum(I.price) < 100,如果一個候選項集中的商品價格和不小於100美元,則該項集可以從搜索空間中剪枝,因為再向該商品集中添加商品會使它更貴。
換言之,如果一個項集不滿足該規則約束,則它的任何超集也不可能滿足該約束。
如果一個規則具有這種性質,則稱它是反單調的。
注意,像avg(I.price) <10這樣的約束不是反單調的。
- 單調的
例如約束sum(I.price)>100,如果一個項集滿足該約束,則它的超集也滿足。這樣的規則約束是單調的。
- 簡潔的約束
可以枚舉並且僅枚舉確保滿足該約束的所有集合。比如min(J.price)>50是簡潔的。
- 可轉變的約束
例如avg(I.price) <10既不是單調也不是反單調的,但是如果事務中的項按照單價遞增的順序添加到項集中,則該約束變成反單調的。
- 不可轉變的約束

用數據剪枝約束對數據空間剪枝

檢查數據集,確定特定的數據片段在剩下的挖掘過程中是否對其后的可滿足模式的產生有貢獻。

  • 數據簡潔性
    如果一個挖掘查詢要求被挖掘的模式必須包含數碼相機,則可以在挖掘過程開始前就剪掉所有不包含數碼相機的事務。
  • 數據反單調
    在挖掘過程中,如果一個數據項不滿足數據反單調約束,則可以剪掉它。
    例如約束為sum(I.price)>100,假設當前頻繁項集S不滿足約束,比如S中商品價格和為50美元,如果Ti中剩下的頻繁項,{i2.price=5, i5.price=10}則Ti不能使S滿足約束,可以剪掉。
    注意,僅限於基於模式增長的挖掘算法。如果使用Apriori算法,則數據反單調性不能用於對數據空間剪枝,一個數據項不能對一個給定模式的超模式形成貢獻,但仍然可能對其他活躍模式的超模式有貢獻。

挖掘高維數據和巨型模式

典型方法的搜索空間隨維數呈指數增長。為了挖掘高維數據,一個方向是進一步利用垂直數據格式,又稱為行枚舉。從少量行大量維的數據變為大量行少量維的數據集。第二個方向是模式融合,用於挖掘巨型模式(長度非常長),下面具體介紹。

通過模式融合挖掘巨型模式

Apriori算法不可避免會產生大量中型模式,使得它不可能到達巨型模式。
即使像FP-growth這樣的深度優先方法也很容易在達到巨型模式前被數量巨大的子樹困擾。
模式融合:融合少量較短的頻繁模式形成巨型模式候選。得到巨型頻繁模式完全集的一個很好的近似解。
首先以有限的寬度遍歷樹。
每個模式的增長不是添加一個項,而是與池中多個模式凝聚。
這里寫圖片描述
由於模式融合是巨型模式的近似解,所以引進一個質量評估模型,評估算法返回的模型。
核模式定義:
這里寫圖片描述
還是不太理解d的意義
較長或巨型模式有更多的核模式,因此巨型模式更魯棒。
模式融合包括兩個階段:

  • 池初始化
    一個短長度(長度不超過3)的頻繁模式的完全集
  • 迭代的模式融合
    取用戶指定的參數K(要挖掘模式的最大個數)為輸入。每次迭代中,從當前池取K個種子,找出直徑為τ的球內的所有模式。每個“球”中的所有模式融合在一起,形成一個超模式集。這些超模式形成新的池。

挖掘壓縮或近似模式

為了壓縮挖掘產生的巨大的頻繁模式集,同時維持高質量的模式,可以挖掘頻繁模式的壓縮集合或近似集合。

通過模式聚類挖掘壓縮模式

根據模式的相似性和支持度對模式進行分組。使用一種稱為δ-簇的緊密性度量對頻繁模式聚類。代表模式從每個簇中選取,代表模式應該能夠表達該簇中的所有其他模式,從而提供頻繁模式集的一個壓縮版本。
閉模式是頻繁模式的無損壓縮,極大模式是有損壓縮。
這里寫圖片描述
利用距離度量的問題是1、聚類質量不能保證;2、也許不能為每個簇找到一個代表模式,為了克服,出現了δ-簇的概念。δ(0≤δ≤1)度量簇的緊密性。
這里寫圖片描述
此時,只需要計算每個模式P與簇代表Pr之間的距離。
這里寫圖片描述

給定一個事務數據庫,最小支持度min_sup和聚類質量度量δ,模式壓縮問題是找到一個代表模式的集合R,使得對於每個頻繁模式P(關於min_sup)存在一個代表模式Pr屬於R,它覆蓋了P,並且R最小化。

提取感知冗余的top-k模式

在許多情況下,頻繁模式不是相互獨立的。
感知冗余的top-k模式:不僅具有高顯著性,而且具有低冗余的k個代表模式的集合。

  • 顯著性、冗余性定義
    顯著性度量可以使客觀的或主觀的:客觀度量包括支持度、置信度、相關度和tf-idf;主觀度量基於用戶對數據的信賴。
    這里寫圖片描述
    滿足0≤R(p,q)≤min(S(p),S(q))
    於是,發現感知冗余的top-k模式的問題轉換成發現最大化邊緣顯著性的k-模式集問題。

下圖直觀顯示了三種k模式的區別(顯著性用灰度表示),目的是找出3個最能代表集合的模式
這里寫圖片描述

模式搜索與應用

頻繁模式的語義注解

類似於字典,為頻繁模式提供有結構的注解。
一般而言,一個模式的隱藏含義可以從具有類似意義的模式,與它共同出現的數據對象和該模式出現的事務中推斷。

關於模式p的語境建模:
這里寫圖片描述

下面,如何為每個語境指示符設定權重?互信息是多個可能的權重函數之一。
(互信息的定義不再具體列出)

使用語境模型,可以用如下步驟完成模式注解:
這里寫圖片描述

模式挖掘的應用

在許多數據密集型應用中,模式挖掘作為預處理,廣泛地用於噪聲過慮和數據清理。
模式挖掘常常有助於發現隱藏在數據中的固有結構和簇。
研究發現可以使用頻繁模式作為構件,建立高質量的分類模型,成為基於模式的分類。
頻繁模式也可以用於高維空間中子空間的有效聚類。
對於時間空間數據、時間序列數據、圖像數據、視頻數據和多媒體數據的分析,模式分析是有用的。
模式挖掘還用於序列或結構數據分析,如樹、圖、子序列和網絡分析。
頻繁模式和有判別力的模式可以用做基本的索引結構,幫助搜索大型復雜的、結構化的數據集和網絡。
頻繁模式還可以用於推薦系統。


加油!


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
  © 2014-2022 ITdaan.com 联系我们: