數據挖掘概念與技術——讀書筆記(2)


原書第三版
Jiawei Han   Micheline Kamber   Jian Pei 著


第二章 認識數據

在進行數據挖掘之前,首先需要准備好數據,熟悉數據。

數據對象與屬性類型

一個數據對象代表一個實體,又稱樣本、實例、數據點或對象。
屬性是一個數據字段,表示數據對象的一個特征,又稱維、特征和變量。

  • 標稱屬性:一些符號或事物的名稱。
    • 例如:hair_color(黑色,金色,棕色,白色)
    • 也可能是數值,例如用1表示頭發黑色,2表示頭發白色等,或者用戶的User_ID為數值,但是這些都不具有數值屬性,也就是說,數學運算是沒有意義的。
  • 二元屬性:一種標稱屬性(又稱布爾屬性)

    • 0或1
    • 例如:男或女;有病或沒病
    • 對稱的:兩種狀態具有同等價值,攜帶相同的權重
    • 非對稱的:結果不是同樣重要。如HIV的檢查結果,用1對最重要的結果編碼(如HIV陽性)
  • 序數屬性:可能的值之間具有有意義的序。相繼值之間的差未知。

    • 例如:飲料容量:大、中、小。等級評定:優、良、中、差。
    • 這些值具有有意義的先后次序,但是我們不能說“大”比“中”多多少。

以上三種屬性都是定性的,即它們描述對象的特征,而不給出實際大小或數量

  • 數值屬性:定量的

    • 區間標度屬性屬性
      • 用相等的單位尺度度量。區間屬性的值有序,但是不能用比率談論這些值。
      • 例如:不能說10℃比5℃暖兩倍
    • 比率標度屬性
      • 具有固有零點的數值屬性。
  • 離散屬性與連續屬性

數據的基本統計描述

把握數據的全貌

  • 中心趨勢度量:均值、中位數和眾數

    • 均值(mean)
      這里寫圖片描述 均值
      這里寫圖片描述 加權算術平均

      • 均值對極端值(例如:離群點)很敏感
      • 為了抵消影響,采用截尾均值(去掉頭尾x%的數據)
    • 中位數(median):有序數據值的中間值

      • 若為個數為偶數,則取中間兩個值中的任意值,如果為數值屬性,一般取兩者的均值。
      • 若觀測的數量很大,可以用差值計算近似值
        這里寫圖片描述
    • 眾數(mode):集合中出現最頻繁的值
      • 對於適度傾斜(非對稱)的單峰數值數據,有以下近似
        這里寫圖片描述
    • 中列數(midrange):數據集中最大和最小值的平均值。
      這里寫圖片描述
  • 度量數據散布:極差、四分位數、方差、標准差和四分位數極差

    • 極差:最大值與最小值之差
    • 分位數:取自數據分布的每隔一定間隔上的點,把數據划分成基本上大小相等的連貫集合

      • 四分位數:3個數據點,把數據划分成4個相等的部分。
      • 四分位數極差:IQR = Q3 – Q1(第3個和第1個四分位數之差)
      • IQR可用於挑選離群點,挑選落在第3個四分位數之上或第1個四分位數之下至少1.5*IQR處的值。
    • 盒圖:體現了五數概括

      • 分布的五數概括:最小值、四分位數Q1、中位數、四分位數Q3和最大值(按次序寫出,其中中位數也是四分位數Q2
      • 盒圖的端點一般在四分位數上,即盒的長度為IQR
      • 中位數用盒內的線表示
      • 盒外的兩條線(稱作胡須)延伸到最小和最大觀測值(僅當最高和最低觀測值超過四分位數不到1.5*IQR時,胡須擴展到它們,否則胡須出現在四分位數的1.5*IQR之內的最極端的觀測值處終止,剩下情況單獨繪出)
        這里寫圖片描述
    • 方差和標准差:指出數據分布的散步程度
      這里寫圖片描述 方差
      • 標准差是方差的平方根
      • 標准差度量關於均值的發散,僅當選擇均值作為中心度量時使用。
  • 數據的基本統計描述的圖形顯示

    • 分位數圖

      • X按遞增序排序,每個觀測值xi與一個百分數fi配對。這里寫圖片描述
      • 意思是大約fi * 100%的數據小於值xi
        這里寫圖片描述
    • 分位數-分位數圖(又稱q-q圖)

      • 對着另一個對應的分位數,繪制一個單變量分布的分位數。
      • 觀察從一個分布到另一個分布是否有漂移
        這里寫圖片描述
        例如Q1這個點表示,在部門1中,25%的價格數據低於60美元,在部門2中,25%的價格數據低於64美元。
    • 直方圖

      • 對於X的每個已知值,條的高度表示該X值出現的概率(即計數)
      • 如果X是數值的,X的值域被划分成不想交的連續子域(稱作桶或者箱)。
    • 散點圖

      • 不同於以上三者是衡量單變量的,散點圖確定兩個數值變量之間是否存在聯系、模式或趨勢
        這里寫圖片描述

數據可視化

通過圖形清晰有效地表達數據

  • 基於像素的可視化技術

    • 值越小,顏色越淡
      這里寫圖片描述

    • 對於寬窗口,以線性方法填充的效果不夠好。第一個元素與前一行的最后一個元素相隔太遠,但是在全局序下他們是彼此貼近的。這種情況下,可以采用空間填充曲線。
      這里寫圖片描述

    • 另外,窗口不必是矩形的。圓弓分割技術使用圓弓形窗口。

  • 幾何投影可視化技術
    理解多維空間的數據分布

    • 散點圖:使用笛卡爾坐標顯示多維數據點。

      • 對於維數超過4的數據集,散點圖一般不太有效。采用散點圖矩陣。
      • 散點圖矩陣是二維散點圖的n*n網絡
        這里寫圖片描述

      • 隨着維數的繼續增加,另一種技術稱為平行坐標。繪制n個等距離,相互平行的軸,每維一個。缺點是當數據集大時,可讀性較差,視覺上重疊較多。

  • 基於圖符的可視化技術

    • 切爾諾夫臉:用眼、耳、口、鼻等的形狀、大小、位置和方向表示維的值。
      這里寫圖片描述

      • 缺點:在表示多重聯系的能力方面存在局限性。而且未顯示具體的數據值。數據在面部位置的映射需謹慎選擇。
      • 眼睛的大小和眉毛的歪斜是重要的。
    • 人物線條畫:把多維數據映射到5段人物線條畫上。每個畫都有四肢和一個軀體。兩個維被映射到顯示軸,其余維被映射到四肢角度和(或)長度。

  • 層次可視化技術:把所有維划分成子空間,這些子空間按層次可視化。

    • 世界中的世界(n-Vision)
    • 樹圖
  • 可視化復雜對象和關系

    • 標簽雲

度量數據的相似性和相異性

相似性和相異性都稱為鄰近性

  • 數據矩陣(對象-屬性結構):采用關系表的形式或n*p(n個對象,p個屬性)矩陣
  • 相異性矩陣(對象-對象結構):n個對象兩兩之間的鄰近度
    這里寫圖片描述
    d(i,j)是對象i和對象j之間的相異性,數值越大差異越大(最下為0,無差異)。d(i,j) = d(j,i),矩陣是對稱的。
    對於標稱數據,相似性sim(i,j) = 1 - d(i,j)

  • 標稱屬性的鄰近性度量
    這里寫圖片描述

  • 二元屬性的鄰近性度量
    對於標稱屬性可以進行二元屬性編碼,為M種狀態的每個狀態創建一個二元屬性(即該狀態的二元屬性值為1,其余為0)
    這里寫圖片描述
    q:對象i和j都取1的屬性數
    r:對象i取1,對象j取0的屬性數
    s:對象i取0,對象j取1的屬性數
    t:對象i和j都取0的屬性數

    • 對稱二元屬性
      這里寫圖片描述

    • 非對稱的二元屬性
      這里寫圖片描述
      負匹配數t被認為是不重要的。
      相似性這里寫圖片描述被稱為Jaccard系數

  • 數值屬性的相異性
    在某些情況下,計算距離之前數據應該規范化,試圖給所有屬性相同的權重

    • 歐幾里得距離
      這里寫圖片描述

    • 曼哈頓距離
      這里寫圖片描述

    • 閔可夫斯基距離(Lp范數)
      這里寫圖片描述
      Lp范數中的p,在上面公式中寫為h,p=1即為曼哈頓距離,p=2表示歐幾里得距離。

    • 上確界距離(切比雪夫距離)
      這里寫圖片描述
      是h趨於無窮時,閔可夫斯基距離的推廣。

      這里寫圖片描述

  • 序數屬性的鄰近性度量
    這里寫圖片描述
  • 混合類型屬性的相異性
    可能包含上面列舉了所有屬性類型
    這里寫圖片描述
  • 余弦相似性

    • 有時會出現稀疏的數值數據(0很多),采取傳統的距離度量,可能會因為過多的0項導致彼此不相似,例如詞頻統計,可能很多詞在兩句話中都沒有出現,需要關注的是它們共有的詞,以及這些詞出現的頻率。
      這里寫圖片描述
      余弦值越接近1,意味着夾角越小,也就是匹配度越大。

    • 當屬性是二值屬性時,簡單變化如下:
      這里寫圖片描述
      這個函數被稱為Tanimoto系數。


自己加油加油 笨鳥后飛也要飛呀飛


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
  © 2014-2022 ITdaan.com