原書第三版
Jiawei Han Micheline Kamber Jian Pei 著
在進行數據挖掘之前,首先需要准備好數據,熟悉數據。
一個數據對象代表一個實體,又稱樣本、實例、數據點或對象。
屬性是一個數據字段,表示數據對象的一個特征,又稱維、特征和變量。
二元屬性:一種標稱屬性(又稱布爾屬性)
序數屬性:可能的值之間具有有意義的序。相繼值之間的差未知。
以上三種屬性都是定性的,即它們描述對象的特征,而不給出實際大小或數量
數值屬性:定量的
離散屬性與連續屬性
把握數據的全貌
中心趨勢度量:均值、中位數和眾數
均值(mean) 均值
加權算術平均
中位數(median):有序數據值的中間值
度量數據散布:極差、四分位數、方差、標准差和四分位數極差
分位數:取自數據分布的每隔一定間隔上的點,把數據划分成基本上大小相等的連貫集合
盒圖:體現了五數概括
數據的基本統計描述的圖形顯示
分位數圖
分位數-分位數圖(又稱q-q圖)
直方圖
散點圖
通過圖形清晰有效地表達數據
基於像素的可視化技術
值越小,顏色越淡
對於寬窗口,以線性方法填充的效果不夠好。第一個元素與前一行的最后一個元素相隔太遠,但是在全局序下他們是彼此貼近的。這種情況下,可以采用空間填充曲線。
另外,窗口不必是矩形的。圓弓分割技術使用圓弓形窗口。
幾何投影可視化技術
理解多維空間的數據分布
散點圖:使用笛卡爾坐標顯示多維數據點。
散點圖矩陣是二維散點圖的n*n網絡
隨着維數的繼續增加,另一種技術稱為平行坐標。繪制n個等距離,相互平行的軸,每維一個。缺點是當數據集大時,可讀性較差,視覺上重疊較多。
基於圖符的可視化技術
切爾諾夫臉:用眼、耳、口、鼻等的形狀、大小、位置和方向表示維的值。
人物線條畫:把多維數據映射到5段人物線條畫上。每個畫都有四肢和一個軀體。兩個維被映射到顯示軸,其余維被映射到四肢角度和(或)長度。
層次可視化技術:把所有維划分成子空間,這些子空間按層次可視化。
可視化復雜對象和關系
相似性和相異性都稱為鄰近性
相異性矩陣(對象-對象結構):n個對象兩兩之間的鄰近度
d(i,j)是對象i和對象j之間的相異性,數值越大差異越大(最下為0,無差異)。d(i,j) = d(j,i),矩陣是對稱的。
對於標稱數據,相似性sim(i,j) = 1 - d(i,j)
標稱屬性的鄰近性度量
二元屬性的鄰近性度量
對於標稱屬性可以進行二元屬性編碼,為M種狀態的每個狀態創建一個二元屬性(即該狀態的二元屬性值為1,其余為0)
q:對象i和j都取1的屬性數
r:對象i取1,對象j取0的屬性數
s:對象i取0,對象j取1的屬性數
t:對象i和j都取0的屬性數
對稱二元屬性
非對稱的二元屬性
負匹配數t被認為是不重要的。
相似性被稱為Jaccard系數
數值屬性的相異性
在某些情況下,計算距離之前數據應該規范化,試圖給所有屬性相同的權重
歐幾里得距離
曼哈頓距離
閔可夫斯基距離(Lp范數)
Lp范數中的p,在上面公式中寫為h,p=1即為曼哈頓距離,p=2表示歐幾里得距離。
上確界距離(切比雪夫距離)
是h趨於無窮時,閔可夫斯基距離的推廣。
余弦相似性
有時會出現稀疏的數值數據(0很多),采取傳統的距離度量,可能會因為過多的0項導致彼此不相似,例如詞頻統計,可能很多詞在兩句話中都沒有出現,需要關注的是它們共有的詞,以及這些詞出現的頻率。
余弦值越接近1,意味着夾角越小,也就是匹配度越大。
當屬性是二值屬性時,簡單變化如下:
這個函數被稱為Tanimoto系數。
自己加油加油 笨鳥后飛也要飛呀飛
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。