數據挖掘概念與技術讀書筆記(2)


第二章 認識數據 
2.1 數據對象與屬性類型 2.1.2 標稱屬性 標稱屬性的值是一些符號或事物的名稱,每個值代表某種類別、編碼或狀態,在計算機科學中,這些值也被看做的是枚舉的
因為標稱屬性值並不具有有意義的序,並且也不是定量的,因此,給定一個對象集,找出均值或中位數沒有意義,有意義的是取該屬性最常出現的值,稱為眾數,是一種中心趨勢度量
2.1.3 二元屬性
二元屬性是一種標稱屬性,只有0,1兩個狀態
2.1.4 序數屬性 其可能的值之間具有有意義的序或秩評定,但是相繼值之間的差是未知的
序數屬性的中心趨勢可以用它的眾數和中位數表示
2.1.5 數值屬性 數值屬性是定量的,即它是可度量的量,用整數或實數值表示 1、區間標度屬性 區間標度屬性用相等的單位尺度度量 這種屬性允許我們比較和定量評估值之間的差
2、比率標度屬性
2.1.6 離散屬性與連續屬性
2.2 數據的基本統計描述 基本統計描述可用來識別數據的性質,凸顯哪些數據值應該視為噪聲或離群點
2.2.1 中心趨勢度量:均值、中位數和眾數
均值對極端值(例如:離群點)很敏感,為了抵消少數極端值的影響,可以使用截尾均值,截尾均值是丟棄高低極端值后的均值
對於傾斜(非對稱)數據,數據中心的更好度量是中位數。中位數是有序數據的中間值,它是把數據較高的一半與較低的一半分開的值
眾數是另一種中心趨勢度量。數據集的眾數是集合中出現最頻繁的值。具有一個、兩個、三個眾數的數據集合分別稱為單峰的、雙峰的、三峰的
中列數也可以用來評估數值數據的中心趨勢,是數據集的最大和最小值的平均值

2.2.2 度量數據散布:極差、四分位數、方差、標准差和四分位數極差 1、極差、四分位數和四分位數極差
2、五數概括、盒圖與離群點
識別可疑的離群點的通常規則是,挑選落在第三個四分位數之上或一個四分位數之下至少1.5*IQR處的值
分布的五數概括由中位數、四分位數Q1和Q3、最小和最大觀測值組成

3、方差和標准差
方差和標准差都是數據散布度量,它們指出數據分布的散布程度。低標准差意味數據觀測非常靠近均值,而高標准差表示數據散布在一個大的值域中

2.4 度量數據的相似性和相異性
2.4.1 數據矩陣與相異性矩陣


2.4.2 標稱屬性的臨近性度量

2.4.3 二元屬性的臨近性度量
2.4.4 數值屬性的相異性:閔可夫斯基距離
歐幾里得距離、曼哈頓距離和閔可夫斯基距離
在某些情況下,在計算距離之前數據應該規范化。這涉及變換數據,使之落入較小的公共值域,
閔可夫斯基距離 是 歐幾里得距離、曼哈頓距離的推廣




2.4.5 序數屬性的鄰近性度量

2.4.6 混合類型屬性的相異性


2.4.7 余弦相似性



注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
  © 2014-2022 ITdaan.com