开发者知识库
首页
最新
最火
关于
搜索答案
中文简体
相关内容
數據挖掘概念與技術讀書筆記(2)
本文转载自
bottle123
查看原文
2015-09-15
0
读书笔记
/
数据
/
笔记
/
技术
/
读书
/
概念
/
数据挖掘
第二章 認識數據
2.1 數據對象與屬性類型
2.1.2 標稱屬性
標稱屬性的值是一些符號或事物的名稱,每個值代表某種類別、編碼或狀態,在計算機科學中,這些值也被看做的是枚舉的
因為標稱屬性值並不具有有意義的序,並且也不是定量的,因此,給定一個對象集,找出均值或中位數沒有意義,有意義的是取該屬性最常出現的值,稱為眾數,是一種中心趨勢度量
2.1.3 二元屬性
二元屬性是一種標稱屬性,只有0,1兩個狀態
2.1.4 序數屬性
其可能的值之間具有有意義的序或秩評定,但是相繼值之間的差是未知的
序數屬性的中心趨勢可以用它的眾數和中位數表示
2.1.5 數值屬性
數值屬性是定量的,即它是可度量的量,用整數或實數值表示
1、區間標度屬性
區間標度屬性用相等的單位尺度度量
這種屬性允許我們比較和定量評估值之間的差
2、比率標度屬性
2.1.6 離散屬性與連續屬性
2.2 數據的基本統計描述
基本統計描述可用來識別數據的性質,凸顯哪些數據值應該視為噪聲或離群點
2.2.1 中心趨勢度量:均值、中位數和眾數
均值對極端值(例如:離群點)很敏感
,為了抵消少數極端值的影響,可以使用截尾均值,截尾均值是丟棄高低極端值后的均值
對於傾斜(非對稱)數據,數據中心的更好度量是中位數。中位數是有序數據的中間值,它是把數據較高的一半與較低的一半分開的值
眾數是另一種中心趨勢度量。數據集的眾數是集合中出現最頻繁的值。具有一個、兩個、三個眾數的數據集合分別稱為單峰的、雙峰的、三峰的
中列數也可以用來評估數值數據的中心趨勢,是數據集的最大和最小值的平均值
2.2.2 度量數據散布:極差、四分位數、方差、標准差和四分位數極差
1、極差、四分位數和四分位數極差
2、五數概括、盒圖與離群點
識別可疑的離群點的通常規則是,挑選落在第三個四分位數之上或一個四分位數之下至少1.5*IQR處的值
分布的五數概括由中位數、四分位數Q1和Q3、最小和最大觀測值組成
3、方差和標准差
方差和標准差都是數據散布度量,它們指出數據分布的散布程度。低標准差意味數據觀測非常靠近均值,而高標准差表示數據散布在一個大的值域中
2.4 度量數據的相似性和相異性
2.4.1 數據矩陣與相異性矩陣
2.4.2 標稱屬性的臨近性度量
2.4.3 二元屬性的臨近性度量
2.4.4
數值屬性的相異性:閔可夫斯基距離
歐幾里得距離、曼哈頓距離和
閔可夫斯基距離
在某些情況下,在計算距離之前數據應該規范化。這涉及變換數據,使之落入較小的公共值域,
閔可夫斯基距離 是
歐幾里得距離、曼哈頓距離的推廣
2.4.5 序數屬性的鄰近性度量
2.4.6 混合類型屬性的相異性
2.4.7 余弦相似性
×
注意!
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。
讀書筆記《數據挖掘概念與技術》第1章 引言
數據挖掘概念與技術——讀書筆記(1)
數據挖掘概念與技術——讀書筆記(2)
數據挖掘概念和技術讀書筆記
數據挖掘概念與技術——讀書筆記(7)
《數據挖掘概念與技術》讀書筆記
《數據挖掘概念與技術》讀書筆記(一)
【讀書筆記-數據挖掘概念與技術】數據挖掘的發展趨勢和研究前沿
【讀書筆記-數據挖掘概念與技術】高級模式挖掘
【讀書筆記-數據挖掘概念與技術】高級模式挖掘
© 2014-2022 ITdaan.com
×
收藏本文
添加到收藏夹 *