数据挖掘概念与技术读书笔记(2)


第二章 认识数据 
2.1 数据对象与属性类型 2.1.2 标称属性 标称属性的值是一些符号或事物的名称,每个值代表某种类别、编码或状态,在计算机科学中,这些值也被看做的是枚举的
因为标称属性值并不具有有意义的序,并且也不是定量的,因此,给定一个对象集,找出均值或中位数没有意义,有意义的是取该属性最常出现的值,称为众数,是一种中心趋势度量
2.1.3 二元属性
二元属性是一种标称属性,只有0,1两个状态
2.1.4 序数属性 其可能的值之间具有有意义的序或秩评定,但是相继值之间的差是未知的
序数属性的中心趋势可以用它的众数和中位数表示
2.1.5 数值属性 数值属性是定量的,即它是可度量的量,用整数或实数值表示 1、区间标度属性 区间标度属性用相等的单位尺度度量 这种属性允许我们比较和定量评估值之间的差
2、比率标度属性
2.1.6 离散属性与连续属性
2.2 数据的基本统计描述 基本统计描述可用来识别数据的性质,凸显哪些数据值应该视为噪声或离群点
2.2.1 中心趋势度量:均值、中位数和众数
均值对极端值(例如:离群点)很敏感,为了抵消少数极端值的影响,可以使用截尾均值,截尾均值是丢弃高低极端值后的均值
对于倾斜(非对称)数据,数据中心的更好度量是中位数。中位数是有序数据的中间值,它是把数据较高的一半与较低的一半分开的值
众数是另一种中心趋势度量。数据集的众数是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的、双峰的、三峰的
中列数也可以用来评估数值数据的中心趋势,是数据集的最大和最小值的平均值

2.2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差 1、极差、四分位数和四分位数极差
2、五数概括、盒图与离群点
识别可疑的离群点的通常规则是,挑选落在第三个四分位数之上或一个四分位数之下至少1.5*IQR处的值
分布的五数概括由中位数、四分位数Q1和Q3、最小和最大观测值组成

3、方差和标准差
方差和标准差都是数据散布度量,它们指出数据分布的散布程度。低标准差意味数据观测非常靠近均值,而高标准差表示数据散布在一个大的值域中

2.4 度量数据的相似性和相异性
2.4.1 数据矩阵与相异性矩阵


2.4.2 标称属性的临近性度量

2.4.3 二元属性的临近性度量
2.4.4 数值属性的相异性:闵可夫斯基距离
欧几里得距离、曼哈顿距离和闵可夫斯基距离
在某些情况下,在计算距离之前数据应该规范化。这涉及变换数据,使之落入较小的公共值域,
闵可夫斯基距离 是 欧几里得距离、曼哈顿距离的推广




2.4.5 序数属性的邻近性度量

2.4.6 混合类型属性的相异性


2.4.7 余弦相似性



注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
  © 2014-2022 ITdaan.com 联系我们: