【讀書筆記-數據挖掘概念與技術】認識數據


屬性分類:

  • 標稱屬性(定性)
  • 二元屬性(定性)
  • 序數屬性(定性)
  • 數值屬性(定量)

標稱屬性——“與名稱相關”,它的值是一些符號或事物的名稱。 eg.頭發顏色(黑色、棕色、淡黃色、紅色) 婚姻狀況(單身、已婚、離異、喪偶)
二元屬性——標稱屬性的一種,只有兩個類別或狀態:0或1(布爾屬性)。有對稱與非對稱之分,對稱——兩種狀態具有同等價值並且攜帶相同的權重eg.性別非對稱——其狀態的結果不是同樣重要eg.化驗結果(陰性0、陽性1) 序數屬性——它的值之間具有有意義的序或秩評定,但相繼值之間的差是未知的。eg.成績(A+、A、A-、B+、B、……)評價(0——差評、1——中性、2——好評)數值屬性——它的值是可度量的量,用整數或實數值表示。可以是去見標度的或比率標度的區間標度——eg.溫度(5°、10°、15°、……)比率標度——eg.重量、高度、速度、貨幣量
機器學習領域分類:
  • 離散屬性
  • 連續屬性

—————————————————————————————————————————————————————————————————————————————

數據的基本統計描述


中心趨勢度量——均值、中位數、眾數

度量數據散布——極差、四分位數、方差、標准差、四分位數極差

  • 極差:最大數-最小數
  • 四分位數:即統計學中,把所有數值由小到大排列並分成四等份,處於三個分割點位置的得分就是四分位數。
第一四分位數 (Q1),又稱“較小四分位數”,等於該樣本中所有數值由小到大排列后第25%的數字。 Q1的位置= (n+1) × 0.25
第二四分位數 (Q2),又稱“中位數”,等於該樣本中所有數值由小到大排列后第50%的數字。 Q2的位置= (n+1) × 0.5
第三四分位數 (Q3),又稱“較大四分位數”,等於該樣本中所有數值由小到大排列后第75%的數字。 Q3的位置= (n+1) × 0.75
第三四分位數與第一四分位數的差距又稱四分位距(InterQuartile Range,IQR)。
  • 四分位極差(IQR)=Q3-Q1
  • 五數概括——中位數Q2、四分位數Q1和Q3、最大值和最小值
  • 盒圖(箱型圖)——通過盒圖,在分析數據的時候,盒圖能夠有效地幫助我們識別數據的特征:
    1、直觀地識別數據集中的異常值(查看離群點)。
    2、判斷數據集的數據離散程度和偏向(觀察盒子的長度,上下隔間的形狀,以及胡須的長度)。

  • 方差&標准差

圖形顯示

  • 分位數圖——用於觀察單變量數據分布

這里的單變量就是:單價
  • 分位數-分位數圖或q-q圖——觀察一個分布到另一個分布是否有漂移
在統計學中,QQ圖[1] (Q代表分位數Quantile)是一種通過畫出分位數來比較兩個概率分布的圖形方法。首先選定區間長度,點(x,y)對應於第一個分布(x軸)的分位數和第二個分布(y軸)相同的分位數。因此畫出的是一條含參數的曲線,參數為區間個數。

如果被比較的兩個分布比較相似,則其QQ圖近似地位於y = x上。如果兩個分布線性相關,則QQ圖上的點近似地落在一條直線上,但並不一定是y = x這條線。QQ圖同樣可以用來估計一個分布的位置參數。

QQ圖可以比較概率分布的形狀,從圖形上顯示兩個分布的位置,尺度和偏度等性質是否相似或不同。它可以用來比較一組數據的經驗分布和理論分布是否一致。[2]另外,QQ圖也是一種比較兩組數據背后的隨機變量分布的非參數方法。一般來說,當比較兩組樣本時,QQ圖是一種比直方圖更加有效的方法,但是理解QQ圖需要更多的背景知識。


  • 散點圖與數據相關——兩個數值變量之間看上去是否存在聯系

———————————————————————————————————————————————————————————————————————————— 數據可視化
  • 基於像素
  • 幾何投影
  • 基於圖符
  • 層次
  • 復雜對象的可視化
————————————————————————————————————————————————————————————————————————————
度量數據的相似性和相異性(臨近度度量)


不同類別的數據,d(i,j)有不同的計算方法。

  • 標稱屬性


  • 二元屬性





  • 數值屬性——閔可夫斯基距離(Minkowski distance)、歐幾里得距離、曼哈頓距離

  • 序數屬性

得到:
  • 混合類型屬性——基於test1、2、3,取平均
  • 相似性評估:余弦相似性(用於比較文檔)、Tanimoto系數


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
  © 2014-2022 ITdaan.com