數據挖掘:降維



為什么要降維?    找出規律,壓縮數據量。
特征值與特征向量

   M矩陣,λ常數,e非零列向量

   Me = λe (e為unit vector,第一個非零元素為正)

   特征向量是單位向量;特征向量之間正交;特征向量矩陣E的特點,E*E^T = E^T*E = I。


一、PCA(主成分分析)

利用特征向量進行降維。

原理:

將矩陣與一個正交單位向量矩陣相乘,意味着在歐式空間上的旋轉。

求MM^T或者M^T的特征矩陣E,對高維數據進行旋轉。

原數據變成在新的坐標上的投影。

新的坐標上,第一維是主特征向量指向的那個方向,能量最強。以后依次遞減。使降維成為可能。


二、SVD(奇異值分解)

r是A的秩(Rank)

A[m*n] = U[m*r] ∑[r*r] V[n*r]^T

        U:左奇異向量(Left singular vectors),單位正交矩陣。

        ∑:奇異值矩陣(Singular values),對角陣。

        V:右奇異向量(Right Singular vectors),單位正交矩陣。

基於SVD的降維:降概念強度最低的那一維。∑矩陣中對角線的值最小。

誤差評估:Forbenius norm。  實踐中:保持80-90%的能量。

與PCA的關系:∑是AA^T的特征值對角陣;U是AA^T的特征向量矩陣;V是A^T*A的特征向量矩陣。

SVD的問題:結果難以解釋?為什么那么多維度?U和V很Dense!占空間多。


三、CUR分解

SVD存在問題。在SVD中, 即便M稀疏, U和V仍然密集。而對稱矩陣 Σ是稀疏的, 但 Σ 通常比UV小得多,因此其稀疏性起不到作用。

M = CUR

    正確地選擇行/列。

    構造中間矩陣。

    消除冗余的行/列。


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com