特征選擇
特征選擇是一個很重要的數據預處理過程,在現實的機器學習任務中,獲得數據之后通常進行特征選擇。
進行特征選擇的原因:
(1) 維數災難問題
(2) 去除不相關特征,往往會降低學習任務的難度。
如果沒有任何領域知識作為先驗假設,那就只好遍歷所有可能的子集,然而在計算上是不可行的,或遭遇組合爆炸。常用的方法是:產生候選子集,評價之,基於評價結果,產生下一個候選子集。
子集產生:前向、后向、雙向。都是貪心的。如果不暴力窮舉,這個問題是沒法解決的。
子集評價:信息增益。
將特征子集搜索機制與子集評價機制相結合,即可得到特征選擇方法。與決策樹有點相似。
常見的特征選擇方法:過濾式、包裹式、嵌入式
(1) 過濾式特征選擇方法
過濾式方法首先對數據集進行特征選擇,然后再訓練學習器,特征選擇與后續學習器無關。
(2) 包裹式過濾選擇方法
包裹式特征選擇直接把最終將要使用的學習器的性能作為特征子集的評價標准。換言之,包裹式特征選擇的目的就是為給定學習器選擇最有利於其性能,“量身定做”的特征子集。包裹式特征選擇比過濾式特征選擇更好,但是由於在特征選擇過程中,需要多次訓練學習器,因此包裹式特征選擇計算開銷通常比過濾式特征選擇大的多。
LVW是典型的包裹式特征選擇方法。它是在拉斯維加斯框架下使用隨機策略來進行特征選擇。並以最終分類器的誤差為特征子集評價准則。算法思想:隨機產生特征子集,交叉驗證,進行准確率的判斷。LVW是由於特征子集搜索使用了隨機策略,而每次特征子集評價都需要訓練學習器,計算開銷很大,因此設置了算法停止條件控制參數。
(3) 嵌入式選擇與L1正則化
在過濾式和包裹式特征選擇方法中,特征選擇與學習器訓練過程有明顯的區別:與此不同,嵌入式特征選擇是將特征選擇過程與學習器訓練過程融為一體。
兩者在同一個優化過程中完成,即在學習器訓練過程中自動完成了特征選擇。
L1范數的引入,不僅可以防止過擬合,還可以得到稀疏解,進行自動的特征選擇。
降維
(1)低維嵌入
將高維數據映射到低維空間。
如果要求原始空間中樣本之間的距離在低維空間得以保持,那么就是MDS,多維縮放技術。
(2)PCA
樣本中心化:樣本中心化的意思其實就是將樣本中的每一個元素減去樣本的均值,使得樣本數據在零點附近波動。
PCA原理分析:將多個相關變量投影到另一組正交空間中,得到一組新的變量,使得新的變量具有最大的方差。(方差反映數據差異的程度,方差最大的方向對應信息量最大的方向)。
算法流程:輸入:數據集D,低維空間維數d
(1) 對所有樣本進行中心化。
(2) 計算樣本的協方差矩陣
(3) 對協方差矩陣做特征值分解
(4) 取最大的d歌特征值對應的特征向量
投影矩陣就是(W1,W2,….Wd)
降維后低維空間的維數通常由事先指定的,或者進行交叉驗證指定。
PS:在機器學習進行特征選擇的時候,最大特征值對應的特征向量包含最多的信息量。如果某幾個特征值很小,說明這幾個方向上信息量很少,可以用來降維,即舍去了部分信息。舍去這部分信息是必要的:(1)舍去這部分信息之后,可以使得樣本的采樣密度增大,這正是降維的重要動機。(2)當數據受到影響時,最小的特征值對應的特征向量往往與噪聲有關,將它們舍去能在一定程度上氣道去燥的效果。
(3)KPCA核化線性降維
線性降維方法假設從高維空間到低維空間的函數映射是線性的。但是在現實任務中,往往需要非線性映射才能找到恰當的低維嵌入。非線性降維的一種常用方法就是基於核技巧對線性降維進行核化。
原理:通過非線性映射將輸入空間映射到高維特征空間,在高維特征空間做PCA分析。
(4)LDA降維分析
LDA思想非常朴素:給定訓練樣集,設法將樣例投影到一條直線上,使得同類樣例的投影點盡可能接近、異類樣例的投影點盡可能遠離。在對新樣本進行分類時,將其投影到同樣的這條直線上,再根據投影點的位置來確定新樣本的分類。
衡量指標:類間散度矩陣,類內散度矩陣。
與PCA保持數據信息不同,LDA是為了使得降維后的數據點盡可能地容易被區分!
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。