特征工程-降維


降維

我們發現機器學習中最有趣的挑戰往往會包含一些特征工程的內容。我們通過對問題本身的理解,小心謹慎的構造出一些特征,希望機器學習算法可以采納。本次分享走相反的路線,降維—把無關或冗余的特征刪掉。


降維的原因:

  • 多余的特征會影響或誤導學習器。並不是所有的機器學習方法都有這種情況(例如,支持向量機就喜歡高維空間),但大多數模型在維度較小的情況下比較安全。
  • 另一個反對高維特征空間的理由是,更多特征意味着更多參數需要調整,過擬合的風險也越大。
  • 我們用來解決問題的數據的維度可能只是虛高,真實維度可能比較小。
  • 維度越少意味着訓練越快,更多東西可以嘗試,能夠得到更好的結果。
  • 如果我們想要可視化數據,就必須限制在兩個或三個維度上;這就是所謂的數據可視化。

降維的目標:

對輸入的數目進行削減,由此剔除數據中的噪聲並提高機器學習方法的性能。


降維方法

大致分為特征選擇法和特征提取法。

  • 我們將展示利用統計方法(叫做相關性和互信息量)在大特征空間中進行特征選擇的方式。

  • 特征抽取試圖將原始特征空間轉換為一個低維特征空間。我們將使用主成分分析(principal Component Analysis, PCA)、線性判別式分析(Linear Discriminant Analysis, LDA) 和多維標度法(Multidimensional Scaling, MDS)。


主成分分析

按照數據方差最大方向調整數據。

奇異值分解

矩陣分解技術中的一種, 通過對原始數據的逼近來達到降維的目的。

本博文內容參考《Building Machine Learning Systems with Python》


注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com