假設有個機器學習問題,而且這個問題是多維特征問題,那么對於所有的特征變量,如果它們的取值范圍很接近,則代價函數收斂得更快,即梯度下降算法能夠更快地到達極值點。這里有個例子,假設有兩個特征變量x1,x2,兩個模型參數:Θ1,Θ2。而且
x1 代表房子的面積size,它的取值范圍是(0,2000)
x2代表房子的房間數num,他的取值范圍是(0,5)
由此可見,x1和x2的取值范圍,差別相對是比較大的,這樣會造成一種情況。就是這樣的等高線會比較狹長,如下圖。
同時,這樣可能會使梯度下降的過程變得曲折和漫長,過程如下所示
另外,如果x1和x2的取值范圍比較相近時,圖像中的等高線會更接近一個圓,並且梯度下降會時代價函數更快的收斂
於是為了達到這個目的,我們可以對個別與其他取值范圍大大不一樣的特征變量進行處理,比如
對x1和x2作以下處理
這樣它們的取值范圍就會都變成(0,1),對於每一個訓練樣本,由於都是作等比例的放大縮小,所以對結果沒有影響,又或者是可以作以下處理
其中,μ1和μ2分別是x1和x2,對應所有樣本的平均值。以上
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。