邏輯回歸(LR)名義上帶有“回歸”字樣,第一眼看去有可能會被以為是預測方法,其實質卻是一種常用的分類模型,主要被用於二分類問題,它將特征空間映射成一種可能性,在LR中,y是一個定性變量{0,1},LR方法主要用於研究某些事發生的概率。
假定有一個二分類問題,輸出
,線性回歸模型(公式1.1.1)
但從函數的連續性來講,上述函數不連續,數學屬性不是特別優秀,因此我們希望有一個單調可微的函數供我們使用(在求函數最優值時會用到微分或者偏微分),於是
出現在我們眼前(公式1.1.2):
兩個函數的圖像對比如下:
由於
的取值在
,而且具備良好的數學特性,因為,如果有一個測試點
,經過
計算出來的結果都在0到1之間。在LR模型中,我們做出如下假設(公式1.1.3):
將1.1.1代入1.1.2,我們可以推導出,如果要計算一個樣本的分類屬性,到底屬於1或者0,我們只需要求解參數組 。
根據線性回歸模型的經驗,我們會選擇模型輸出與實際輸出的誤差平方和作為代價函數,如下(公式1.2.1):
通過最小化代價函數,對參數組
進行求解。但是由於1.1.2屬於非凸函數,存在很多的局部最小值,不利於整體求解,於是LR中做如下變通。根據概率的后驗估計:
將上面兩個公式可以合並為一個:
優點:
缺點:
- 對數據和場景的適應能力有局限性,不如決策樹算法適應性那么強。
- 當特征空間很大時,邏輯回歸的性能不是很好;
- 容易欠擬合,一般准確度不太高
- 不能很好地處理大量多類特征或變量;
- 只能處理兩分類問題(在此基礎上衍生出來的softmax可以用於多分類),且必須線性可分,對於非線性特征,需要進行轉換;
- 使用前提: 自變量與因變量是線性關系。
- 只是廣義線性模型,不是真正的非線性方法。
-
Logistic回歸與多重線性回歸實際上有很多相同之處,最大的區別就在於它們的因變量不同,其他的基本都差不多。正是因為如此,這兩種回歸可以歸於同一個家族,即廣義線性模型(generalizedlinear model)。
這一家族中的模型形式基本上都差不多,不同的就是因變量不同。這一家族中的模型形式基本上都差不多,不同的就是因變量不同。
未完待續!
版本號 | 時間 | 作者 | 變更內容 |
---|---|---|---|
V0.1 | 2018年3月6日 | 雷小蠻 | 第一次創建 |
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。