白話空間統計番外:再談P值


P值的計算一直是很多初學者們所糾結的問題。包括蝦神我開始學習的時候也是一樣……數學是一種科學的語言,追求的就是精確性——連在數軸上純隨機出現的孿生素數都被刷出下限來了,還有什么東西是不能精確識別的?

但是你翻遍整個搜索引擎,發現問“P值計算公式”的帖子也算鋪天蓋地了,但是從來就是:

某人問:


某大神答:很簡單的拉……


某人:


好吧……為了蝦神也不被打成星星,今天我們有一個灰常簡單的辦法來講講P值計算的一些事情。

當然,直接通過Z得分,也是可以獲取到P值的,因為P值和Z得分一般情況下是成雙成對出現的,在正態分布區間中,兩端的高Z得分,往往也是跟隨者極小的P值。

但是,有的情況下,比如空間分布上面點模式分析隨機性的一些計算(樣方分析),就完全可以利用P值來進行標識了。

看看下面這個例子:
100個方格,100個點,如果均勻分布的話,應該是這個樣子的:


每個格子1個點,均勻分布(在空間統計學里面,有時候隨機這個概念與均勻這個概念是通用的,比如下面這種分布:也是100個格子100個點,每個格子一個點……只不過在每個格網內這個點的位置是隨機的。


如果說,1個格子正好1個點,那么就計數為1的話,100個格子,每個格子1個點,我們就正好計數為100……這個100如果轉換為P值的描述方式,就是100%隨機(均勻)。

接下去,我們移動其中一個格網內的點,把它放到另外一個格網里面去:

那么現在只有1個點的格網還剩下98個,另外有一個格網有2個點,有1個格網有0個點……這樣,P值就變成了98,也就是98%的情況下是隨機(均勻)的。

繼續移動,我們會發現,隨着點的往已知網格里面不斷聚集,隨機度會越來越小,最后如果極端情況是這樣:


那么其中1個格網為100,另外99個都是0,這樣,只有1個點的格網數,就是0了……這樣就可以看出P = 0,完全無隨機。

當然,根據費舍爾爵士的零假設原則,不需要p = 0,只需要p < 0.05就可以了,那么里面只需要有95個網格的點落進去的個數不等於1,就認為拒絕了零假設。

當然,這個例子是最簡單的,當我們的格網數目和點的數據在不斷變化的時候,我們的計算就不會這么簡單了。所以說,在不同的校驗下,P值的計算模式都是不一樣的,根據工程學的方法來說,最容易進行的就是模擬計算,所以,業界對P值進行計算,大多數是通過蒙特卡洛模擬來實現了。

而我上面舉的這個例子,很多時候也並不成立,比如下面這種情況:


一邊50個格子,集中了100個點,每個格子2個……另外一邊一個點也沒有,都是0,那么這種情況,按照全局樣本來看,是P值當然是0,拒絕零假設……但是我們如果僅僅看左半部分,50個格子100個點,每個格子均勻2個——p 值 = 100完全隨機。

所以實際上,我上面舉的例子,利用平均數來計算這種簡單粗暴的方法,在很多時候都會出現各種問題。那么在實際應用和計算過程中,設定全局觀察值和觀察樣本,以及對局部的數據進行觀察計算,就非常有必要了。

待續未完。

更多內容,請關注蝦神公眾號:




注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2021 ITdaan.com