以 m/s 為單位的速度是正態分佈的,但表示為“10 米的時間”的相同數據不是
我試圖理解為什麼相同的數據如果以一種方式表示可以呈正態分佈,但如果以另一種方式表示則不能呈正態分佈。
我有一個變量是“步行 10 米所需的時間”(以秒為單位)。該數據不是正態分佈的(Shapiro-Wilk:W = 0.632,df = 108,Sig. <0.001,+參見下面的“直方圖 1”)。
我將這個變量表示為“速度”(以米/秒為單位)。我通過將 10 米除以完成距離所需的時間來計算它(例如,完成 10 米所需的 14 秒變為 10/14 = 0.71 m/s)。
當我現在檢查“速度”的正態性時,它是非常正態分佈的(Shapiro-Wilk:W = 0.984,df = 108,Sig. = 0.234,+參見下面的“直方圖 2”)。
我做錯了什麼,還是對此有合理的解釋?在添加標籤時,stackexchange 提到了“逆高斯分佈”——這就是這裡發生的事情嗎?
下圖直觀地說明了為什麼轉換後的變量具有不同的分佈:
我畫了兩條平行線。
- 在最低線上,我繪製了均勻分佈的點 0.1,0.2,…,1.1,1.2 代表速度 v .
- 在上面的線上,我根據公式繪製了點 t=0.1/v (請注意,我反轉了左側為 1.2,右側為 0 的軸)
我已經繪製了連接不同點的線。你可以看到均勻分佈的點 v 沒有轉化為均勻分佈的點 t 但相反,低值中的點比高值中的點更密集。
這種擠壓也會發生在密度分佈上。時間分佈 t 不會和分佈一樣 v 與一個變換的位置。相反,您還會得到一個基於空間被拉伸或擠壓多少的因素。
- 例如:地區 0.1<v<0.2 分散在一個地區 0.5<t<1 這是一個更大的區域。因此,落入特定區域的相同概率會分散到更大尺寸的區域上。
- 另一個例子:地區 0.4<v<0.5 被擠進一個區域 0.2<t<0.25 這是一個較小的區域。因此,落入特定區域的相同概率會被壓縮到尺寸較小的區域中。
在下圖中這兩個對應區域 0.4<v<0.5 和 0.2<t<0.25 並且密度曲線下的區域被著色,兩個不同著色的區域具有相同的面積大小。
所以作為時代的分佈 g(t) 你不只是考慮速度的分佈 f(v) 在哪裡轉換變量 v=0.1/t (實際上已經使分佈看起來與正常曲線不同,請參見圖像中的綠色曲線),但您還考慮了概率質量在更大/更小區域上的擴展/壓縮。
注意:我已經採取 t=0.1/v 代替 t=100/v 因為這使兩個比例相同並使兩個密度的比較等效(當您擠壓圖像時,這將影響密度)。
查看更多關於轉換的信息:
https://en.wikipedia.org/wiki/Random_variable#Functions_of_random_variables
更一般地,正態分佈變量的倒數是:
t=a/vwithfV(v)=1√2πσ2e−12(v−μ)2σ2
然後
gT(t)=1√2πσ2at2e−12(a/t−μ)2σ2
您可以通過查找搜索詞“倒數正態分佈”來找到更多相關信息https://math.stackexchange.com/search?q=reciprocal+normal+distribution
它與“逆高斯分佈”不同,後者與帶有漂移的布朗運動相關的等待時間(可以用高斯曲線來描述)。