以 m/s 為單位的速度是正態分佈的,但表示為“10 米的時間”的相同數據不是
我試圖理解為什麼相同的數據如果以一種方式表示可以呈正態分佈,但如果以另一種方式表示則不能呈正態分佈。
我有一個變量是“步行 10 米所需的時間”(以秒為單位)。該數據不是正態分佈的(Shapiro-Wilk:W = 0.632,df = 108,Sig. <0.001,+參見下面的“直方圖 1”)。
我將這個變量表示為“速度”(以米/秒為單位)。我通過將 10 米除以完成距離所需的時間來計算它(例如,完成 10 米所需的 14 秒變為 10/14 = 0.71 m/s)。
當我現在檢查“速度”的正態性時,它是非常正態分佈的(Shapiro-Wilk:W = 0.984,df = 108,Sig. = 0.234,+參見下面的“直方圖 2”)。
我做錯了什麼,還是對此有合理的解釋?在添加標籤時,stackexchange 提到了“逆高斯分佈”——這就是這裡發生的事情嗎?
下圖直觀地說明了為什麼轉換後的變量具有不同的分佈:
我畫了兩條平行線。
- 在最低線上,我繪製了均勻分佈的點 $ 0.1, 0.2, …, 1.1, 1.2 $ 代表速度 $ v $ .
- 在上面的線上,我根據公式繪製了點 $ t=0.1/v $ (請注意,我反轉了左側為 1.2,右側為 0 的軸)
我已經繪製了連接不同點的線。你可以看到均勻分佈的點 $ v $ 沒有轉化為均勻分佈的點 $ t $ 但相反,低值中的點比高值中的點更密集。
這種擠壓也會發生在密度分佈上。時間分佈 $ t $ 不會和分佈一樣 $ v $ 與一個變換的位置。相反,您還會得到一個基於空間被拉伸或擠壓多少的因素。
- 例如:地區 $ 0.1 < v < 0.2 $ 分散在一個地區 $ 0.5 < t <1 $ 這是一個更大的區域。因此,落入特定區域的相同概率會分散到更大尺寸的區域上。
- 另一個例子:地區 $ 0.4 < v < 0.5 $ 被擠進一個區域 $ 0.2 < t <0.25 $ 這是一個較小的區域。因此,落入特定區域的相同概率會被壓縮到尺寸較小的區域中。
在下圖中這兩個對應區域 $ 0.4 < v < 0.5 $ 和 $ 0.2 < t <0.25 $ 並且密度曲線下的區域被著色,兩個不同著色的區域具有相同的面積大小。
所以作為時代的分佈 $ g(t) $ 你不只是考慮速度的分佈 $ f(v) $ 在哪裡轉換變量 $ v=0.1/t $ (實際上已經使分佈看起來與正常曲線不同,請參見圖像中的綠色曲線),但您還考慮了概率質量在更大/更小區域上的擴展/壓縮。
注意:我已經採取 $ t=0.1/v $ 代替 $ t = 100/v $ 因為這使兩個比例相同並使兩個密度的比較等效(當您擠壓圖像時,這將影響密度)。
查看更多關於轉換的信息:
https://en.wikipedia.org/wiki/Random_variable#Functions_of_random_variables
更一般地,正態分佈變量的倒數是:
$$ t = a/v \quad \text{with} \quad f_V(v) = \frac{1}{\sqrt{2 \pi \sigma^2}} e^{-\frac{1}{2}\frac{(v-\mu)^2}{\sigma^2}} $$
然後
$$ g_T(t) = \frac{1}{\sqrt{2 \pi \sigma^2}} \frac{a}{t^2} e^{-\frac{1}{2}\frac{(a/t-\mu)^2}{\sigma^2}} $$
您可以通過查找搜索詞“倒數正態分佈”來找到更多相關信息https://math.stackexchange.com/search?q=reciprocal+normal+distribution
它與“逆高斯分佈”不同,後者與帶有漂移的布朗運動相關的等待時間(可以用高斯曲線來描述)。