Normal-Distribution

今天有比尤塞恩博爾特更快的人嗎?

  • September 12, 2017

編輯:我對在給定樣本統計數據的情況下確定給定總體中“真實”最大值的可能性的技術問題和方法更感興趣。從創紀錄的衝刺時間來估計比博爾特先生跑得更快的可能性存在明顯和微妙的問題。想像這並非如此,以此來幽默我。


Usain Bolt 是 100m 衝刺跑最快的人。然而,鑑於運動員人數很少,“真正的”活著最快的人似乎坐在某處的沙發上,並且從未嘗試過有競爭力的跑步生涯。

我試圖利用正態分佈尾部樣本之間的差異變得越來越小的事實。我正在使用它來計算存在比 Usain Bolt 更快的人的可能性,方法是將 Usain 與第二快、第三快等進行比較。

為此,我試圖通過對正態分佈的 CDF 求導來計算“Usain Bolt”之外存在的最大值, 提高到th(其中大約是 7,000,000,000 或小於“最大值”的樣本數 - 這背後的邏輯在德國坦克問題維基百科頁面中描述,該頁面概括了不同的分佈),例如:

  1. 這是計算存在比 Usain Bolt 更快的人的概率的有效方法嗎?
  2. 在“其他發行版的德國坦克問題”之外是否有此類問題的名稱
  3. 有沒有一種從分佈的極端樣本中估計標準偏差的好方法?查找有關有史以來最快的 100m 短跑的信息很容易,查找平均值和方差很難)

感謝您在與沒有該主題背景的程序員打交道時的耐心。

與其他答案相反,我認為您可以根據可用數據對螺栓的能力發表一些看法。首先,讓我們縮小你的問題。你問的是最快的人類,但由於男性和女性的跑步速度分佈存在差異,最好的女性跑步者女性似乎比最好的男性跑步者稍慢,我們應該關注男性跑步者。為了獲得一些數據,我們可以查看過去 45 年中 100 次跑步的最佳年份表現。關於這個數據有幾點需要注意:

  • 這些是最好的跑步時間,所以它們並沒有告訴我們所有人類的能力,而是關於最低達到的速度。
  • 我們假設這些數據反映了世界上最好的跑步者的樣本。雖然可能發生了更好的跑步者沒有參加錦標賽,但這種假設似乎是相當合理的。

首先,讓我們討論如何分析這些數據。您可能會注意到,如果我們繪製運行時間與時間的關係圖,我們會觀察到強線性關係。

最佳運行時間與時間

這可能會導致您使用線性回歸來預測未來幾年我們可以觀察到多少更好的跑步者。然而,這將是一個非常糟糕的主意,這將不可避免地導致您得出結論,在大約兩千年後,人類將能夠在零秒內跑完 100 米,然後他們將開始實現負跑時間!這顯然是荒謬的,因為我們可以想像我們的能力存在某種生物和物理限制,這是我們所不知道的。

你怎麼能分析這些數據?首先,請注意我們正在處理有關最小值的數據,因此我們應該為此類數據使用適當的模型。這導致我們考慮極值理論模型(參見例如Stuart Coles*的《極值統計建模簡介》*一書)。您可以為此數據假設廣義極值分佈(GEV)。如果在哪裡是獨立同分佈的隨機變量,則遵循 GEV 分佈。如果您對建模最小值感興趣,那麼如果是最小值的樣本,那麼的最小值遵循 GEV 分佈。因此,我們可以將 GEV 分佈擬合到運行速度數據,從而得到非常好的擬合(見下文)。

運行速度的 GEV 分佈

如果您查看模型建議的累積分佈,您會注意到 Usain Bolt 的最佳運行時間是最低的分佈的尾部。因此,如果我們堅持這些數據和這個玩具示例分析,我們會得出結論,更小的運行時間不太可能(但顯然是可能的)。這種分析的明顯問題是忽略了我們看到最佳運行時間逐年改進的事實。這讓我們回到答案第一部分中描述的問題,即假設這裡的回歸模型是有風險的。可以改進的另一件事是,我們可以使用貝葉斯方法並假設信息先驗,這將解釋一些關於生理上可能的運行時間的數據外知識,這可能尚未觀察到(但是,據我所知,目前未知)。最後,類似的極值理論已經用於體育研究,例如 Einmahl 和 Magnus (2008) 在通過極值理論論文記錄田徑運動。

你可以抗議說你沒有問更快的跑步時間的概率,而是關於觀察到更快的跑步者的概率。不幸的是,在這裡我們不能做太多,因為我們不知道跑步者成為職業運動員的概率是多少,並且記錄的跑步時間可供他使用。這不是隨機發生的,有很多因素導致一些跑步者成為職業運動員,而另一些則不是(或者甚至有人喜歡跑步和跑步)。為此,我們必須有關於跑步者的詳細人群數據,此外,由於您詢問的是分佈的極端情況,因此數據必須非常大。所以在這一點上,我同意其他答案。

引用自:https://stats.stackexchange.com/questions/302814

comments powered by Disqus