Probability

如果 1000 人中有 900 人說汽車是藍色的,那麼它是藍色的概率是多少?

  • August 20, 2017

這最初是在我們對自然文本分類模型所做的一些工作中出現的,但我已經簡化了它……也許太多了。

你有一輛藍色的車(通過一些客觀的科學衡量——它是藍色的)。

你把它展示給1000人。

900說它是藍色的。100不。

您將此信息提供給看不到汽車的人。他們只知道有 900 人說它是藍色的,而 100 人沒有。你對這些人(1000 人)一無所知。

基於此,你問那個人,“汽車是藍色的概率是多少?”

這在我問過的人中引起了巨大的意見分歧!正確答案是什麼,如果有的話?

TL;DR:除非你假設人們在判斷汽車顏色方面非常糟糕,或者藍色汽車非常罕見,否則你示例中的人數眾多意味著汽車是藍色的概率基本上是 100%。

Matthew Drury 已經給出了正確的答案,但我只想通過一些數字示例來補充這一點,因為您選擇了您的數字,這樣您實際上就可以為各種不同的參數設置獲得非常相似的答案。例如,假設正如您在其中一條評論中所說,人們正確判斷汽車顏色的概率是 0.9。那是:

並且

定義好之後,我們必須決定的剩下的事情是:汽車是藍色的先驗概率是多少?讓我們選擇一個非常低的概率來看看會發生什麼,然後說,即只有 0.1% 的汽車是藍色的。那麼汽車是藍色的後驗概率可以計算為:

如果您查看分母,很明顯該總和中的第二項可以忽略不計,因為總和中各項的相對大小由到,其順序為. 事實上,如果您在計算機上進行此計算(注意避免數字下溢問題),您會得到等於 1 的答案(在機器精度範圍內)。

先驗概率在這裡並不重要的原因是因為你有很多證據證明一種可能性(汽車是藍色的)與另一種可能性。這可以通過似然比來量化,我們可以計算為:

因此,在考慮先驗概率之前,證據表明,一個選項已經比另一個選項更有可能,並且對於先驗產生任何影響,藍色汽車必須是不合理的,非常罕見的(如此罕見以至於我們期望在地球上找到 0 輛藍色汽車)。

那麼,如果我們改變人們對汽車顏色描述的準確程度呢?當然,我們可以把它推到極端,說他們只有 50% 的時間做對了,這比拋硬幣好不了多少。在這種情況下,汽車是藍色的後驗概率簡單地等於先驗概率,因為人們的回答什麼也沒告訴我們。但可以肯定的是,人們至少做得比這要好一些,即使我們說人們只有 51% 的時間是準確的,似然比仍然計算得大致如此汽車變成藍色的可能性要高出幾倍。

這都是您在示例中選擇的相當大的數字的結果。如果有 9/10 的人說這輛車是藍色的,那將是一個非常不同的故事,即使在一個陣營與另一個陣營的人數比例相同。因為統計證據不依賴於這個比率,而是依賴於對立派系之間的數值差異。事實上,在似然比(量化證據)中,說汽車不是藍色的 100 人恰好抵消了 900 人中的 100 人說它是藍色的,所以這就像你有 800 人都同意它是藍色的。這顯然是非常明確的證據。

(編輯:正如 Silverfish 指出的那樣,我在這裡所做的假設實際上暗示,每當一個人錯誤地描述了一輛非藍色汽車時,他們會默認說它是藍色的。這當然是不現實的,因為他們真的可以說任何顏色, 並且只會在某些時候說藍色。但這對結論沒有影響,因為人們將非藍色汽車誤認為藍色汽車的可能性越小,當他們說它是藍色的證據越強是。因此,如果有的話,上面給出的數字實際上只是親藍色證據的下限。)

引用自:https://stats.stackexchange.com/questions/298917

comments powered by Disqus

相關問答