Teaching

如何不使用統計數據

  • May 11, 2011

這是一個開放式問題,但我想清楚。給定足夠的人口,您可能能夠學到一些東西(這是開放的部分),但是無論您了解您的人口,它何時適用於人口中的成員?

根據我對統計數據的理解,它永遠不適用於人口中的單個成員,然而,我經常發現自己在一個討論中,另一個人會說“我讀到世界上有 10% 的人口患有這種疾病”並繼續得出結論,房間裡每十個人就有這種疾病。

我知道這個房間裡有十個人的樣本量不足以使統計數據具有相關性,但顯然很多人都沒有。

然後是足夠大的樣本。您只需要探測足夠多的人口即可獲得可靠的統計數據。但是,這不是與統計數據的複雜性成正比嗎?如果我正在測量非常罕見的東西,這是否意味著我需要更大的樣本才能確定此類統計數據的相關性?

問題是,當涉及到統計數據時,我真的質疑任何報紙或文章的有效性,他們用它來建立信心。

這有點背景。

回到這個問題,在哪些方面你不能或不能使用統計數據來形成論點。我否定了這個問題,因為我想了解更多關於統計數據的常見誤解。

要根據人口得出關於群體的結論,該群體必須代表人口並且是獨立的。其他人已經討論過了,所以我不會在這篇文章中詳述。

要考慮的另一件事是概率的非直觀性。假設我們有一組 10 個人,他們是獨立的並代表總體(隨機樣本),並且我們知道總體中有 10% 具有特定特徵。因此,這 10 個人中的每個人都有 10% 的機會擁有該特徵。常見的假設是相當肯定至少 1 將具有該特徵。但這是一個簡單的二項式問題,我們可以計算出 10 個中沒有一個具有特徵的概率,大約是 35%(對於更大的組/更小的概率收斂到 1/e),這比大多數人猜測的要高得多。還有 26% 的可能性是 2 人或更多人具有該特徵。

引用自:https://stats.stackexchange.com/questions/10680

comments powered by Disqus