當我們擁有所有人口時,我們是否需要假設檢驗?
據我了解,假設檢驗是為了確定樣本總體中的發現是否具有統計學意義。但如果我有人口普查數據,我們真的需要假設檢驗嗎?
我在想可能是我應該從人口普查數據中進行多次隨機抽樣,看看是否有任何隨機行為。
為了說明我的觀點,我假設每個人都被問到他們更喜歡星際迷航還是神秘博士,並且必須選擇其中之一(沒有中立的選項)。為簡單起見,我們還假設您的人口普查數據實際上是完整且準確的(這種情況很少發生)。
關於您的情況有一些重要的警告:
- 您的人口統計人口幾乎永遠不會是您的統計人口。 事實上,我想不出一個例子可以合理地提出統計測試回答的關於作為人口統計人口的統計人口的問題。
例如,假設您想一勞永逸地解決星際迷航或神秘博士哪個更好的問題,並且您通過人口普查時每個活著的人的偏好來更好地定義。你會發現 1234567 人更喜歡星際迷航,123456 9人更喜歡神秘博士。 如果您想按原樣接受這個判斷,則不需要進行統計測試。
但是,如果您想了解這種差異是否反映了實際偏好,或者可以通過強迫未決定的人做出隨機選擇來解釋。例如,您現在可以調查人們在兩者之間隨機選擇的空模型,並查看 2 的差值對於您的人口規模而言有多麼極端。在這種情況下,您的統計人口不是您的人口統計人口,而是對您當前人口統計人口進行的無限量人口普查的匯總結果。 2. 如果你有一個合理規模的行政區域人口規模的數據,並且對於它通常回答的問題,你應該關注效果大小,而不是顯著性。
例如,《星際迷航》是否比《神秘博士》略勝一籌並沒有實際意義,但你想決定一些實際的事情,比如為國家電視台的節目分配多少時間。如果 1234567 人更喜歡《星際迷航》,1234569 人更喜歡神秘*博士,*你會決定給兩者分配相同的屏幕時間,無論這種微小的差異是否具有統計顯著性。
附帶說明一下,一旦您關心效果大小,您可能想知道它的誤差範圍,這確實可以通過您在問題中提到的一些隨機抽樣來確定,即bootstrapping。 3. 使用人口統計往往會導致偽複製。 您的典型統計檢驗假設樣本不相關。在某些情況下,如果您對相關結構有很好的信息並基於此構建空模型,則可以避免此要求,但這只是個例外。相反,對於較小的樣本,您可以通過明確避免對來自同一家庭或類似家庭的兩個人進行抽樣來避免相關樣本。當您的樣本是整個人口統計人口時,您無法做到這一點,因此不可避免地存在相關性。如果您仍然將它們視為獨立樣本,您將提交pseudoreplication。
在我們的例子中,人們並不是獨立地得出對星際迷航或神秘博士的偏好,而是受到他們的父母、朋友、伴侶等的影響,他們的命運是一致的。如果某個流行氏族的族長更喜歡神秘*博士,*這將影響許多其他人,從而導致偽複製。或者,如果四名粉絲在前往星際迷航大會的途中因車禍喪生,那就是繁榮,偽複製。
為了給出另一個觀點,讓我們考慮另一個例子盡可能避免第二個和第三個問題,並且更實用一些:假設您負責一個野生動物保護區,該保護區擁有世界上僅存的粉紅色大象。由於粉紅色的大象脫穎而出(猜猜它們為何瀕臨滅絕),您可以輕鬆地對它們進行普查。你注意到你有 50 頭母像和 42 頭公象,想知道這是否表明真正的不平衡,或者可以用隨機波動來解釋。您可以使用零假設進行統計檢驗,即粉紅大象的性別是隨機的(概率相等)且不相關(例如,沒有同卵雙胞胎)。但是在這裡,你的統計人口不是你的生態人口,而是多元宇宙中所有的粉紅色大象,即,