現實世界問題中的隨機抽樣和獨立性

March 29, 2021

在Stock和Watson的《計量經濟學導論》一書中用這個例子來說明隨機抽樣和隨機變量獨立性之間的關係：

我的問題是，在這種情況下，我不明白為什麼隨機抽樣應該意味著獨立。

在一個更簡單的實驗中，我可以有一個骨灰盒裡面的球，這樣每個球都有概率被繪製：如果我畫了一個球，然後我再次將球放入骨灰盒中並重複，兩次抽獎是獨立的，因為骨灰盒仍然具有相同的成分（或者即使我不插入球，我也可以說它們是近似獨立的，如果足夠大）並且兩個提取的球一起是隨機樣本。

相反，在上面的例子中，有一些不同的東西（至少在我看來是這樣）。確實，每個元素在每次抽籤時都有相同的概率被提取，但我看不出這一事實與隨機變量的獨立性之間的聯繫。為什麼會這樣？在更簡單的實驗中我提到這是因為我再次將球插入骨灰盒中，骨灰盒的成分與之前相同；但是在這裡，在我隨機選擇第一天並觀察通勤時間後，我知道了一些新的東西，因為那一天有一個特定的通勤時間，而不再只是一個衡量通勤時間概率的累積分佈函數，所以，當我插入那一天又在“甕”裡面，那一天的通勤時間是已知的所以和以前不一樣了。有人可以澄清一下嗎？區別不重要嗎？為什麼？

從文本中提取的這段內容存在歧義和不正確的問題。

讓我們先處理後者。兩個隨機變量的獨立性和不是關於一個變量“不提供關於第一個的信息”（這本身就是一個非常模棱兩可的短語！）。獨立性嚴格來說是概率，它意味著任何联合事件的機會（即，位於某個集合中和價值同時位於另一個集合中 ) 僅由單獨的機會確定（即，通過將它們相乘）。

在這種情況下，建立一個骨灰盒模型來理解採樣是很自然的。這種情況的一個極端例子發生在一個被截斷的學年（正如許多人最近經歷的那樣！），學生只需兩天上下班。骨灰盒將包含代表兩次通勤的兩張紙條。每張紙條上都寫有通勤時間。一個大小為 1 的隨機樣本是通過盲目撤回一個單據獲得的。讓是該單據上的值：它是一個隨機變量。讓是甕中所有剩餘單據上的值的集合（即未選擇的通勤日）。直接證明隨機變量不是獨立的：確實，兩者之間的相關性和是並且任何具有非零相關性的變量都不是獨立的。

如果你找到大小樣本概念上令人反感，將此示例擴展到具有三個通勤日的學年，並考慮一個隨機樣本（無替換）大小此示例包括按順序提取兩張票，無需更換。讓是寫在第一張票上的值和第二個值。隨機變量的相關性是再次非零：這兩個通勤時間不是獨立的。 （關於無放回抽樣的協方差問題解釋瞭如何計算這個協方差。）

作者可能想到了一個模型，在這個模型中，骨灰盒裡裝滿了數以百萬計的票，反映了“假設的”通勤時間的某種分佈。如果是這樣，樣本值實際上將表現得好像它們是獨立的。但是構建這樣一個模型的概念基礎是什麼？

作者可能還（含蓄地）提出了這樣一種觀點，即當骨灰盒中有“大量”票並且樣本“相對較少”被提取時，抽樣票上的值大致是獨立的。但這聽起來太定性和滑溜，無法為任何觀眾提供一個體面的解釋。

我們對這種情況的思考越多，現實就越多。例如，即使一個學年包含整整 180 天（左右），我們為什麼要假設在冬季月份採樣的通勤時間“沒有提供有關其他附近通勤時間的信息”？在冬季天氣嚴重的地區，沒有人會相信這一點。“我看你昨天花了兩個小時才到學校。外面一定有很多雪。我敢打賭你下週的車程會很長。”

關於“無信息”的含義和使用的模型，我們已經掩蓋了幾個含糊不清的地方。還有其他歧義。為了評估樣本中值的獨立性，我們應該——還是不應該——假設我們可以檢查骨灰盒的全部內容？如果一個通勤時間“沒有提供關於樣本中任何其他通勤時間的信息”，那麼它必須提供的關於未抽樣的通勤時間的信息要少得多！那麼，如何才能根據採樣值對一年的通勤時間做出任何推斷呢？

儘管這樣做似乎很痛苦或過於技術性，但證明隨機變量獨立性的唯一方法必須訴諸其概率定義。這需要清楚地表明一個概率模型，並表明該模型中的概率服從具有獨立性特徵的乘積定律。其他任何事情都只是揮手致意，並有可能使深思熟慮的學生感到困惑。

引用自：https://stats.stackexchange.com/questions/517297

現實世界問題中的隨機抽樣和獨立性

相關問答

為什麼多重共線性與相關性不同？

如何解釋 Pearl 的 do 表示法？

為什麼我們使用術語“人口”而不是“數據生成過程”？

傾向得分匹配的用例是什麼？

採樣自𝑥2𝜙(𝑥)X2φ(X)x^2phi(x)?

拋硬幣 n 次的假設檢驗