現實世界問題中的隨機抽樣和獨立性
在Stock和Watson的《計量經濟學導論》一書中用這個例子來說明隨機抽樣和隨機變量獨立性之間的關係:
我的問題是,在這種情況下,我不明白為什麼隨機抽樣應該意味著獨立。
在一個更簡單的實驗中,我可以有一個骨灰盒 $ N $ 裡面的球,這樣每個球都有概率 $ \frac{1}{N} $ 被繪製:如果我畫了一個球,然後我再次將球放入骨灰盒中並重複,兩次抽獎是獨立的,因為骨灰盒仍然具有相同的成分(或者即使我不插入球,我也可以說它們是近似獨立的,如果 $ N $ 足夠大)並且兩個提取的球一起是隨機樣本。
相反,在上面的例子中,有一些不同的東西(至少在我看來是這樣)。確實,每個元素在每次抽籤時都有相同的概率被提取,但我看不出這一事實與隨機變量的獨立性之間的聯繫。為什麼會這樣?在更簡單的實驗中我提到這是因為我再次將球插入骨灰盒中,骨灰盒的成分與之前相同;但是在這裡,在我隨機選擇第一天並觀察通勤時間後,我知道了一些新的東西,因為那一天有一個特定的通勤時間,而不再只是一個衡量通勤時間概率的累積分佈函數,所以,當我插入那一天又在“甕”裡面,那一天的通勤時間是已知的所以和以前不一樣了。有人可以澄清一下嗎?區別不重要嗎?為什麼?
從文本中提取的這段內容存在歧義和不正確的問題。
讓我們先處理後者。兩個隨機變量的獨立性 $ X $ 和 $ Y $ 不是關於一個變量“不提供關於第一個的信息”(這本身就是一個非常模棱兩可的短語!)。獨立性嚴格來說是概率,它意味著任何联合事件的機會(即, $ X $ 位於某個集合中 $ \mathcal A $ 和價值 $ Y $ 同時位於另一個集合中 $ \mathcal B $ ) 僅由單獨的機會確定(即,通過將它們相乘)。
在這種情況下,建立一個骨灰盒模型來理解採樣是很自然的。這種情況的一個極端例子發生在一個被截斷的學年(正如許多人最近經歷的那樣!),學生只需兩天上下班。骨灰盒將包含代表兩次通勤的兩張紙條。每張紙條上都寫有通勤時間。一個大小為 1 的隨機樣本是通過盲目撤回一個單據獲得的。讓 $ X $ 是該單據上的值:它是一個隨機變量。 讓 $ Y $ 是甕中所有剩餘單據上的值的集合(即未選擇的通勤日)。直接證明隨機變量 $ (X,Y) $ 不是獨立的:確實,兩者之間的相關性 $ X $ 和 $ Y $ 是 $ -1 $ 並且任何具有非零相關性的變量都不是獨立的。
如果你找到大小樣本 $ 1 $ 概念上令人反感,將此示例擴展到具有三個通勤日的學年,並考慮一個隨機樣本(無替換)大小 $ 2. $ 此示例包括按順序提取兩張票,無需更換。讓 $ X_1 $ 是寫在第一張票上的值和 $ X_2 $ 第二個值。隨機變量的相關性 $ (X_1,X_2) $ 是 $ -1/2, $ 再次非零:這兩個通勤時間不是獨立的。 (關於無放回抽樣的協方差問題解釋瞭如何計算這個協方差。)
作者可能想到了一個模型,在這個模型中,骨灰盒裡裝滿了數以百萬計的票,反映了“假設的”通勤時間的某種分佈。如果是這樣,樣本值實際上將表現得好像它們是獨立的。但是構建這樣一個模型的概念基礎是什麼?
作者可能還(含蓄地)提出了這樣一種觀點,即當骨灰盒中有“大量”票並且樣本“相對較少”被提取時,抽樣票上的值大致是獨立的。但這聽起來太定性和滑溜,無法為任何觀眾提供一個體面的解釋。
我們對這種情況的思考越多,現實就越多。例如,即使一個學年包含整整 180 天(左右),我們為什麼要假設在冬季月份採樣的通勤時間“沒有提供有關其他附近通勤時間的信息”?在冬季天氣嚴重的地區,沒有人會相信這一點。“我看你昨天花了兩個小時才到學校。外面一定有很多雪。我敢打賭你下週的車程會很長。”
關於“無信息”的含義和使用的模型,我們已經掩蓋了幾個含糊不清的地方。還有其他歧義。為了評估樣本中值的獨立性,我們應該——還是不應該——假設我們可以檢查骨灰盒的全部內容?如果一個通勤時間“沒有提供關於樣本中任何其他通勤時間的信息”,那麼它必須提供的關於未抽樣的通勤時間的信息要少得多!那麼,如何才能根據採樣值對一年的通勤時間做出任何推斷呢?
儘管這樣做似乎很痛苦或過於技術性,但證明隨機變量獨立性的唯一方法必須訴諸其概率定義。這需要清楚地表明一個概率模型,並表明該模型中的概率服從具有獨立性特徵的乘積定律。其他任何事情都只是揮手致意,並有可能使深思熟慮的學生感到困惑。