Correlation
有沒有檢測異常值的簡單方法?
我想知道是否有一種檢測異常值的簡單方法。
對於我的一個項目,基本上是受訪者在一周內參加體育活動的次數與他們在一周內外出就餐(快餐)的次數之間的相關性,我畫了一個散點圖並從字面上刪除了極端的數據點。(散點圖顯示負相關。)
這是基於價值判斷(基於這些數據點明顯極端的散點圖)。我沒有做任何統計測試。
我只是想知道這是否是處理異常值的好方法。
我有來自 350 人的數據,所以(比如說)20 個數據點的丟失對我來說並不擔心。
沒有簡單的方法可以去除異常值。異常值可以有兩種:
數據輸入錯誤。這些通常是最容易發現的,並且總是最容易處理的。如果您能找到正確的數據,請更正它;如果沒有,請刪除它。
不尋常的合法數據。這要棘手得多。對於像您這樣的雙變量數據,異常值可能是單變量或雙變量。
a) 單變量。首先,“不尋常”取決於分佈和样本量。你給我們的樣本量是 350,但分佈是什麼?這顯然是不正常的,因為它是一個相對較小的整數。在泊松下不尋常的東西不會在負二項式下。我有點懷疑零膨脹的負二項式關係。
但即使你有分佈,(可能的)異常值也會影響參數。您可以查看“遺漏”分佈,在其中檢查數據點 q 是否是異常值,如果數據包含除 q 之外的所有點。儘管如此,如果有多個異常值怎麼辦?
b) 雙變量。這是兩個變量的值本身都不是異常的地方,但它們加在一起是奇怪的。有一份可能是杜撰的報告,人口普查曾經說美國有 20,000 名 12 歲的寡婦。12 歲的孩子並不罕見,寡婦也不例外,但 12 歲的寡婦卻是。
鑑於這一切,報告一個強有力的關係衡量標準可能會更簡單。