Mean

用平均值替換異常值

  • November 29, 2013

這個問題是我的一個不懂網絡的朋友問的。我沒有統計背景,我一直在互聯網上搜索這個問題。

問題是:是否可以用平均值替換異常值?如果可能的話,是否有任何書籍參考/期刊來支持此聲明?

顯然這是可能的,但尚不清楚這是否是一個好主意。

讓我們詳細說明這是一種有限或有缺陷的解決方案的幾種方式:

  • 實際上,您是在說異常值完全不可信,您唯一可能的猜測是該值應該是平均值。如果這就是您的想法,那麼忽略所討論的觀察結果可能會更誠實,因為顯然您沒有足夠的信息來做出更好的猜測。
  • 不言而喻,您首先需要一個或多個標準來識別異常值(正如@Frank Harrell 所暗示的那樣)。否則,這是一個任意和主觀的程序,即使它是作為判斷問題進行辯護的。根據某些標準,以這種方式刪除異常值可能會產生更多異常值作為副作用。一個例子可能是離群值與均值的標準差遠不止如此。移除異常值會改變標準偏差,新的數據點現在可能符合條件,依此類推。
  • 大概這裡的平均值是指所有其他值的平均值,@David Marx 明確指出了這一點。沒有這個規定,這個想法是模棱兩可的。
  • 使用平均值似乎是一個安全或保守的過程,但將一個值更改為平均值將改變幾乎所有其他統計數據,包括水平、規模和形狀的測量以及它們的不確定性指標,@whuber 強調了這一點。
  • 平均值甚至可能不是一個可行的值:簡單的​​例子是當值是整數時,但通常平均值不是整數。
  • 即使認為使用匯總度量是一件謹慎的事情,使用平均值而不是中位數或任何其他度量也需要一些理由。
  • 每當有其他變量時,修改一個變量的值而不參考其他變量可能會使數據點在其他意義上異常。

如何處理異常值是一個開放且非常困難的問題。鬆散地,不同的解決方案和策略具有不同的吸引力。

作為一個非常粗略的概括,從極端悲觀主義者到極端樂觀主義者,對統計和機器學習中的異常值的看法是連續的。極端悲觀主義者覺得被要求充當統計調查官,其職責是在數據中發現異常值作為令人討厭的污染物並嚴厲處理它們。例如,這可能是處理金融交易數據的人的立場,最誠實或最真實,但有些欺詐或犯罪。極端樂觀主義者知道異常值很可能,而且通常是真實的——亞馬遜,或亞馬遜,足夠真實,而且非常大。事實上,異常值通常是有趣的、重要的和有啟發性的。洪水、火災和金融危機就是這樣,有些非常大。

以下是部分可能性列表。排序是任意的,並不意味著在適用性、重要性或任何其他標準方面傳達任何順序。這些方法也不是相互排斥的。

  • 一個(在我看來很好的)定義是“[o] utliers 是與大多數樣本相關的樣本值”(WN Venables 和 BD Ripley. 2002. Modern Applied Statistics with S. New York: Springer,第 119 頁)。然而,驚喜存在於旁觀者的腦海中,並且取決於數據的某種默認或顯式模型。可能存在另一種模型,在該模型下異常值一點也不奇怪,因此數據實際上是(比如說)對數正態或伽馬而不是正態。簡而言之,準備好(重新)考慮你的模型。
  • 進入實驗室或現場再次進行測量。這通常是不切實際的,但它在幾門科學中似乎是標準的。
  • 測試異常值是否真實。大多數測試對我來說看起來很做作,但您可能會找到一個您認為適合您的情況的測試。總是需要對測試是適當的非理性信念來應用測試,然後將其呈現為典型的理性。
  • 根據判斷將它們扔掉。
  • 使用一些或多或少的自動化(通常不是“客觀”)規則將它們扔掉。
  • 部分或完全忽略它們。這可能是正式的(例如修剪)或只是將它們留在數據集中,但由於太熱而無法處理而將它們從分析中省略。
  • 使用某種調整將它們拉進來,例如 Winsorizing。
  • 通過使用其他一些穩健的估計方法來淡化它們。
  • 通過改變規模來淡化它們。
  • 通過使用非身份鏈接功能來淡化它們。
  • 通過擬合一些適當的肥尾、長尾或重尾分佈來適應它們,不帶或不帶預測因子。
  • 通過使用指標或虛擬變量作為模型中的額外預測變量來適應。
  • 通過使用一些非參數(例如基於等級)的程序來迴避這個問題。
  • 使用引導、折刀或基於排列的過程來處理隱含的不確定性。
  • 編輯以根據確定性邏輯將異常值替換為更可能的值。“18歲的祖母不太可能,但這個人是1932年出生的,現在是2013年,所以估計真的81歲了。”
  • 編輯以使用當前可接受的不完全白魔法的某種插補方法替換不可能或不可信的異常值。
  • 分析有無,並查看異常值在統計上、科學上或實踐上的差異有多大。
  • 貝葉斯的東西。我之前完全不知道禁止提供任何細節的內容。

編輯第二版受益於其他答案和評論。我試圖標記我的靈感來源。

引用自:https://stats.stackexchange.com/questions/78063

comments powered by Disqus