異常值的嚴格定義?
人們經常談論處理統計中的異常值。對此困擾我的是,據我所知,異常值的定義完全是主觀的。例如,如果某個隨機變量的真實分佈是重尾分佈或雙峰分佈,則任何用於檢測異常值的標準可視化或匯總統計都會錯誤地刪除您要從中採樣的分佈部分。什麼是異常值的嚴格定義(如果存在),如何處理異常值而不在分析中引入不合理的主觀性?
只要您的數據來自具有已知屬性的已知分佈,您就可以將異常值嚴格定義為觀察過程不太可能生成的事件(如果您認為“不太可能”是不嚴格的,那麼所有假設檢驗都是)。
然而,這種方法在兩個層面上存在問題:它假設數據來自具有已知屬性的已知分佈,並且它帶來了異常值被視為被某些神奇精靈走私到您的數據集中的數據點的風險。
在沒有神奇的數據仙子的情況下,所有的數據都來自你的實驗,因此實際上不可能有異常值,只是奇怪的結果。這些可能來自記錄錯誤(例如 4 美元的 400000 間臥室的房子),系統測量問題(如果對象太靠近邊界,圖像分析算法會報告巨大的區域)實驗問題(有時,晶體從溶液中沉澱出來,發出非常高的信號)或系統的特徵(一個細胞有時可以分成三部分而不是兩部分),但它們也可能是一種機制的結果,因為這種機制很少見,而且你正在做研究,這意味著您所做的一些事情根本不為人所知。
理想情況下,您花時間調查每個異常值,並且只有在您了解為什麼它不適合您的模型時才將其從數據集中刪除。這是耗時且主觀的,因為原因高度依賴於實驗,但替代方案更糟糕:如果您不了解異常值的來源,您可以選擇讓異常值“弄亂”您的結果,或者定義一些“數學上嚴謹”的方法來隱藏你缺乏理解。換句話說,通過追求“數學嚴謹性”,你在沒有顯著效果和不上天堂之間做出選擇。
編輯
如果你只有一個數字列表而不知道它們來自哪裡,你就無法判斷某個數據點是否是異常值,因為你總是可以假設所有數據都是異常值的分佈。