Anscombe-like 數據集具有相同的盒子和鬍鬚圖(平均值/標準/中值/MAD/最小值/最大值)
編輯:由於這個問題被誇大了,所以總結一下:找到具有相同混合統計數據(均值、中值、中值及其相關的離散度和回歸)的不同有意義且可解釋的數據集。
Anscombe 四重奏(請參閱高維數據可視化的目的?)是四重奏的著名示例-數據集,具有相同的邊際均值/標準差(在四個和四個, 分別) 和相同的OLS線性擬合、回歸和殘差平方和以及相關係數. 這類型統計(邊際和聯合)因此是相同的,而數據集則完全不同。
編輯(來自 OP 評論)除了小數據集大小之外,讓我提出一些解釋。集合 1 可以看作是與分佈噪聲的標準線性(仿射,準確地說是仿射)關係。第 2 組顯示了一種清晰的關係,這可能是更高程度擬合的極致。第 3 組顯示了具有一個異常值的明顯線性統計依賴性。第 4 集更棘手:“預測”的嘗試從似乎注定要失敗。的設計可能會揭示值範圍不足的滯後現象,量化效應(可能被量化得太重),或者用戶切換了因變量和自變量。
所以摘要功能隱藏了非常不同的行為。Set 2 可以更好地處理多項式擬合。具有異常值抵抗方法的第 3 組 (或類似),以及第 4 組。人們可能想知道其他成本函數或差異指標是否可以解決,或者至少可以改善數據集區分。編輯(來自 OP 評論):博客文章Curious Regressions指出:
順便說一句,有人告訴我,弗蘭克·安斯科姆從未透露他是如何得出這些數據集的。如果您認為獲得所有匯總統計信息和回歸結果相同是一件容易的事,那就試試吧!
在為類似於 Anscombe 的 quartet 目的而構建的數據集中,給出了幾個有趣的數據集,例如具有相同的基於分位數的直方圖。我沒有看到有意義的關係和混合統計數據的混合。
我的問題是:是否有雙變量(或三變量,以保持可視化)類似 Anscombe 的數據集,除了具有相同-類型統計:
- 他們的情節可以解釋為之間的關係和 ,就好像人們正在尋找測量之間的規律,
- 他們擁有相同的(更強大)邊際屬性(絕對偏差的中位數和中位數相同),
- 它們具有相同的邊界框:相同的最小值、最大值(因此-型中範圍和中跨度統計)。
這樣的數據集將在每個變量上具有相同的“盒須”圖摘要(具有最小值、最大值、中值、中值絕對偏差/MAD、平均值和標準差),並且在解釋上仍然會有很大不同。
如果數據集的一些最小絕對回歸相同(但也許我已經要求太多了),那將更加有趣。在談論穩健回歸與非穩健回歸時,它們可以作為一個警告,並幫助記住 Richard Hamming 的名言:
計算的目的是洞察力,而不是數字
編輯(來自 OP 評論)類似問題在使用相同統計但不同圖形生成數據、Sangit Chatterjee 和 Aykut Firata、美國統計學家、2007 或克隆數據:生成具有完全相同的多元線性回歸擬合的數據集,J。澳大利亞。N.-Z。統計。J. 2009。
在 Chatterjee (2007) 中,目的是生成小說對具有與初始數據集相同的均值和標準差的配對,同時最大化不同的“差異/不相似性”目標函數。由於這些函數可以是非凸的或不可微的,因此它們使用遺傳算法 (GA)。重要的步驟在於正交歸一化,這與保留均值和(單位)方差非常一致。論文的圖形(論文內容的一半)疊加了輸入和 GA 輸出數據。我的觀點是 GA 輸出失去了很多原始的直觀解釋。
從技術上講,中值和中值都沒有被保留,論文也沒有提到可以保留的重整化過程,和統計數據。
具體來說,我正在考慮創建兩個數據集的問題,每個數據集都暗示一種關係,但每個數據集的關係不同,但也大致相同:
- 平均x
- 平均*_*
- 標準差×
- 標清和
- 中位數x
- 中位數和
- 最小x
- 最小y
- 最大x
- 最大和
- 中位數與x中位數的絕對偏差
- 中位數與y中位數的絕對偏差
- y對x的簡單線性回歸的係數
也許這是作弊,但使這個問題變得更容易的一種方法是使用一個數據集,其中最適合的線是x軸,, 和. 然後我們可以垂直翻轉數據以獲得明顯不同的分佈,但保留上述所有統計數據。
例如,考慮
它有一個向上的 V 形圖,如下所示:
代替和你會得到一個向下的 V,所有的統計數據都是一樣的,而且不僅僅是近似的,而是精確的。