Anscombe-like 數據集具有相同的盒子和鬍鬚圖（平均值/標準/中值/MAD/最小值/最大值）

January 6, 2016

編輯：由於這個問題被誇大了，所以總結一下：找到具有相同混合統計數據（均值、中值、中值及其相關的離散度和回歸）的不同有意義且可解釋的數據集。

Anscombe 四重奏（請參閱高維數據可視化的目的？）是四重奏的著名示例-數據集，具有相同的邊際均值/標準差（在四個和四個, 分別) 和相同的OLS線性擬合、回歸和殘差平方和以及相關係數. 這類型統計（邊際和聯合）因此是相同的，而數據集則完全不同。

編輯（來自 OP 評論）除了小數據集大小之外，讓我提出一些解釋。集合 1 可以看作是與分佈噪聲的標準線性（仿射，準確地說是仿射）關係。第 2 組顯示了一種清晰的關係，這可能是更高程度擬合的極致。第 3 組顯示了具有一個異常值的明顯線性統計依賴性。第 4 集更棘手：“預測”的嘗試從似乎注定要失敗。的設計可能會揭示值範圍不足的滯後現象，量化效應（可能被量化得太重），或者用戶切換了因變量和自變量。

所以摘要功能隱藏了非常不同的行為。Set 2 可以更好地處理多項式擬合。具有異常值抵抗方法的第 3 組 (或類似），以及第 4 組。人們可能想知道其他成本函數或差異指標是否可以解決，或者至少可以改善數據集區分。編輯（來自 OP 評論）：博客文章Curious Regressions指出：

順便說一句，有人告訴我，弗蘭克·安斯科姆從未透露他是如何得出這些數據集的。如果您認為獲得所有匯總統計信息和回歸結果相同是一件容易的事，那就試試吧！

在為類似於 Anscombe 的 quartet 目的而構建的數據集中，給出了幾個有趣的數據集，例如具有相同的基於分位數的直方圖。我沒有看到有意義的關係和混合統計數據的混合。

我的問題是：是否有雙變量（或三變量，以保持可視化）類似 Anscombe 的數據集，除了具有相同-類型統計：

他們的情節可以解釋為之間的關係和，就好像人們正在尋找測量之間的規律，

他們擁有相同的（更強大）邊際屬性（絕對偏差的中位數和中位數相同），

它們具有相同的邊界框：相同的最小值、最大值（因此-型中範圍和中跨度統計）。

這樣的數據集將在每個變量上具有相同的“盒須”圖摘要（具有最小值、最大值、中值、中值絕對偏差/MAD、平均值和標準差），並且在解釋上仍然會有很大不同。

如果數據集的一些最小絕對回歸相同（但也許我已經要求太多了），那將更加有趣。在談論穩健回歸與非穩健回歸時，它們可以作為一個警告，並幫助記住 Richard Hamming 的名言：

計算的目的是洞察力，而不是數字

編輯（來自 OP 評論）類似問題在使用相同統計但不同圖形生成數據、Sangit Chatterjee 和 Aykut Firata、美國統計學家、2007 或克隆數據：生成具有完全相同的多元線性回歸擬合的數據集，J。澳大利亞。N.-Z。統計。J. 2009。

在 Chatterjee (2007) 中，目的是生成小說對具有與初始數據集相同的均值和標準差的配對，同時最大化不同的“差異/不相似性”目標函數。由於這些函數可以是非凸的或不可微的，因此它們使用遺傳算法 (GA)。重要的步驟在於正交歸一化，這與保留均值和（單位）方差非常一致。論文的圖形（論文內容的一半）疊加了輸入和 GA 輸出數據。我的觀點是 GA 輸出失去了很多原始的直觀解釋。

從技術上講，中值和中值都沒有被保留，論文也沒有提到可以保留的重整化過程,和統計數據。

具體來說，我正在考慮創建兩個數據集的問題，每個數據集都暗示一種關係，但每個數據集的關係不同，但也大致相同：

平均x

平均*_*

標準差×

標清和

中位數x

中位數和

最小x

最小y

最大x

最大和

中位數與x中位數的絕對偏差

中位數與y中位數的絕對偏差

y對x的簡單線性回歸的係數

也許這是作弊，但使這個問題變得更容易的一種方法是使用一個數據集，其中最適合的線是x軸，，和. 然後我們可以垂直翻轉數據以獲得明顯不同的分佈，但保留上述所有統計數據。

例如，考慮

它有一個向上的 V 形圖，如下所示：

代替和你會得到一個向下的 V，所有的統計數據都是一樣的，而且不僅僅是近似的，而是精確的。

引用自：https://stats.stackexchange.com/questions/189618

comments powered by Disqus

Anscombe-like 數據集具有相同的盒子和鬍鬚圖（平均值/標準/中值/MAD/最小值/最大值）

相關問答

說黎曼和是積分的無偏估計是錯誤的嗎？

是1𝑛+1∑𝑛𝑖=1(𝑋𝑖-𝑋⎯⎯⎯⎯⎯)21n+1∑一世=1n(X一世-X¯)2frac1{n+1}sum_{i=1}^n(X_i-overline X)^2一個可接受的估計量𝜎2σ2sigma^2?

為什麼這個估計器不是無偏的？

為什麼我們說貝葉斯統計適合一次性事件的概率？

當我們計算均值和方差時，我們是否假設數據是正態分佈的？

使用跨越負標度的標準偏差構建誤差線，而變量本身不應該是負數，這是不是很糟糕？