Regression

Anscombe-like 數據集具有相同的盒子和鬍鬚圖(平均值/標準/中值/MAD/最小值/最大值)

  • January 6, 2016

編輯:由於這個問題被誇大了,所以總結一下:找到具有相同混合統計數據(均值、中值、中值及其相關的離散度和回歸)的不同有意義且可解釋的數據集。

Anscombe 四重奏(請參閱高維數據可視化的目的?)是四重奏的著名示例-數據集,具有相同的邊際均值/標準差(在四個和四個, 分別) 和相同的OLS線性擬合、回歸和殘差平方和以及相關係數. 這類型統計(邊際和聯合)因此是相同的,而數據集則完全不同。

安斯科姆四重奏

編輯(來自 OP 評論)除了小數據集大小之外,讓我提出一些解釋。集合 1 可以看作是與分佈噪聲的標準線性(仿射,準確地說是仿射)關係。第 2 組顯示了一種清晰的關係,這可能是更高程度擬合的極致。第 3 組顯示了具有一個異常值的明顯線性統計依賴性。第 4 集更棘手:“預測”的嘗試從似乎注定要失敗。的設計可能會揭示值範圍不足的滯後現象,量化效應(可能被量化得太重),或者用戶切換了因變量和自變量。

所以摘要功能隱藏了非常不同的行為。Set 2 可以更好地處理多項式擬合。具有異常值抵抗方法的第 3 組 (或類似),以及第 4 組。人們可能想知道其他成本函數或差異指標是否可以解決,或者至少可以改善數據集區分。編輯(來自 OP 評論):博客文章Curious Regressions指出:

順便說一句,有人告訴我,弗蘭克·安斯科姆從未透露他是如何得出這些數據集的。如果您認為獲得所有匯總統計信息和回歸結果相同是一件容易的事,那就試試吧!

為類似於 Anscombe 的 quartet 目的而構建的數據集中,給出了幾個有趣的數據集,例如具有相同的基於分位數的直方圖。我沒有看到有意義的關係和混合統計數據的混合。

我的問題是:是否有雙變量(或三變量,以保持可視化)類似 Anscombe 的數據集,除了具有相同-類型統計

  • 他們的情節可以解釋為之間的關係和 ,就好像人們正在尋找測量之間的規律,
  • 他們擁有相同的(更強大)邊際屬性(絕對偏差的中位數和中位數相同),
  • 它們具有相同的邊界框:相同的最小值、最大值(因此-型中範圍和中跨度統計)。

這樣的數據集將在每個變量上具有相同的“盒須”圖摘要(具有最小值、最大值、中值、中值絕對偏差/MAD、平均值和標準差),並且在解釋上仍然會有很大不同。

如果數據集的一些最小絕對回歸相同(但也許我已經要求太多了),那將更加有趣。在談論穩健回歸與非穩健回歸時,它們可以作為一個警告,並幫助記住 Richard Hamming 的名言:

計算的目的是洞察力,而不是數字

編輯(來自 OP 評論)類似問題在使用相同統計但不同圖形生成數據、Sangit Chatterjee 和 Aykut Firata、美國統計學家、2007 或克隆數據:生成具有完全相同的多元線性回歸擬合的數據集,J。澳大利亞。N.-Z。統計。J. 2009。

在 Chatterjee (2007) 中,目的是生成小說對具有與初始數據集相同的均值和標準差的配對,同時最大化不同的“差異/不相似性”目標函數。由於這些函數可以是非凸的或不可微的,因此它們使用遺傳算法 (GA)。重要的步驟在於正交歸一化,這與保留均值和(單位)方差非常一致。論文的圖形(論文內容的一半)疊加了輸入和 GA 輸出數據。我的觀點是 GA 輸出失去了很多原始的直觀解釋。

從技術上講,中值和中值都沒有被保留,論文也沒有提到可以保留的重整化過程,和統計數據。

具體來說,我正在考慮創建兩個數據集的問題,每個數據集都暗示一種關係,但每個數據集的關係不同,但也大致相同:

  • 平均x
  • 平均*_*
  • 標準差×
  • 清和
  • 中位數x
  • 中位數
  • 最小x
  • 最小y
  • 最大x
  • 最大
  • 中位數與x中位數的絕對偏差
  • 中位數與y中位數的絕對偏差
  • yx的簡單線性回歸的係數

也許這是作弊,但使這個問題變得更容易的一種方法是使用一個數據集,其中最適合的線是x軸,, 和. 然後我們可以垂直翻轉數據以獲得明顯不同的分佈,但保留上述所有統計數據。

例如,考慮

它有一個向上的 V 形圖,如下所示:

圖形

代替和你會得到一個向下的 V,所有的統計數據都是一樣的,而且不僅僅是近似的,而是精確的。

引用自:https://stats.stackexchange.com/questions/189618

comments powered by Disqus