R

當比例是自變量時,轉換比例的最合適方法是什麼?

  • February 12, 2016

我以為我理解了這個問題,但現在我不太確定,我想在繼續之前與其他人核實一下。

我有兩個變量,XYY是一個比率,它不受 0 和 1 的限制,一般呈正態分佈。X是一個比例,它以 0 和 1 為界(從 0.0 到 0.6)。當我對 進行線性回歸時Y ~ X,我發現它XY顯著線性相關的。到現在為止還挺好。

但後來我進一步調查,我開始認為XY的關係可能​​比線性更曲線。對我來說,它看起來像 and 的關係,X可能Y更接近Y ~ log(X), Y ~ sqrt(X), or Y ~ X + X^2, 或類似的東西。我有經驗理由假設這種關係可能是曲線的,但沒有理由假設任何一種非線性關係都可能比其他任何一種關係都好。

我從這裡有幾個相關的問題。首先,我的X變量有四個值:0、0.2、0.4 和 0.6。當我對這些數據進行對數或平方根轉換時,這些值之間的間距會發生扭曲,因此 0 值與所有其他值的距離要遠得多。由於缺乏更好的提問方式,這是我想要的嗎?我認為不是,因為根據我接受的失真程度,我會得到非常不同的結果。如果這不是我想要的,我應該如何避免它?

其次,為了對這些數據進行對數轉換,我必須為每個X值添加一些數量,因為你不能取 0 的對數。當我添加一個非常小的數量時,比如 0.001,我會得到非常嚴重的失真。當我添加更大的數量時,比如 1,我得到的失真很小。是否有“正確”的數量要添加到X變量中?或者向變量添加任何東西X來代替選擇替代變換(例如立方根)或模型(例如邏輯回歸)是否不合適?

在這個問題上我能找到的一點點讓我覺得我應該小心行事。對於其他 R 用戶,此代碼將創建一些與我的結構相似的數據。

X = rep(c(0, 0.2,0.4,0.6), each = 20)
Y1 = runif(20, 6, 10)
Y2 = runif(20, 6, 9.5)
Y3 = runif(20, 6, 9)
Y4 = runif(20, 6, 8.5)
Y = c(Y4, Y3, Y2, Y1)
plot(Y~X)

關於轉換比例的主要問題(我將使用作為符號,與您的符號類似但不完全相同)允許一些一般性評論。

在接下來的內容中,我認為轉換作為協變量(預測變量、自變量)的比例的主要動機是改進對關係線性的近似,或者如果在探索模式下以圖形方式更清楚地了解形狀或確實存在任何關係。像往常一樣,協變量是否(例如)近似正態分佈並不重要。(比例與具有值的指標變量的關係不太遠它永遠不可能正態分佈,比例也必然是有界的。)

如果比例可以達到精確的零或精確的零,則必須為這些限制定義轉換,這清楚地排除了, 作為是不確定的。除此之外,理想情況下,特定形狀還需要一些實質性(科學、實際)證明,但缺乏從一些簡單分析得出的結論:對價值高度敏感,正如你所暗示的。

以對數為底更容易看出這一點,所以暫時讓我們考慮以便地圖到.

因此地圖到和大概, 儘管地圖到和只超過一點點.

相似地,不管是什麼意思映射到相同的限制,而越來越好的近似映射到.

所以下界隨著越來越小的附加常數向外伸展,而上限保持不變。因此,這種轉換可以極大地拉伸範圍的下半部分,甚至從非常小的值處或附近創建異常值.

簡而言之,提出這個建議的人大概想像(現在到你喜歡的任何基地)應該表現得非常相似對於小, 這對於大,但對於小則完全不正確. 否則,越陡峭的坡度作為一個函數作為可以在這裡咬得很厲害。

似乎更可取的是關注在附近逐漸變化的轉換並且(出於其他但相關的原因)也接近.

平方根和立方根和其他冪被完美地定義為當需要將值拉伸到附近時,通常會有所幫助. 但這些轉變是眾所周知的,我在這裡更多地關注另一種可能性。

JW Tukey(探索性數據分析,Reading,MA:Addison-Wesley,1977)推廣的折疊冪族是一種可能性,並且是 . 雖然沒有強迫選擇允許簡單的喚起名字的權力,但選擇(折疊根)和(折疊立方根)似乎是這個家族中最有用的成員。

家庭類似於熟悉的logit變換事實上,logit 是一個極限情況,因為傾向於. 一個關鍵的區別是折疊冪定義為和.

折疊冪,包括現在的 logit,處理附近的極端情況和傾斜對稱並繪製為反 sigmoid 曲線(下圖)混合加法和乘法行為,與潛在現象的常見定性(如果不是物理、生物、經濟等)事實相呼應

  • 與說的區別到可能是一個“大問題”(當然,只改變,但它也加倍)
  • 與說的區別到也可以是一個“大問題”(當然,只改變,但“沒有分數”也減半)
  • 與說的區別到可以是“較小的交易”(當然,改變也是,但比例變化要小得多)

當想像一些潛在的動態時,這可能是最容易想到的:越來越多的有識字的人需要大力推動才能開始,在接近普遍識字的漸近線時加速然後減速。因此,時間曲線可以類似於增加或減少的邏輯。事實是和或多或少地接近比例自然是 logit 和比例響應的類似模型的幾個動機之一;雖然我們在這裡專注於比例協變量,但 sigmoid 在這裡也很有用。

諸如折疊根或立方根之類的折疊冪不像 logit 那樣強 sigmoid,但這裡的一個有價值的優點是它們可以直接且輕鬆地定義,而無需為.

轉向您的虛假但看似真實的數據集(我將其導入到我自己喜歡的軟件中,但任何體面的分析都很簡單),事實證明這些轉換都沒有真正有幫助。但是繪製數據圖給出了一個明確的警告,即使是一個非常強大的轉換,通過直接繪製它也可以看出。

我想提出的兩個要點是

  1. 經常被建議,並且通常被認為是無害的,是一種危險的轉換,除非被理解並且通常不合適,只要它大大擴展了分佈(除非這確實是所需的行為)。
  2. 對於您的示例數據,我嘗試的任何轉換似乎都沒有幫助。

同時,其他的可能性還遠未窮盡。(值得注意的是,我沒有嘗試平方根或立方根,並強調在許多其他問題中,這些可能是明顯而嚴肅的候選者。)

第一組圖簡單地顯示了一些可以同時實現的比例的候選轉換和. (我使用自然對數,但形狀不取決於選擇的底數)。

在此處輸入圖像描述

第二組圖表顯示對示例數據沒有太大幫助的轉換。(為了比較,對原始數據的簡單回歸產生%,均方根誤差.)

在此處輸入圖像描述

小謎題。你的據說是一個比例,但它的值在到.

編輯:原始數據可以在這裡繪製,因為 OP 簡要發布了數據,但後來刪除了它們。

這裡使用折疊冪的其他線程包括

轉換比例數據:當 arcsin 平方根不夠時

回歸:具有低 R 平方和高 p 值的散點圖

繪製高度傾斜的數據集

引用自:https://stats.stackexchange.com/questions/195293

comments powered by Disqus