轉換數據：所有變量還是非正常變量？

June 16, 2015

在 Andy Field 的 Discovering Statistics Using SPSS 中，他指出所有變量都必須進行轉換。

然而，在出版物中：“使用地理加權回歸 I：模型設計和評估檢查土地利用和水質之間的空間變化關係”，他們明確指出只有非正態變量被轉換。

這個分析具體嗎？例如，在比較均值時，將日誌與原始數據進行比較顯然會產生顯著差異，而當使用回歸之類的方法來研究變量之間的關係時，它就變得不那麼重要了。

編輯：這是“數據轉換”部分的全文頁面：

這是論文的鏈接： http ://www.sciencedirect.com/science/article/pii/S0048969708009121

您引用了幾條建議，毫無疑問，所有這些建議都是有幫助的，但很難從中找到很多優點。

在每種情況下，我都完全依賴您引用的摘要。在作者的辯護中，我想相信他們在周圍或其他材料中添加了適當的資格。（通常名稱、日期、標題、（出版商、地點）或（期刊標題、卷、頁）格式的完整參考書目將增強問題。）

場地

該建議旨在提供幫助，但充其量只是過於簡單化了。菲爾德的建議似乎是普遍的。例如，對 Levene 檢驗的引用意味著對方差分析的一些臨時關注。

例如，假設我有一個預測變量，應該記錄各種理由，另一個指標變量是. 後者 (a) 不能被記錄 (b) 不應該被記錄。（實際上，將指示變量轉換為任何兩個不同的值都沒有重要影響。）

更一般地說，在許多領域中，通常情況下，一些預測變量應該被轉換，其餘的保持原樣，這是很常見的。

確實，在論文或論文中遇到對不同預測變量應用不同的轉換的混合（包括作為特殊情況、身份轉換或保持原樣）通常是讀者關心的問題。混合是經過深思熟慮的選擇，還是任意和反复無常的？

此外，在一系列研究中，方法的一致性（總是對響應應用對數，或者從不這樣做）確實有助於比較結果，而不同的方法使其變得更加困難。

但這並不是說永遠不可能有混合轉型的理由。

我認為您引用的大部分部分與您以黃色突出顯示的關鍵建議沒有太大關係。這本身就是一個令人擔憂的問題：宣布一個絕對規則然後不真正解釋它是一件奇怪的事情。相反，禁令“記住”表明菲爾的理由是在本書的前面提供的。

匿名論文

這裡的上下文是回歸模型。通常，談論 OLS 奇怪地強調估計方法而不是模型，但我們可以理解其意圖。GWR 我解釋為地理加權回歸。

這裡的論點是您應該轉換非正態預測變量並保持其他變量不變。同樣，這提出了一個問題，即您可以和應該如何處理指標變量，這些指標變量不能是正態分佈的（如上所述，可以通過指出在這種情況下的非正態性不是問題來回答）。但是該禁令反過來暗示了預測變量的非正態性才是問題所在。不是這樣；假設預測變量的邊際分佈不是回歸建模的一部分。

在實踐中，如果您使預測變量更接近正態，那麼您通常會應用轉換來生成函數形式更接近於數據，儘管在許多文本中都非常強調錯誤結構，但我會斷言這是轉換的主要原因。換句話說，如果您在轉換後的空間中更接近線性，那麼記錄預測變量以使其更接近正態性可能會出於錯誤的原因做正確的事情。

在這個論壇上有很多關於轉換的非常好的建議，我專注於討論你引用的內容。

PS您添加了一條以“例如，在比較均值時，將日誌與原始數據進行比較顯然會產生顯著差異”的語句。我不清楚您的想法，但是將一組的值與另一組的值的對數進行比較是荒謬的。我完全不明白你的其餘陳述。

引用自：https://stats.stackexchange.com/questions/157217

comments powered by Disqus

轉換數據：所有變量還是非正常變量？

相關問答

指數分佈的隨機變量的指數分佈？

為什麼對數概率有用？

Box-Cox 變換背後的直覺

從 log y 預測 y 作為因變量

熵如何取決於位置和規模？

為什麼 Permuted MNIST 適合評估持續學習模型？