Hypothesis-Testing

通過方向自變量檢驗正態分佈 DV 的關聯?

  • March 22, 2016

是否存在關於正態分佈的因變量是否與方向分佈的變量相關聯的假設檢驗?

例如,如果一天中的時間是解釋變量(並假設像星期幾、一年中的月份等是不相關的)——這就是如何解釋晚上 11 點凌晨 1 點早 22 小時,以及 2在關聯測試中比凌晨 1 點幾個小時?我可以測試一天中的連續時間是否解釋了因變量,而不假設午夜 12:00 沒有在晚上 11:59 之後的一分鐘之後出現?

此測試是否也適用於離散方向(模塊化?)解釋變量?還是需要單獨測試?例如,如何測試因變量是否按月份解釋(假設一年中的一天和一年的季節,以及特定的年份或十年是不相關的)。絕對地處理一年中的月份會忽略排序。但是將一年中的月份視為標準序數變量(例如 Jan=1…Dec=12)忽略了 11 月後兩個月到來的 1 月。

總的來說,我認為從提出一個更廣泛和不同的問題開始,即從循環預測器可以預測多遠的響應,在科學和統計學上更有成效。我在這裡說circle而不是directional,部分原因是後者包括球形甚至更美妙的空間,這些空間不能全部包含在一個答案中;部分原因是您的示例,一天中的時間和一年中的時間,都是循環的。另一個主要的例子是指南針方向(與風、動物或人類運動、對齊等有關),它在許多循環問題中都有體現:事實上,對於一些科學家來說,這是一個更明顯的起點。

只要您可以擺脫它,在某種回歸模型中使用時間的正弦和余弦函數是一種簡單且易於實現的建模方法。它是許多生物和/或環境示例的第一個停靠點。(這兩種經常混為一談,因為表現出季節性的生物現象通常直接或間接地對氣候或天氣作出反應。)

具體來說,想像一下超過 24 小時或 12 個月的時間測量,例如

每個都描述一整天或一整年的一個週期。測量或計數響應與某個循環時間之間沒有關係的正式測試將成為標準測試,即在以正弦和余弦作為預測變量的廣義線性模型中,正弦和余弦的係數是否共同為零,適當的鏈接和家庭根據響應的性質選擇。

響應(正常或其他)的邊際分佈問題在這種方法中是次要的和/或由家庭選擇處理。

正弦和余弦的優點自然是它們是周期性的並且自動迴繞,因此每一天或每一年的開始和結束的值必然是相同的。邊界條件沒有問題,因為沒有邊界。

這種方法被稱為循環回歸、週期性回歸、三角回歸和傅里葉回歸。對於一篇介紹性教程評論,請參見此處

在實踐中,

  1. 每當我們預期季節性時,此類測試通常會在傳統水平上顯示出壓倒性的顯著結果。更有趣的問題是估計的精確季節性曲線,以及我們是否也需要一個更複雜的模型以及其他正弦項。
  2. 沒有什麼可以排除其他預測變量,在這種情況下,我們只需要包含其他預測變量的更全面的模型,比如季節性的正弦和余弦以及其他所有預測變量。
  3. 在某些時候,根據數據、問題以及研究人員的品味和經驗,強調問題的時間序列方面並建立具有明確時間依賴性的模型可能會變得更加自然。事實上,一些有統計頭腦的人會否認有任何其他方法可以接近它。

很容易被稱為趨勢(但並不總是那麼容易識別)屬於#2或#3,甚至兩者兼而有之。

許多關注市場季節性、國家和國際經濟或其他人類現象的經濟學家和其他社會科學家通常對每天或(更常見的)年度內更複雜的可變性的可能性印象深刻。通常,儘管並非總是如此,季節性是一種需要消除或調整的麻煩,與經常將季節性視為有趣和重要,甚至是項目的主要焦點的生物和環境科學家相反。也就是說,經濟學家和其他人也經常採用回歸類型的方法,但彈藥是一組指標(虛擬)變量,最簡單的每個月或一年中每個季度的變量。這可能是一種嘗試捕捉命名假期、假期期、學年副作用等的影響以及氣候或天氣來源的影響或衝擊的實用方法。注意到這些差異後,上述大多數評論也適用於經濟學和社會科學。

流行病學家和醫學統計學家對發病率、死亡率、住院人數、門診就診等方面的變化的態度和方法往往介於這兩個極端之間。

在我看來,將幾天或幾年分成兩半進行比較通常是武斷的、人為的,充其量是尷尬的。它也忽略了數據中通常存在的那種平滑結構。

編輯到目前為止,該帳戶還沒有解決離散時間和連續時間之間的區別,但根據我的經驗,我並不認為它在實踐中很重要。

但準確的選擇取決於數據如何到達以及變化的模式。

如果數據是季度數據和人類數據,我會傾向於使用指標變量(例如,第 3 季度和第 4 季度通常不同)。如果按月和人工,則選擇不明確,但您必須努力向大多數經濟學家出售正弦和余弦。如果每月或更精細以及生物或環境,肯定是正弦和余弦。

編輯 2 關於三角回歸的更多細節

三角回歸的一個獨特細節(如果您願意,可以以任何其他方式命名)是幾乎總是正弦和余弦項最好成對呈現給模型。我們首先縮放一天中的時間、一年中的時間或指南針方向,以便將其表示為圓上的角度 以弧度為單位,因此在區間上. 然後我們使用盡可能多的對正如模型中需要的那樣。(在循環統計中,三角函數約定往往勝過統計約定,因此希臘符號如用於變量和參數。)

如果我們提供一對預測變量,例如到一個類似回歸的模型,然後我們有係數估計,比如說,對於模型中的項,即. 這是一種擬合週期信號的相位和幅度的方法。否則,一個函數,如可以改寫為

但和在模型擬合中估計代表相位。這樣我們就避免了非線性估計問題。

如果我們使用為圓形變化建模,然後該曲線的最大值和最小值自動相隔半個圓。這通常是生物或環境變化的一個很好的近似值,但相反,我們很可能需要更多的術語來特別捕捉經濟季節性。這可能是使用指標變量的一個很好的理由,這會立即導致對係數的簡單解釋。

引用自:https://stats.stackexchange.com/questions/203103

comments powered by Disqus