序數和連續隨機變量之間關聯強度的非參數測量
當我收到問題時,我將問題拋在這裡。
我有兩個隨機變量。其中一個是連續的(Y),另一個是離散的並將作為序數(X) 逼近。我將連同查詢一起收到的情節放在下方。
向我發送數據的人想要**測量 X 和 Y 之間關聯的強度。**我正在尋找不會預先加載關於什麼過程生成數據的假設的想法。請注意,這不是要找到一種非參數化的方法來測試關係的強度(如在 bootstrap 中),而是要找到一種非參數化的方法來測量它。
另一方面,效率不是問題,因為有很多數據點。
根據定義,序數刻度是其中槽口之間的真實距離
1 2 3 4
未知的量規。就像您在毒品/酒精下看到統治者一樣。真實距離可以是任意的。它可能是1 2 3 4
或1 2 3 4
或其他。我們無法計算統計數據 - 例如相關性 - 除非確定距離並修復它們。一種推理如下。由於我們的測量尺度,儀表,以一種未知的單調方式扭曲,我們不能相信數據值。只有它們的數量級是值得信賴的。沒有進一步的大腦控制,宣布秩序為價值。因此,我們將觀察到的分佈替換為均勻分佈,即秩。之後,可以計算關聯繫數,比如 Pearson. 那將是斯皮爾曼, 據我們所知。皮爾遜衡量線性關聯的強度。對變量進行排名是一種將單調關係的部分線性化的技巧,該部分歸因於最初的分佈不均勻。因此,斯皮爾曼是這種關係中這種單調性的度量,它可以在均勻邊緣分佈的作用下轉化為線性。在 OP 問題中,兩個變量中只有一個是有序的(第二個是連續的)。因此,通常不需要對這兩個變量進行排名。可以只對序數排序,然後計算.
另一種方法,替代排名(統一),可能是序數變量的最佳縮放。最佳縮放是一個迭代過程,其目標是在序數尺度上找到這樣的距離 - 即找到它的這種單調變換 - 以便線性變量之間盡可能的最大化。排名方法基於“真實比例對應於具有均勻分佈的數據”的前提,而最佳縮放方法基於“真實比例對應於具有最大線性的數據”的前提“。可以在分類回歸 (CATREG) 中進行最佳縮放。但是,分類回歸要求其他輸入變量是離散的(不一定是有序的),因此如果它是連續的,具有許多唯一值,則必須由您任意分箱.
還有其他方法。但無論如何,我們單調地變換序數尺度“以便……”(一些假設或某個目標),因為序數尺度以未知的方式扭曲了我們。從根本上來說,另一個決定是首先“清醒”並決定它要么不失真(即它是間隔),要么以已知的方式失真(非等間隔),或者是名義上的。
一些非對稱方法可能包括序數變量與另一個(間隔/連續)變量的序數回歸。或按序數對後者進行線性回歸,其中預測變量被視為多項式對比(即,輸入為
b1X + b2X^2 + b3X^3,...
)。這些方法的弱點是它們是不對稱的:一個變量是依賴的,另一個是獨立的。