序數和連續隨機變量之間關聯強度的非參數測量

June 13, 2014

當我收到問題時，我將問題拋在這裡。

我有兩個隨機變量。其中一個是連續的(Y)，另一個是離散的並將作為序數(X) 逼近。我將連同查詢一起收到的情節放在下方。

向我發送數據的人想要**測量 X 和 Y 之間關聯的強度。**我正在尋找不會預先加載關於什麼過程生成數據的假設的想法。請注意，這不是要找到一種非參數化的方法來測試關係的強度（如在 bootstrap 中），而是要找到一種非參數化的方法來測量它。

另一方面，效率不是問題，因為有很多數據點。

根據定義，序數刻度是其中槽口之間的真實距離1 2 3 4未知的量規。就像您在毒品/酒精下看到統治者一樣。真實距離可以是任意的。它可能是1 2 3 4或1 2 3 4或其他。我們無法計算統計數據 - 例如相關性 - 除非確定距離並修復它們。

一種推理如下。由於我們的測量尺度，儀表，以一種未知的單調方式扭曲，我們不能相信數據值。只有它們的數量級是值得信賴的。沒有進一步的大腦控制，宣布秩序為價值。因此，我們將觀察到的分佈替換為均勻分佈，即秩。之後，可以計算關聯繫數，比如 Pearson. 那將是斯皮爾曼，據我們所知。皮爾遜衡量線性關聯的強度。對變量進行排名是一種將單調關係的部分線性化的技巧，該部分歸因於最初的分佈不均勻。因此，斯皮爾曼是這種關係中這種單調性的度量，它可以在均勻邊緣分佈的作用下轉化為線性。在 OP 問題中，兩個變量中只有一個是有序的（第二個是連續的）。因此，通常不需要對這兩個變量進行排名。可以只對序數排序，然後計算.

另一種方法，替代排名（統一），可能是序數變量的最佳縮放。最佳縮放是一個迭代過程，其目標是在序數尺度上找到這樣的距離 - 即找到它的這種單調變換 - 以便線性變量之間盡可能的最大化。排名方法基於“真實比例對應於具有均勻分佈的數據”的前提，而最佳縮放方法基於“真實比例對應於具有最大線性的數據”的前提“。可以在分類回歸 (CATREG) 中進行最佳縮放。但是，分類回歸要求其他輸入變量是離散的（不一定是有序的），因此如果它是連續的，具有許多唯一值，則必須由您任意分箱.

還有其他方法。但無論如何，我們單調地變換序數尺度“以便……”（一些假設或某個目標），因為序數尺度以未知的方式扭曲了我們。從根本上來說，另一個決定是首先“清醒”並決定它要么不失真（即它是間隔），要么以已知的方式失真（非等間隔），或者是名義上的。

一些非對稱方法可能包括序數變量與另一個（間隔/連續）變量的序數回歸。或按序數對後者進行線性回歸，其中預測變量被視為多項式對比（即，輸入為b1X + b2X^2 + b3X^3,...）。這些方法的弱點是它們是不對稱的：一個變量是依賴的，另一個是獨立的。

引用自：https://stats.stackexchange.com/questions/103253

comments powered by Disqus

序數和連續隨機變量之間關聯強度的非參數測量

相關問答

我可以對非常小的樣本使用 Mann-Whitney U 檢驗嗎？

為什麼參數測試比非參數測試更強大？

樣條插值是否被視為非參數模型？

為什麼樂透中球上的數字是分類名義而不是分類序數？

如果’B更有可能給出A'，那麼’A更有可能給出B'

Wilcoxon 符號秩對稱假設