尋找最可能的排列

January 12, 2021

[希望這是正確的 Stackexchange 站點；靈感來自工作中看到的真實故事]

喬有一個測量儀器和 $ n $ 要測量的對象（例如，一個刻度和 $ n $ 權重）。他測量每一個，得到一個測量列表 $ X=\left[x_1 \dots,x_n\right] \in\mathbb R^n $ .

後來，他把物品寄給我。我想找到每個對象與其各自測量值之間的對應關係 $ x_i $ ，但喬忘記給物品編號或以任何能讓我找到哪個是 $ i $ -th 對象。因此，我用類似的儀器再次測量它們，獲得一個值列表 $ Y=\left[y_1 \dots,y_n\right] \in\mathbb R^n $ .

如果我們的儀器完全準確，那麼 $ Y $ 將是一個排列 $ X $ . 然而，我們的儀器並不完美。雖然它們都具有完美的真實性，但它們卻具有不完美的精確度。換句話說，如果我們多次測量同一個物體，重複測量的平均值趨於真實值，但結果有（已知的）標準偏差 $ \sigma_J $ 和 $ \sigma_I $ （分別用於 Joe 的樂器和我的樂器）。因此，在 $ X $ 通常將不同於中的值 $ Y $ .

在所有值彼此不同的極限情況下（即， $ \displaystyle\min_{x_i,x_j\in X}{|x_i-x_j|}\gg\sigma_J $ 同樣地 $ \displaystyle\min_{y_i,y_j\in Y}{|y_i-y_j|}\gg\sigma_I $ ），找到正確的排列（即，一個值之間的對應關係 $ X $ 和相應的值 $ Y $ ) 是微不足道的。但是，如果不是這種情況，如何從 $ X $ 到 $ Y $ 從現有數據？

額外問題：如果我不再假設完全正確，答案會改變嗎？是這樣嗎 $ \sigma_J=\sigma_I $ 更輕鬆？

編輯忘了問：我如何計算給定排列的概率，即它是空間中正確排列的概率 $ n! $ 可能的排列？對於最優排列的概率是否有一個簡單的（最好是封閉形式）表達式（這似乎是對應於對兩個向量進行排序的表達式，請參見下面的 whuber 的解決方案 - 至少如果錯誤是正態分佈的）？

EDIT 2 Per Aksakal 觀察（參見問題的評論）：假設所有真實重量都是嚴格不同的（對於我和喬來說，測量值可能是由於測量誤差而導致的非明顯值）。

假設每個儀器的測量誤差是獨立的且相同的正態分佈， 則解決方案是按排序順序匹配兩組測量值。 儘管這在直觀上很明顯（問題發布後不久發布的評論說明了此解決方案），但仍有待證明。

為此，讓排序後的第一組測量為 $ x_1\le x_2\le \cdots \le x_n $ 並讓第二組測量按排序順序為 $ y_1\le y_2\le \cdots \le y_n. $ 讓誤差分佈的均值和方差為零 $ \sigma^2 $ 對於 X 儀器和 $ \tau^2 $ 對於 Y 儀器。（我發現這個符號比問題中的下標更合適。）

為了找到最可能的排列，我們解決了最大似然問題。 它的參數是 (a) $ n $ 真實重量 $ \theta_i $ 對應於每個測量的對象 $ x_i $ (b) 排列 $ s $ 這使得 $ y_{s(i)} $ 物體的第二次測量 $ i. $ 只要可能性取決於 $ (\theta) $ 和 $ s, $ 這些觀察的可能性與指數成正比

$$ \mathcal{L}(\theta,s) = -\frac{1}{2}\sum_{i=1}^n \left(\frac{x_i-\theta_i}{\sigma}\right)^2 + \left(\frac{y_{s(i)}-\theta_i}{\tau}\right)^2. $$

對於任何給定的 $ s, $ 這個表達式（因此它的指數）通過採取逐項最大化

$$ \hat\theta_i = \frac{\tau^2 x_i + \sigma^2 y_{s(i)}}{\sigma^2 + \tau^2}. $$

對於這些最佳值 $ \theta, $ 的價值 $ -2\mathcal{L} $ （我們希望最小化）是

$$ -2\mathcal{L}(\hat\theta,s) = \frac{1}{\sigma^2+\tau^2}\sum_{i=1}^n \left(x_i - y_{s(i)}\right)^2. $$

當每個平方表達式展開時，我們得到 (a) $ x_i^2, $ (b) 總和 $ y_{s(i)}^2 $ （等於總和 $ y_i^2 $ 因為 $ s $ 是一個排列），和（c）交叉項，

$$ -2\sum_{i=1}^n x_i y_{s(i)}. $$

重排不等式表明這樣的產品總和最大化（從而最大化 $ \mathcal{L}(\hat\theta, s) $ ）當。。。的時候 $ y_{s(i)} $ 是按遞增順序排列的，QED。

該分析依賴於正態性假設。儘管可以放寬，但需要一些分佈假設，正如@fblundun 在對該問題的評論中敏銳地指出的那樣。

引用自：https://stats.stackexchange.com/questions/504636

comments powered by Disqus

尋找最可能的排列

相關問答

找到神經網絡的置信區間是否有意義？

為什麼 R 在廣義線性模型的上下文中將分佈族稱為“誤差分佈”？

沒有採樣的高維推理問題中的不確定性估計？

外行統計講座

二次加權 kappa

我可以使用自舉來估計 GAM 最大值的不確定性嗎？