Estimation

迭代重加權最小二乘的定義和收斂

  • September 13, 2012

我一直在使用迭代重加權最小二乘法 (IRLS) 來最小化以下形式的函數,

在哪裡是實例的數量,是我想要的穩健估計,並且是一個合適的魯棒懲罰函數。假設它現在是凸的(儘管不一定嚴格)並且是可微的。一個很好的例子是Huber 損失函數

我一直在做的是區分關於(和操縱)獲得,

並通過將其設置為 0 並在迭代時固定權重來迭代地解決此問題到(請注意,感知的奇點在真的是一個可移動的奇點’我可能會關心)。然後我得到,

我解決得到,.

我重複這個定點算法直到“收斂”。我會注意到,如果你到達一個固定點,你就是最優的,因為你的導數是 0 並且它是一個凸函數。

關於這個程序,我有兩個問題:

  1. 這是標準的 IRLS 算法嗎?在閱讀了有關該主題的幾篇論文之後(他們對 IRLS 是什麼非常分散和模糊),這是我能找到的算法最一致的定義。如果人們願意,我可以發布論文,但實際上我不想在這裡偏袒任何人。當然,您可以將此基本技術推廣到涉及向量的許多其他類型的問題的和參數以外的,提供參數是參數的仿射函數的範數。任何幫助或見解都會對此非常有用。
  2. 收斂似乎在實踐中起作用,但我對此有一些擔憂。我還沒有看到它的證據。經過一些簡單的 Matlab 模擬後,我發現它的一個迭代不是收縮映射(我生成了兩個隨機實例和計算並看到這偶爾會大於 1)。此外,由多次連續迭代定義的映射嚴格來說不是收縮映射,但 Lipschitz 常數高於 1 的概率變得非常低。那麼概率中是否存在收縮映射的概念?我用來證明這收斂的機器是什麼?它甚至收斂嗎?

任何指導都是有幫助的。

編輯:我喜歡 Daubechies 等人關於 IRLS 的稀疏恢復/壓縮感知論文。2008 年 arXiv 上的“用於稀疏恢復的迭代重新加權最小二乘最小化”。但它似乎主要關注非凸問題的權重。我的情況要簡單得多。

至於你的第一個問題,應該定義“標準”,或者承認“規範模型”已經逐漸建立起來。正如評論所指出的,至少您使用 IRWLS 的方式似乎是相當標準的。

至於你的第二個問題,“概率收縮映射”可以(但非正式地)與“遞歸隨機算法”的收斂聯繫起來。從我讀到的內容來看,有大量關於該主題的文獻,主要是在工程方面。在經濟學中,我們使用了其中的一小部分,尤其是 Lennart Ljung 的開創性著作——第一篇論文是Ljung(1977) ——它表明遞歸隨機算法的收斂(或不收斂)可以由穩定性(或not) 的相關常微分方程。

(在與評論中的 OP 進行富有成效的討論後,以下內容已重新設計)

收斂

我將使用Saber Elaydi“差分方程簡介”作為參考,2005 年,第 3 版。 分析以某些給定的數據樣本為條件,因此被視為固定的。

目標函數最小化的一階條件,被視為遞歸函數,

有一個固定點(目標函數的 argmin)。根據 Elaydi 的 Theorem 1.13 pp 27-28,如果關於的一階導數RHS 的,在固定點評估, 表示, 絕對值小於單位,則是漸近穩定的(AS)。通過定理 4.3 p.179,我們得到這也意味著不動點是一致的AS (UAS)。

“漸近穩定”意味著對於圍繞不動點的某些範圍的值,鄰域,不一定小,固定點是有吸引力的,所以如果算法給出這個鄰域的值,它會收斂。屬性是“一致的”,意味著這個鄰域的邊界,因此它的大小,與算法的初始值無關。不動點變成全局UAS,如果.

所以在我們的例子中,如果我們證明

我們已經證明了 UAS 屬性,但沒有全局收斂。然後我們可以嘗試確定吸引力鄰域實際上是整個擴展實數,或者,OP 使用的特定起始值,如評論中提到的(這是 IRLS 方法中的標準),即樣本均值的的,, 總是屬於不動點的吸引鄰域。

我們計算導數

然後

我們有

將其插入我們有

這是固定點成為 UAS 必須滿足的條件。因為在我們的例子中,懲罰函數是凸的,所以所涉及的總和是正的。所以條件相當於

如果是休伯特的損失函數,那麼我們有一個二次 () 和線性 () 分支,

因為我們不知道有多少’把我們放在二次分支中,有多少在線性中,我們分解條件作為 ()

成立。因此對於 Huber 損失函數,算法的不動點是一致漸近穩定的,與的。我們注意到一階導數的絕對值小於任何,而不僅僅是固定點。

我們現在應該做的是要么證明 UAS 屬性也是全局的,要么證明,如果然後屬於吸引力的鄰域.

引用自:https://stats.stackexchange.com/questions/36250

comments powered by Disqus