神經網絡模型的可識別性

November 30, 2017

大多數神經網絡拓撲/架構是不可識別的，這很直觀。但是該領域有哪些眾所周知的成果呢？是否存在允許/阻止可識別性的簡單條件？例如，

所有具有非線性激活函數和多個隱藏層的網絡都無法識別

所有具有兩個以上隱藏單元的網絡都無法識別

或諸如此類的事情。注意：我並不是說這些條件會阻止可識別性（儘管它們對我來說似乎是不錯的候選者）。它們只是我所說的“簡單條件”的例子。

如果有助於縮小問題範圍，請隨意考慮僅前饋和循環架構。如果這還不夠，我會對一個涵蓋 MLP、CNN 和 RNN 中至少一種架構的答案感到滿意。我在網上快速瀏覽了一下，但看起來我能找到的唯一討論是在 Reddit 上。來吧，伙計們，我們可以比 Reddit 做得更好 ;-)

線性、單層 FFN 未識別

該問題已被編輯以排除這種情況；我在這裡保留它，因為理解線性情況是感興趣現象的一個簡單例子。

考慮一個具有 1 個隱藏層和所有線性激活的前饋神經網絡。該任務是一個簡單的 OLS 回歸任務。

所以我們有模型目標是

對於一些選擇適當的形狀。是輸入到隱藏的權重，並且是隱藏到輸出的權重。

顯然，權重矩陣的元素通常是不可識別的，因為存在任意數量的可能配置，其中兩對矩陣有相同的產品。

非線性、單層 FFN仍然無法識別

從線性單層 FFN 構建，我們還可以觀察到非線性單層 FFN 中的不可識別性。

例如，添加一個任何線性激活的非線性都會創建一個非線性網絡。這個網絡仍然沒有被識別，因為對於任何損失值，一個層的兩個（或多個）神經元的權重的排列，以及它們在下一層的相應神經元的權重，同樣會導致相同的損失值。

一般來說，神經網絡是不可識別的

我們可以使用相同的推理來證明神經網絡在除非常特殊的參數化之外的所有參數中都是不可識別的。

例如，卷積濾波器必須以任何特定順序出現並沒有特別的原因。卷積濾波器也不需要具有任何特定的符號，因為隨後的權重可能具有相反的符號來“反轉”該選擇。

同樣，可以置換 RNN 中的單元以獲得相同的損失。

另請參閱：我們可以使用 MLE 來估計神經網絡權重嗎？

引用自：https://stats.stackexchange.com/questions/316523

神經網絡模型的可識別性

線性、單層 FFN 未識別

非線性、單層 FFN仍然無法識別

一般來說，神經網絡是不可識別的

相關問答

時刻和=X1+X2X3+X4X5X6+⋯和=X1+X2X3+X4X5X6+⋯Y=X_1 + X_2 X_3 + X_4 X_5 X_6 +cdots

微調 CNN 時應該如何標準化輸入？

為什麼 CNN 以 FC 層結束？

在 CNN 中，我們是否在每個卷積層都學習了內核值？

池化和子採樣之間的區別

卷積層中的多個過濾器不會在訓練期間學習相同的參數嗎？