Logistic回歸的成本函數如何區分
我正在 Coursera 上學習斯坦福機器學習課程。
我嘗試獲得成本函數的導數,但我得到了完全不同的東西。
導數是怎麼得到的?
中間步驟有哪些?
改編自課程中的筆記,除了Andrew Ng 的 Coursera 機器學習課程頁面中學生貢獻的筆記之外,我看不到這些筆記可用(包括此推導)。
接下來,上標 (i) 表示單個測量或訓練“示例”。
∂J(θ)∂θj=∂∂θj,−1m∑mi=1[y(i)log(hθ(x(i)))+(1−y(i))log(1−hθ(x(i)))]\[2ex]=linearity,−1m,∑mi=1[y(i)∂∂θjlog(hθ(x(i)))+(1−y(i))∂∂θjlog(1−hθ(x(i)))]\[2ex]=chain rule,−1m,∑mi=1[y(i)∂∂θjhθ(x(i))hθ(x(i))+(1−y(i))∂∂θj(1−hθ(x(i)))1−hθ(x(i))]\[2ex]=hθ(x)=σ(θ⊤x),−1m,∑mi=1[y(i)∂∂θjσ(θ⊤x(i))hθ(x(i))+(1−y(i))∂∂θj(1−σ(θ⊤x(i)))1−hθ(x(i))]\[2ex]=σ′−1m,∑mi=1[y(i),σ(θ⊤x(i))(1−σ(θ⊤x(i)))∂∂θj(θ⊤x(i))hθ(x(i))−(1−y(i)),σ(θ⊤x(i))(1−σ(θ⊤x(i)))∂∂θj(θ⊤x(i))1−hθ(x(i))]\[2ex]=σ(θ⊤x)=hθ(x),−1m,∑mi=1[y(i)hθ(x(i))(1−hθ(x(i)))∂∂θj(θ⊤x(i))hθ(x(i))−(1−y(i))hθ(x(i))(1−hθ(x(i)))∂∂θj(θ⊤x(i))1−hθ(x(i))]\[2ex]=∂∂θj(θ⊤x(i))=x(i)j,−1m,∑mi=1[y(i)(1−hθ(x(i)))x(i)j−(1−yi),hθ(x(i))x(i)j]\[2ex]=distribute,−1m,∑mi=1[yi−yihθ(x(i))−hθ(x(i))+y(i)hθ(x(i))],x(i)j\[2ex]=cancel,−1m,∑mi=1[y(i)−hθ(x(i))],x(i)j\[2ex]=1m∑mi=1[hθ(x(i))−y(i)],x(i)j
sigmoid 函數的導數是
ddxσ(x)=ddx(11+e−x)\[2ex]=−(1+e−x)′(1+e−x)2\[2ex]=e−x(1+e−x)2\[2ex]=(11+e−x)(e−x1+e−x)\[2ex]=(11+e−x),(1+e−x1+e−x−11+e−x)\[2ex]=σ(x),(1+e−x1+e−x−σ(x))\[2ex]=σ(x),(1−σ(x))