Gradient Descent

Courseraの講義なので、ルー語になってしまうことをご了承ください。

概要

Cost functionをminimizeするには、傾きが0になる方向にθを近づけていく。

Cost functionをθで(Partial )derivativeすることで傾きを求めると、どちらの方向に行けば最小の地点があるかわかる。

なお、今回Cost functionは二乗誤差なので常に凹型。

θ - 傾き は傾きが大きすぎて収束しないor収束が遅い可能性があるので、学習率x傾きとする。学習率が小さすぎても収束が遅くなる。

最急降下法の「最急」とは、方向がメインであって、大きさはさほど関係ない

J(θ1,θ2)のθ1とθ2をそれぞれPartial derivativeして得られた学習率x傾きのベクトルが合成されるところをイメージ(上から見る)すると、まさに「最急」の方向になることがわかる。

 

Cost function Partial derivative

calculus - Partial derivative in gradient descent for two variables - Mathematics Stack Exchange

u = θ0+θ1x(i)−y(i) のように分けて、チェーンルールを使う。