Courseraの講義なので、ルー語になってしまうことをご了承ください。
概要
Cost functionをminimizeするには、傾きが0になる方向にθを近づけていく。
Cost functionをθで(Partial )derivativeすることで傾きを求めると、どちらの方向に行けば最小の地点があるかわかる。
なお、今回Cost functionは二乗誤差なので常に凹型。
θ - 傾き は傾きが大きすぎて収束しないor収束が遅い可能性があるので、学習率x傾きとする。学習率が小さすぎても収束が遅くなる。
最急降下法の「最急」とは、方向がメインであって、大きさはさほど関係ない
J(θ1,θ2)のθ1とθ2をそれぞれPartial derivativeして得られた学習率x傾きのベクトルが合成されるところをイメージ(上から見る)すると、まさに「最急」の方向になることがわかる。
Cost function Partial derivative
calculus - Partial derivative in gradient descent for two variables - Mathematics Stack Exchange
u = θ0+θ1x(i)−y(i) のように分けて、チェーンルールを使う。