728x90
Gradient descent intuition
gradient descent식을 해석해보았다. 미분값은 w지점의 접선의 기울기를 의미하므로 J가 우상향일때는 양수의 값이 나오고 J가 우하향일때는 음수의 값이 나온다. 양수의 값이 나오면 learning rate인 alpha값은 양수이므로 w를 감소시키는 함수가 된다. 우상향일때 w를 감소시키면 J가 최소인지점과 가까워지므로 올바른 식임을 알 수 있다. 음수의 값이 나오면 반대로 w를 증가시키는 함수가 된다. 우하양일때 w를 감소시키면 J가 최소인 지점과 가까워지므로 이또한 올바른 식임을 알 수 있다. 이렇게 grdient descent에 대한 직관적인 해석을 해보았다.
Learning rate
이전부터 이용하던 alpha값 learning rate는 학습률로 말그대로 한번의 학습을 통해 w에 변화를 주는 정도라고 볼 수 있다.
learning rate가 너무 작으면 최소값을 찾기위해 너무 많은 학습을 반복해야 한다는 단점이 있고 learning rate가 너무 크면 최소값을 지나가 버리는 overshoot 현상이 일어나서 최소값에 도달할 수 없을 가능성이 존재하는 단점이 있다. 따라서 적절한 learning rate가 model을 만드는데 있어서 중요하다고 볼 수 있다.
위와 같이 minimum에 가까워지면 derivative도 작아지기 때문에 learning rate를 바꿔주지 않아도 최소값에 도달할 수 있음을 알 수 있다.
728x90