728x90
Gradient descent
Cost fuction J(w,b)를 얻었다면 그 값을 최소화 하는 것이 적절한 model을 만들기위한 parameter를 결정하는 방법이다.
이때 w와 b을 계속 바꿔가며 J(w, b)값을 감소시키며 최소값에 최대한 가깝게 또는 최소값에 도달하도록 한다.
서서히 최소값을 향하는 방향으로 새로운 w, b를 조사하고 반복한다.
위의 그림에서 볼 수 있듯이 시작점의 사소한 차이가 전혀 다른 결과값을 초래하고 그 지점들은 local minima이다.
Gradient descent algorithm
여기서 = 는 양변이같다는 등호가 아니라 코딩에서 이용하는 대입연산자의 개념이다.
alpha는 learning rate로 좌표를 변화시키는 정도를 의미한다.
뒷 부분은 derivative로 좌표를 이동시키는 방향을 결정한다.
b 또한 같은 식을 이용하여 지속적으로 갱신된 값을 대입해준다.
우측과 같이 하나의 parameter만을 변화시키고 결정을 하면 안되고
좌측과 같이 동시에 두 parameter를 모두 변화 시키고 결정을 해야한다.
728x90