728x90 Quality control (Univ. Study)/AI Applications6 Regularization / Dimensional Reduction and Expansion Regularization위와 같은 경우에 weight W는 유일하게 결정될 수 없다.Hinge loss의 특징을 통해서 2W 또한 Loss를 0으로 만들 것이라고 예상할 수 있다.이 케이스에서 weight를 두배로 만들어도 아래와 같이 Loss는 계속 0임을 확인할 수 있다.Regularization의 기본 원리는 이왕이면 더 단순한 모델이 좋다는 것이다. 아래 케이스를 보면 f1이 f2보다 training set에 보다 적합하지만 너무 복잡한 것을 볼 수 있다. 이렇게 과적합이 되어있으면 다른 데이터가 들어왔을때 좋은 성능을 내기 어렵다.다른 데이터가 들어오자 더 단순한 f2가 더 잘 표현하고 있는 것을 볼 수 있다.많이 알려진 regularization 기법은 아래와 같다.L1 regularizat.. 2024. 5. 4. Computational Graph / Backpropagation Gradient위와 같은 SVM Loss function에 대해서 어떤 식으로 gradient를 연산할지 생각해보자.당연히 직접 계산을 하나씩 해나갈 수 있다.그러나 당연하게도 직접 하나하나 계산하는 것은 어마어마한 양의 행렬 연산으로 인해 낭비가 많다. 또한 만약 Loss function을 바꾸고 싶어지면 연산을 처음부터 다시해야한다. 마지막으로 복잡한 모델에서는 더더욱 문제가 많을 것이다. 따라서 Computational graphs와 Backpropagation을 이용한다. 아래는 Computational graphs의 표현법이다.역전파의 간단한 예시를 살펴보자.우리가 알고있는 미분 값과 알고 싶은 미분 값은 아래와 같다.이를 chain rule을 이용하여 역으로 진행시켜 구할 수 있다.위 과정을 .. 2024. 5. 3. 시험 대비 코드 정리(2) 보호되어 있는 글 입니다. 2024. 4. 22. 시험 대비 코드 정리(1) 보호되어 있는 글 입니다. 2024. 4. 19. Optimizer Optimizer 모델이 학습한다는 것은 loss를 최소화하는 최적화과정을 거치는 것이다. 이전에도 optimizer를 직접 구현하며 optimizer의 종류를 알아보고 성능을 비교해봤지만 너무 중요한 내용이고 수업에 나왔기에 다시 한번 수식과 그 의미를 간단히 정리해보고자 한다. 딥러닝 직접 구현하기 - (Optimizer) SGD 확률적 경사 하강법(stochastic gradient descent)의 줄임말인 SGD는 현재 상태에서 학습률과 미분값에 비례한 값을 빼서 갱신하는 방식을 이용한다. 위 식을 기반으로 파이썬 클래스로 구현하면 아래 canvas4sh.tistory.com SGD Stochastic Gradient Descent는 확률적 경사 하강법으로 이름 그대로 모든 데이터에 대해서 그래.. 2024. 4. 17. Softmax classifier Intro 인공지능 응용 수업을 수강하고 있는데 사실 인공지능 기초는 다양한 공개 강의들을 통해서 공부했고 몇몇 프로젝트도 진행했기에 아주 가법게 생각하고 듣기 시작했다. 그러나 생각보다 기초적인 부분에서 수식 증명과 같은 세부사항들에서 잊은 내용들이 있어서 기초를 다시 돌아보기 좋다는 생각이들어 블로그 정리도 간간히 하려고 한다. Express as Probability 추론의 결과를 0부터 1까지의 확률로 표현하기 위해서 sigmoid함수가 사용될 수 있다. Sigmoid함수를 미분하면 위와 같이 계산된다. 이를 간단하게 표현하면 P'=P(1-P)가 된다. Sigmoid함수를 이용하여 미분된 sigmoid 함수를 표현할 수 있는 것이다. 또한 P가 0 또는 1의 극단으로 갈 수록 미분의 결과는 0에 .. 2024. 3. 31. 이전 1 다음 728x90