728x90
R Squared
R Squared는 아래와 같이 회귀선 기준으로 계산한 잔차제곱합(SSres)과 평균Y값을 기준으로 계산한 총제곱합(SStot)으로 계산된다.
위의 그래프와 식을 보면 알 수 있듯이 총제곱합은 평균값에 의해 결정된 고정값이므로 R Squared값을 1에 가깝게 만들기 위해 잔차제곱합을 최소화하려고 노력할 것이다.
Adjusted R Squared
R Squared의 대표적인 문제점은 새로운 feature가 들어올때 발생한다. 예를들어 아래 그림과 같이 x1,x2 feature가 존재하던 다항회귀모델에 새로운 x3 feature가 들어오면 문제가 발생한다.
y값에는 변화가 없으니 총제곱합은 일정할텐데 새로운 변수가 들어와 SSres값을 높여서 R Squared값을 높이니 모델은 x3의 가중치이자 계수인 b3를 0으로 맞춰버리고 학습에 반영하지 않는 문제가 발생할 수 있다. 새로운 변수가 들어오면 R Squared는 편향적인 연산이기 때문에 어떤 변수가 들어왔는지와 관계없이 계속 증가하기만 하여 문제가 발생한다.
따라서 다음과 같이 독립 변수들의 수와 샘플의 사이즈를 반영한 새로운 식을 이용한다.
Adjusted R Squared는 모델에 도움이 안되는 독립변수가 들어오면 페널티를 부여하는 요소가 존재한다. 독립변수의 수가 1에서 빼는 값의 분모에 존재하기 때문에 의미없는 독립변수의 수가 늘어나면 결과값이 줄어들게 된다. 또한 식을보면 변수를 늘려주면 R Squared가 증가하고 k값이 증가하면서 균형이 맞게되어 적절한 평가 방식임을 알수 있다.
728x90
'Drawing (AI) > MachineLearning' 카테고리의 다른 글
Udemy - 머신러닝의 모든 것 (로지스틱 회귀) (1) | 2023.03.26 |
---|---|
Udemy - 머신러닝의 모든 것 (회귀 모델 선택) (0) | 2023.03.23 |
Udemy - 머신러닝의 모든 것 (Random Forest Regression) (0) | 2023.03.18 |
Udemy - 머신러닝의 모든 것 (Decision Tree) (0) | 2023.03.17 |
Udemy - 머신러닝의 모든 것 (SVR) (0) | 2023.03.12 |