본문 바로가기
Drawing (AI)/MachineLearning

Udemy - 머신러닝의 모든 것 (Multiple Linear Regression-1)

by 생각하는 이상훈 2023. 2. 3.
728x90

Multiple Linear Regression

이전 강의에서 가장 단순한 형태의 회귀인 단순 선형 회귀를 배웠다면 조금은 성능과 복잡성이 높은 다중 선형 회귀에 대하여 공부를 했다.

단순 선형 회귀와 다중 선형 회귀의 차이


선형 회귀를 이용하기 위한 조건

  1. 선형성 (Linearity): 회귀분석에서 선형적 관계를 갖는 것을 의미한다. 예를 들어, 종속 변수와 한 개 이상의 독립 변수 간에 선형 관계가 존재한다면, 그것은 선형성을 만족한다고 할 수 있다.
  2. 동분산성 (Homoscedasticity): 회귀분석에서 표준 편차가 일정한 것을 의미한다. 즉, 모든 관측치에 대해 오차 편차가 같다면, 그것은 동분산성을 만족한다고 할 수 있다.
  3. 다변수 정규성 (Multivariate normality): 회귀분석에서 모든 변수가 정규 분포를 따른다는 것을 의미한다. 즉, 모든 변수들이 평균과 표준 편차를 갖는 정규 분포를 따른다면, 그것은 다변수 정규성을 만족한다고 할 수 있다.
  4. 오차의 독립성 (Independence of errors): 회귀분석에서 오차가 서로 독립적이라는 것을 의미한다. 즉, 오차들 간에 관계가 없다면, 그것은 오차의 독립성을 만족한다고 할 수 있다.
  5. 낮은 다중공선성 (Lack of multicollinearity): 회귀분석에서 독립 변수들 간의 고강도의 상관 관계가 없다는 것을 의미한다. 즉, 독립 변수들 간의 상관 관계가 높지 않다면, 그것은 낮은 다중공선성을 만족한다고 할 수 있다.

위의 경우를 만족하는 경우를 예를들어 다중 선형 회귀를 이해하고 model을 설계해보고자한다.


Dummy variable

위와 같이 encoding 하는 과정에서 이용되는 변수들을 dummy variable(가변수)라고 부른다.


이때 가변수의 함정이라는 문제에 빠지지 않기 위해서는 가변수를 하나만 이용해야한다.

상수와 가변수 두개는 하나의 식에 존재할 수 없다.


P-value

우선 p-값은 귀무가설(null hypothesis) 을 가정하였을 때 표본 이상으로 극단적인 결과를 얻을 확률이다.

보통 p-value를 0.05 즉 5%를 기준으로 잡고 통계적으로 문제가 있음을 추론하여 귀무가설을 거절할 수 있다. 요즘은 0.005로 낮춰야한다는 통계학자들의 논의도 있는것으로 보인다.


How to build Models

"All-in" cases

-Prior knowledge

-Have to

-Preparing for Backward Elimination

 

Backward Elimination

Step1: Select a significance level to stay in the model (e.g. SL = 0.05)

Step2: Fit the full model with all posiible predictors

Step3: Consider the predictor with the HIGHEST P-value. If P > SL, go to Step4, otherwise go to FIN

Step4: Remove the predictor

Step5: Fit model without this variable (Return to Step 3)

FIN: Your Model is Ready

 

Forward Selection

Step1: Select a significance level to enter the model (e.g. SL = 0.05)

Step2: Fit all simple regression models y ~ xn. Select the one with the lowest P-value

Step3: Keep this variable and fit all possible models with one extra predictor added to the one

Step4: Consider the predictor with the HIGHEST P-value. If P > SL, go to Step3, otherwise go to FIN

FIN: Keep the previous model

 

Bidirectional Elimination

Step1: Select a significance level to enter and level to stay in the model (e.g. SLENTER = 0.05, SLSTAY = 0.05)

Step2: Perform the next step of Forward Selection (new variables must have: P < SLENTER to enter)

Step3: Perform ALL steps of Backward Elimination (old variables must have P < SLSTAY to stay)

Step4: No new variables can enter and no old variables can exit

FIN: Your Model is Ready

 

All Possible Models

Step1: Select a criterion of goodness of fit (e.g. Akaike criterion)

Step2: Construct All Possible Regression Models: 2^n - 1 total combinations

Step3: Select the one with the best criterion

FIN: Your Model is Ready

 

이번 모델에서는 Backward Elimination 방법을 이용할 것이다. 그 속도가 가장 빠르고 합리적이라고 고려되기 때문이다.


 

728x90