상세 컨텐츠

본문 제목

[다변량 데이터 분석] Chapter.02

심화 스터디/다변량 분석 스터디

by gyubinc 2023. 3. 13. 08:40

본문


본 게시글은 강필성 교수님의 다변량 데이터 분석 강의를 기반으로 작성되었습니다.


작성자 : KUBIG 16기 최규빈

Chapter 2) Multiple Linear Regression


Example

차량의 가격을 어떻게 예측할 수 있을까?

 

Variable(X)

  • Age, Color, Door, Weight, HP, KM...

 

Target(y)

  • Price

 

Goal

정량적인 종속변수 Y와 여러 개의 설명변수 X 사이의 linear relationship을 찾는 것

  • Multiple은 p개의 설명변수가 존재한다는 의미
  • Regression은 y가 실수값이라는 의미
  • Linear은 y와 x 사이의 관계가 선형이라는 의미

$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 ... + \beta_dx_d + \epsilon $$

$$ \beta = coefficient \quad \epsilon = noise$$

 

Explanatory Regression

설명적 회귀분석

  • 설명변수(X)와 종속변수(y)간의 관계를 설명하는 데에 초점
  • $R^2$을 통해 'goodness of fit' 측정
  • $\beta$를 얼마나 잘 찾아냈는가

 

Predictive Regression

  • 새로운 X 데이터가 주어졌을 때 얼마나 y값을 잘 예측하는가에 초점
  • predictive accuracy를 최적화
  • y를 얼마나 잘 예측하는가

 

Simple Regression Models

설명변수 x가 1개

  • Linear : y = f(x)가 선형임을 가정(직선)
  • Non-linear : r = f(x)가 비선형임을 가정(곡선)

 

Multiple Regression Models

설명변수 x가 2개이상 존재

  • Linear
  • Non-linear

 

Linear Regression

독립변수는 설명변수간 1차항의 결합으로 표현된다

  • 설명변수가 3개 이상일 경우 hyper-plane의 형태

 

OLS

Ordinary least square, 최소자승법

  • actual taget value와 regression을 통해 추정된 값과의 squared difference를 최소화
  • 행렬 벡터의 연산으로 표현
  • $\hat{\beta} = (X^TX)^{-1}X^Ty$라는 명시적 solution 존재

 

성립 조건

  • noise $\epsilon$ 은 정규분포를 따른다
    잔차에 대한 QQ Plot을 그려서 확인가능
  • 데이터가 선형관계일 때
  • 관측치들이 상호 독립적일 때
  • Y의 변동성이 특정한 변수의 변화에 영향을 받지 않을 때 (homoskedasticity)
    Residual plot을 찍어본다

 

Goodness of fit

평가지표

Sum-of-Squares Decomposition

  • SST : total sum of squares about mean $\displaystyle\sum_{j=1}^{n} (y_j - \bar{y})^2$
  • SSR : regression sum of squares $\displaystyle\sum_{j=1}^{n} (\hat{y_j} - \bar{y})^2$
  • SSE : residual(error) sum of squares $\displaystyle\sum_{j=1}^{n} \hat{\epsilon_j}^2$

R square

전체 데이터의 변동성(SSR) 분의 회귀식에 의해 설명될 수 있는 변동성의 비율(SSR)

  • 분석가의 역량과는 상관 없고 선형관계의 강도에 따라 결정되는 값

$R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST}$

$0 \leq R^2 \leq 1 $

$R^2 = 1 $ -> the fitted equation passes through all the data points

$R^2 = 0 $ -> There is no linear relationship between the predictor variables and the target variable

 

단점

변수 수가 늘어날 수록 R square는 단조 증가한다

  • 해결책 : Adjusted $R^2$

 

모델 평가

  • residual이 독립인가
  • residual이 정규분포를 따르는가
  • p-value를 먼저 체크한 후 coefficient를 확인할 것

 

회귀모델 성능 평가 방법

1. Average Error

actual y와 predicted y 사이의 평균

  • sign effect(부호의 효과)를 놓치기 때문에 사용x

2. Mean Absolute Error(MAE)

평균 절대 오차

  • MAE는 단순히 절대적인 차이만 제공하기 때문에 상대적 차이를 확인할 수 없음

3. Mean Absolute Percentage Error(MAPE)

평균 절대 비율 오차

  • MAE식에서 각 $y_i$를 나눠 오차의 비율을 확인할 수 있음

4,5. (Root) Mean Squared Error((R)MSE)

제곱을 통해 계산하면 미분 가능해져서 계산용이성 향상

관련글 더보기

댓글 영역