[다변량 데이터 분석] Chapter.02

심화 스터디/다변량 분석 스터디

by gyubinc 2023. 3. 13. 08:40

본 게시글은 강필성 교수님의 다변량 데이터 분석 강의를 기반으로 작성되었습니다.

작성자 : KUBIG 16기 최규빈

Chapter 2) Multiple Linear Regression

Example

차량의 가격을 어떻게 예측할 수 있을까?

Variable(X)

Age, Color, Door, Weight, HP, KM...

Target(y)

Price

Goal

정량적인 종속변수 Y와 여러 개의 설명변수 X 사이의 linear relationship을 찾는 것

Multiple은 p개의 설명변수가 존재한다는 의미
Regression은 y가 실수값이라는 의미
Linear은 y와 x 사이의 관계가 선형이라는 의미

$$ y = \beta_0 + \beta_1x_1 + \beta_2x_2 ... + \beta_dx_d + \epsilon $$

$$ \beta = coefficient \quad \epsilon = noise$$

Explanatory Regression

설명적 회귀분석

설명변수(X)와 종속변수(y)간의 관계를 설명하는 데에 초점
$R^2$을 통해 'goodness of fit' 측정
$\beta$를 얼마나 잘 찾아냈는가

Predictive Regression

새로운 X 데이터가 주어졌을 때 얼마나 y값을 잘 예측하는가에 초점
predictive accuracy를 최적화
y를 얼마나 잘 예측하는가

Simple Regression Models

설명변수 x가 1개

Linear : y = f(x)가 선형임을 가정(직선)
Non-linear : r = f(x)가 비선형임을 가정(곡선)

Multiple Regression Models

설명변수 x가 2개이상 존재

Linear
Non-linear

Linear Regression

독립변수는 설명변수간 1차항의 결합으로 표현된다

설명변수가 3개 이상일 경우 hyper-plane의 형태

OLS

Ordinary least square, 최소자승법

actual taget value와 regression을 통해 추정된 값과의 squared difference를 최소화
행렬 벡터의 연산으로 표현
$\hat{\beta} = (X^TX)^{-1}X^Ty$라는 명시적 solution 존재

성립 조건

noise $\epsilon$ 은 정규분포를 따른다
잔차에 대한 QQ Plot을 그려서 확인가능
데이터가 선형관계일 때
관측치들이 상호 독립적일 때
Y의 변동성이 특정한 변수의 변화에 영향을 받지 않을 때 (homoskedasticity)
Residual plot을 찍어본다

Goodness of fit

평가지표

Sum-of-Squares Decomposition

SST : total sum of squares about mean $\displaystyle\sum_{j=1}^{n} (y_j - \bar{y})^2$
SSR : regression sum of squares $\displaystyle\sum_{j=1}^{n} (\hat{y_j} - \bar{y})^2$
SSE : residual(error) sum of squares $\displaystyle\sum_{j=1}^{n} \hat{\epsilon_j}^2$

R square

전체 데이터의 변동성(SSR) 분의 회귀식에 의해 설명될 수 있는 변동성의 비율(SSR)

분석가의 역량과는 상관 없고 선형관계의 강도에 따라 결정되는 값

$R^2 = 1 - \frac{SSE}{SST} = \frac{SSR}{SST}$

$0 \leq R^2 \leq 1 $

$R^2 = 1 $ -> the fitted equation passes through all the data points

$R^2 = 0 $ -> There is no linear relationship between the predictor variables and the target variable

단점

변수 수가 늘어날 수록 R square는 단조 증가한다

해결책 : Adjusted $R^2$

모델 평가

residual이 독립인가
residual이 정규분포를 따르는가
p-value를 먼저 체크한 후 coefficient를 확인할 것

회귀모델 성능 평가 방법

1. Average Error

actual y와 predicted y 사이의 평균

sign effect(부호의 효과)를 놓치기 때문에 사용x

2. Mean Absolute Error(MAE)

평균 절대 오차

MAE는 단순히 절대적인 차이만 제공하기 때문에 상대적 차이를 확인할 수 없음

3. Mean Absolute Percentage Error(MAPE)

평균 절대 비율 오차

MAE식에서 각 $y_i$를 나눠 오차의 비율을 확인할 수 있음

4,5. (Root) Mean Squared Error((R)MSE)

제곱을 통해 계산하면 미분 가능해져서 계산용이성 향상

'심화 스터디 > 다변량 분석 스터디' 카테고리의 다른 글

[다변량 데이터 분석] Chapter.06 Artificial Neural Networks (1)	2023.05.04
[다변량 데이터 분석] Chapter.05 (0)	2023.03.28
[다변량 데이터 분석] Chapter.04 (1)	2023.03.21
[다변량 데이터 분석] Chapter.03 (0)	2023.03.19
[다변량 데이터 분석] Chapter.01 (0)	2023.03.13

KUBIG 2023-1 활동 블로그

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

Chapter 2) Multiple Linear Regression

Example

Simple Regression Models

Multiple Regression Models

회귀모델 성능 평가 방법

'심화 스터디 > 다변량 분석 스터디' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바