본 게시글은 강필성 교수님의 다변량 데이터 분석 강의를 기반으로 작성되었습니다.
작성자 : KUBIG 17기 송지훈
이론상, 변수들이 독립적인 가정하에, 변수가 증가할수록 모델 성능도 향상
목적: 모델의 효율성 추구 -> 원래 n개의 변수를 사용한 모형이 차원 축소한 n' 개의 변수를 사용한 모형과 비슷하다
차원 축소의 효과:
[Curse of Dimensionality]
변수 개수가 증가하면 정보량을 보존하는데 필요한 관측치는 기하급수적으로 증가한다
차원 축소를 할 수 있는 이유: 내재적 차원이 실제 가지고 있던 차원보다 낮을 확률이 높다
높은 차원으로 발생하는 문제들:
차원의 저주를 해결하기 위한 방안:
[Dimensionality Reduction]
Supervised vs Unsupervised Dimensionality Reduction
[Supervised]
모델/알고리즘 개입하여 피드백으로 제일 좋은 조합 찾기
[Unsupervised]
모델/알고리즘 개입하여 피드백이 없다
한 번에 차원 축소를 진행한다
[Dimensionality Reduction Technique]
[Exhaustive Search]
모든 가능한 조합 테스트
ex) x1부터 x3이 있으면 총 7가지를 시도
단점: 시간 소요가 어마하다
[Forward Selection]
변수 아무것도 사용하지 않는 모델부터 시작해서 중요할 것을 생각되는 변수들이 순차적으로 추가된다
[Backward Elimination]
모든 변수를 가진 모델부터 시작해서 중요하지 않은 변수들이 순차적을 제거된다
Backward Elimination, Forward Selection 둘 다 속도는 빠르지만, 성능 하락이 꽤 있다
[Stepwise Selection]
변수가 없는 모델부터 시작해서 forward selection, backward elimination 번갈아 가면서 수행
Forward, Backward, Stepwise Selection 모두 효율적이지만 search space가 한정되어 있으니 가장 optimal 한 설정을 찾을 확률이 낮다
[Performance Metrics]
$$ \text { Sum of squared error (SSE) } = \sum_{i=1}^n (y_i - \hat{y_i})^2 $$
$$ AIC = n * ln({SSE \over n}) + 2k $$
k = 변수 개수,
n = 관측치 개수
첫 파트는 같은 변수의 개수라면 성능을 향상, 두 번째 term은 같은 성능이라면 변수의 개수를 줄임 -> AIC는 낮을수록 좋다
$$ BIC = n * ln({SSE \over n}) + {2(k+2)n\sigma^2 \over SSE} - {2n^2\sigma^4 \over SSE^2} $$
AIC와 똑같은 목적, 하지만 표준편차 추가
[Genetic Algorithm]
Meta-Heuristic Approach: 복잡한 문제를 효율적인 시행착오를 통해 풀어나가는 것
Genetic Algorithm: 진화를 모사한 알고리즘
[Deterministic Selection]
상위 n % 의 chromosome 선택, 하위 (100-n)% 는 선택 X
[Probabilistic Selection]
[Mutation]
[Ridge Regression]
Linear, Logistic에 둘 다 사용 가능
각 objective function에 $$ + \lambda \sum_{j=1}^d \hat{\beta}_j^2 $$
[LASSO]
Least Absolute Shrinkage and Selection Operator
$$ + \lambda \sum_{j=1}^d |\hat{\beta}_j| $$
[Elastic Net]
Ridge의 장점 (변수 사이의 상관관계를 제외할 수 있다), LASSO의 장점 (Variable Selection) 결합
$$ + \lambda_1 \sum_{j=1}^d |\hat{\beta}j| + \lambda_2 \sum_{j=1}^d |\hat{\beta}j| $$
$\lambda_1$이 커지면 변수의 개수 감소
$\lambda_2$이 커지면 변수의 선택에 대한 impact 감소
[다변량 데이터 분석] Chapter.06 Artificial Neural Networks (1) | 2023.05.04 |
---|---|
[다변량 데이터 분석] Chapter.05 (0) | 2023.03.28 |
[다변량 데이터 분석] Chapter.03 (0) | 2023.03.19 |
[다변량 데이터 분석] Chapter.02 (0) | 2023.03.13 |
[다변량 데이터 분석] Chapter.01 (0) | 2023.03.13 |
댓글 영역