[논문 리뷰 스터디] Review of Functional Data Analysis (Part 2)

심화 스터디/논문 리뷰 스터디

by 안녕윤기 2023. 5. 10. 21:50

작성자: 16기 민윤기

4. Clustering and classificaton of functional data

- Clustering 및 Classification은 다변량 분석에 있어 유용한 tool임

- Clustering

Ex. 5분 간격으로 특정 위치에서 자동차 속도 측정(76일 간의 측정 데이터를 시각화)

위 figure를 통해, 두 개의 cluster로 구분되는 것을 확인할 수 있음 -> 아래 figure를 통해 구분 기준을 발견

-> 해당 지역에서 날짜의 특성에 따른(평일/휴일) 교통량의 다른 양상을 확인할 수 있음

- Classification

Clustering은 데이터 집합을 그룹화하는데 목표를 두고, 집단 내 데이터들이 집단 밖의 데이터들에 비해 유사성이 훨씬 높아지는 metric을 사용함
반면 분류의 경우, 임의의 데이터를 사전에 정해진 그룹에 올바르게 할당하는 것을 목표로 함 -> 그러나, functional data의 분석에 있어서는 클러스터링에서 사용한 방식을 차용하여 분류 진행
-> clustering metric에 따라 각 집단의 중심을 찾아내고, 그 중심을 criteria로 하여 새로운 데이터를 집단 할당함

4.1 Clustering of functional data

- 벡터 형식의 다변량 데이터에 대해, 1) 계층적 군집화 2) k-means 클러스터링을 전통적인 주요 방법론으로 사용

계층적 군집화: 알고리즘 접근법. 병합(agglomerative) 또는 분열(divisive) method 활용 -> dissimilarity measure를 통해 군집의 포함 및 분리 여부를 판단함
k-means clustering: 각 군집의 mean 근처에 분포하는 것을 목표로 함. within-cluster sum of square distance를 최소화하는 알고리즘 접근
-> 상기 concept은 functional data의 클러스터링에도 유사하게 적용 가능.
단, discrete approximations of distance measures / dimension reduction의 추가 제약 조건을 고려하여야 함
실제로는 계층적 군집화에 비해 k-means clustering이 널리 사용됨 -> cluster mean function을 찾는 관점으로
- k-means functional clustering
  목표: find a set of cluster centers {$mu^c$ ; c = 1, ... , L} (assuming L clusters)
  방법: 각 X값과 cluster center간의 거리를 최소화 함(=> 아래의 sum of squared distance 최소화)

문제점: functional data는 이산적으로 기록되므로, measurement error와 sparsity 혹은 irregularity에서 자유로울 수 없음
=> common approach: functional correlation/regression과 유사하게, 무한 차원의 functional data를 basis function으로 이루어진 저차원의 공간으로 projection

- Mean functions as cluster centers

(1) Functional Clustering via Functional Basis Expansion

사전 정의된 basis function set {$delta_1$, $delta_2$, ...}이 주어진다면, 해당 function을 span하여 만들어진 공간에 대한 projections은 functional data를 대표할 수 있음
위에서 나타나는 패턴은 함수 공간의 cluster를 반영함
-> basis expansion을 통한 coefficients(B(ik))의 집합에 의해 데이터를 대표할 수 있게 됨
이에, 적절한 basis functions, 가능한 클러스터링 알고리즘이 요구됨
- k-means clustering을 통해 적합: projected space에서의 cluster center를 얻음 -> 각 cluster center 집합은 함수 공간에서 다음과 같이 basis function과의 결합으로 이루어짐

(2) Functional Clustering via FPCA

사전 정의된 basis function set을 필요로 하는 basis expansion 방식과 달리, FPCA의 finite approximation 기법 활용
Part1에서 언급한 covariance function에 의해 basis function 결정
FPC(Funcional Principal Components) score의 분포에 따라 서로 다른 클러스터링 패턴을 띠게 됨 -> 이때, mean function $mu$(t)는 클러스터링에 영향을 미치지 않음
이 경우, score에 해당하는 벡터 set이 basis coefficients의 역할을 함

4.2 Classification of functional data

- Functional classification: discriminant function 및 classifier를 통해 새로운 데이터에 군집 할당

Popular approach: functional regression model 기반 -> class label을 response, 관측 데이터 및 공변량을 predictor
- regression 기반 functional data classification 구현: functional GLM, functional multiclass logit model
클러스터링과 유사하게, basis function을 활용한 차원축소 기법을 적용함

- Functional regression for classification

가장 일반적인 접근: functional logistic regression model

$gamma_0k$는 intercept, $gamma_1k (t)$는 predictor $X_0$(t)의 coefficient function

=> multinomial regression의 baseline odds model을 functional extension한 것

- Functional discriminant analysis for classification

회귀 관점 접근 대신, linear discriminant analysis 기법 활용
-> Bayes rule을 적용해, class label의 가장 큰 조건부 확률을 근거로 분류를 진행함(given new data object)
$X_0$에 대한 다음과 같은 사후확률을 생각할 수 있음

$phi_k$: k번째 class의 사전 확률, $f_k$: k번째 class의 density

5. Nonlinear Methods for Functional Data

- 시간의 변화 및 시간의 뒤틀림(warping) 존재: 관측값 자체가 randomly distorted, 시간 변화가 functional data의 주된 변동을 구성함
-> 때로는 선형 모형이 적합하지 않을수도 -> 데이터의 nonlinear 특성을 반영한 효율적 모델이 필요

- Nonlinear Regression Models

linear model과 동일하게 linear predictor를 가지고 있지만 이것이 nonlinear link function과 결합됨(GLM의 아이디어)
비선형 link function으로 인해, 모델 분석이 때로는 더 복잡해짐(고차원의 approximation 과정 등이 필요함)
고차원 자료 분석에 활용되는 비모수적 평활화 컨셉을 확장시켜 predictor function에 적용함
E(Y|X) = g(X)를 목표로 커널평활법을 확장시켜 사용함
- Kernel smoothing: neighboring observed data의 가중평균을 통해 real-valued function을 추정하는 기법
  -> weight = kernel

아이디어: 유클리디안 predictor space를 functional predictor space에 사영된 pseudo-distance로 대체함(funcional predictor의 infinite nature에 기인함)

6. Example & Conclusion

- 함수적 반응변수와 함수적 공변량의 선형모형: 강수량과 기온 데이터를 활용

목표: 기온자료로부터 강수량 prec의 추정에 관심

모형1은 t 시점에서의 강수량에 t 시점에서만의 기온의 영향을 고려

모형2는 1년 또는 일정 기간의 기온이 강수량에 미치는 영향을 고려
모형 적합의 기준:

추정을 위해서 basis function 사용 or 평활화 기법 적용, $x_i$ = 기온, $y_i$ = 예측함수,
$x_i$(*) = $x_i$ - $xbar$, $y_i$(*) = $y_i$ - $ybar$
LMISE를 재정의하면,

$x_i$와 $y_i$ 각각을 basis로 표현하고, 회귀함수 $beta$를 다음과 같이 표현

함수적 선형모형에 적용한 결과: 각각 절편 함수와 회귀계수 함수의 추정치

3.13의 추정치를 적용한 서울, 철원, 충주, 제주 지역의 강수량 추정치

추정치를 보다 부드럽게 하기 위해서는, basis의 수를 줄이거나 스플라인 평활화 같이 부드러움의 정도를 penalized 하는 평활량 도입 가능

- 결론

FDA는 종단적 성격의 데이터를 보다 합리적으로 분석할 수 있게 해줌
고차원 데이터에 대한 분석 방법론을 제시하고 있음
소개된 내용들 이외에도, domain selecton problem, functional time series 등 다양한 측면에서의 접근이 이루어지고 있음
최근 연구되고 있는 활용 사례: monitoring of movement, 연속적으로 기록된 health data, traffic flow data, 경매 data, 금융 변동성(volatility) data 등에도 FDA가 활발하게 적용되고 있음

'심화 스터디 > 논문 리뷰 스터디' 카테고리의 다른 글

[논문 리뷰 스터디] Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (0)	2023.05.11
[논문 리뷰 스터디] AMP: Adversarial Motion Priors for Stylized Physics-Based Character Control (0)	2023.05.11
[논문 리뷰 스터디] Conditional Variational Autoencoder with Adversarial Learning forEnd-to-End Text-to-Speech (1) (0)	2023.05.10
[논문 리뷰 스터디] Modeling Tabular Data using Conditional GAN (1)	2023.05.09
[논문 리뷰 스터디] Attention Is All You Need (0)	2023.05.04

KUBIG 2023-1 활동 블로그

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

상세 컨텐츠

본문 제목

본문

4. Clustering and classificaton of functional data

4.1 Clustering of functional data

4.2 Classification of functional data

5. Nonlinear Methods for Functional Data

6. Example & Conclusion

'심화 스터디 > 논문 리뷰 스터디' 카테고리의 다른 글

관련글 더보기

댓글 영역

추가 정보

인기글

최신글

티스토리툴바