4. Clustering and classificaton of functional data
- Clustering 및 Classification은 다변량 분석에 있어 유용한 tool임
- Clustering
Ex. 5분 간격으로 특정 위치에서 자동차 속도 측정(76일 간의 측정 데이터를 시각화)
위 figure를 통해, 두 개의 cluster로 구분되는 것을 확인할 수 있음 -> 아래 figure를 통해 구분 기준을 발견
평일/휴일로 인해 생기게 된 cluster
-> 해당 지역에서 날짜의 특성에 따른(평일/휴일) 교통량의 다른 양상을 확인할 수 있음
- Classification
Clustering은 데이터 집합을 그룹화하는데 목표를 두고, 집단 내 데이터들이 집단 밖의 데이터들에 비해 유사성이 훨씬 높아지는 metric을 사용함
반면 분류의 경우, 임의의 데이터를 사전에 정해진 그룹에 올바르게 할당하는 것을 목표로 함 -> 그러나, functional data의 분석에 있어서는 클러스터링에서 사용한 방식을 차용하여 분류 진행 -> clustering metric에 따라 각 집단의 중심을 찾아내고, 그 중심을 criteria로 하여 새로운 데이터를 집단 할당함
4.1 Clustering of functional data
- 벡터 형식의 다변량 데이터에 대해, 1) 계층적 군집화 2) k-means 클러스터링을 전통적인 주요 방법론으로 사용
계층적 군집화: 알고리즘 접근법. 병합(agglomerative) 또는 분열(divisive) method 활용 -> dissimilarity measure를 통해 군집의 포함 및 분리 여부를 판단함
k-means clustering: 각 군집의 mean 근처에 분포하는 것을 목표로 함. within-cluster sum of square distance를 최소화하는 알고리즘 접근 -> 상기 concept은 functional data의 클러스터링에도 유사하게 적용 가능. 단, discrete approximations of distance measures / dimension reduction의 추가 제약 조건을 고려하여야 함 실제로는 계층적 군집화에 비해 k-means clustering이 널리 사용됨 -> cluster mean function을 찾는 관점으로
k-means functional clustering 목표: find a set of cluster centers {$mu^c$ ; c = 1, ... , L} (assuming L clusters) 방법: 각 X값과 cluster center간의 거리를 최소화 함(=> 아래의 sum of squared distance 최소화)
문제점: functional data는 이산적으로 기록되므로, measurement error와 sparsity 혹은 irregularity에서 자유로울 수 없음 => common approach: functional correlation/regression과 유사하게, 무한 차원의 functional data를 basis function으로 이루어진 저차원의 공간으로 projection
- Mean functions as cluster centers
(1) Functional Clustering via Functional Basis Expansion
사전 정의된 basis function set {$delta_1$, $delta_2$, ...}이 주어진다면, 해당 function을 span하여 만들어진 공간에 대한 projections은 functional data를 대표할 수 있음
위에서 나타나는 패턴은 함수 공간의 cluster를 반영함 -> basis expansion을 통한 coefficients(B(ik))의 집합에 의해 데이터를 대표할 수 있게 됨
이에, 적절한 basis functions, 가능한 클러스터링 알고리즘이 요구됨
k-means clustering을 통해 적합: projected space에서의 cluster center를 얻음 -> 각 cluster center 집합은 함수 공간에서 다음과 같이 basis function과의 결합으로 이루어짐
mu hat은 L개의 cluster의 function space
(2) Functional Clustering via FPCA
사전 정의된 basis function set을 필요로 하는 basis expansion 방식과 달리, FPCA의 finite approximation 기법 활용
Part1에서 언급한 covariance function에 의해 basis function 결정
FPC(Funcional Principal Components) score의 분포에 따라 서로 다른 클러스터링 패턴을 띠게 됨 -> 이때, mean function $mu$(t)는 클러스터링에 영향을 미치지 않음
이 경우, score에 해당하는 벡터 set이 basis coefficients의 역할을 함
4.2 Classification of functional data
- Functional classification: discriminant function 및 classifier를 통해 새로운 데이터에 군집 할당
Popular approach: functional regression model 기반 -> class label을 response, 관측 데이터 및 공변량을 predictor
regression 기반 functional data classification 구현: functional GLM, functional multiclass logit model
클러스터링과 유사하게, basis function을 활용한 차원축소 기법을 적용함
- Functional regression for classification
가장 일반적인 접근: functional logistic regression model
L classes 존재, $Z_i$는 class label
$gamma_0k$는 intercept, $gamma_1k (t)$는 predictor $X_0$(t)의 coefficient function
=> multinomial regression의 baseline odds model을 functional extension한 것
- Functional discriminant analysis for classification
회귀 관점 접근 대신, linear discriminant analysis 기법 활용 -> Bayes rule을 적용해, class label의 가장 큰 조건부 확률을 근거로 분류를 진행함(given new data object) $X_0$에 대한 다음과 같은 사후확률을 생각할 수 있음
$phi_k$: k번째 class의 사전 확률, $f_k$: k번째 class의 density
5. Nonlinear Methods for Functional Data
- 시간의 변화 및 시간의 뒤틀림(warping) 존재: 관측값 자체가 randomly distorted, 시간 변화가 functional data의 주된 변동을 구성함 -> 때로는 선형 모형이 적합하지 않을수도 -> 데이터의 nonlinear 특성을 반영한 효율적 모델이 필요
- Nonlinear Regression Models
linear model과 동일하게 linear predictor를 가지고 있지만 이것이 nonlinear link function과 결합됨(GLM의 아이디어) 비선형 link function으로 인해, 모델 분석이 때로는 더 복잡해짐(고차원의 approximation 과정 등이 필요함)
고차원 자료 분석에 활용되는 비모수적 평활화 컨셉을 확장시켜 predictor function에 적용함 E(Y|X) = g(X)를 목표로 커널평활법을 확장시켜 사용함
댓글 영역