상세 컨텐츠

본문 제목

[논문 리뷰 스터디] Review of Functional Data Analysis (Part 2)

심화 스터디/논문 리뷰 스터디

by 안녕윤기 2023. 5. 10. 21:50

본문

작성자: 16기 민윤기

4. Clustering and classificaton of functional data

- Clustering 및 Classification은 다변량 분석에 있어 유용한 tool임

 

- Clustering

  • Ex. 5분 간격으로 특정 위치에서 자동차 속도 측정(76일 간의 측정 데이터를 시각화)

  • 위 figure를 통해, 두 개의 cluster로 구분되는 것을 확인할 수 있음 -> 아래 figure를 통해 구분 기준을 발견

평일/휴일로 인해 생기게 된 cluster

     -> 해당 지역에서 날짜의 특성에 따른(평일/휴일) 교통량의 다른 양상을 확인할 수 있음

 

 - Classification

  • Clustering은 데이터 집합을 그룹화하는데 목표를 두고, 집단 내 데이터들이 집단 밖의 데이터들에 비해 유사성이 훨씬 높아지는 metric을 사용함
  • 반면 분류의 경우, 임의의 데이터를 사전에 정해진 그룹에 올바르게 할당하는 것을 목표로 함 -> 그러나, functional data의 분석에 있어서는 클러스터링에서 사용한 방식을 차용하여 분류 진행
    -> clustering metric에 따라 각 집단의 중심을 찾아내고, 그 중심을 criteria로 하여 새로운 데이터를 집단 할당함

4.1 Clustering of functional data

- 벡터 형식의 다변량 데이터에 대해, 1) 계층적 군집화 2) k-means 클러스터링을 전통적인 주요 방법론으로 사용

  • 계층적 군집화: 알고리즘 접근법. 병합(agglomerative) 또는 분열(divisive) method 활용 -> dissimilarity measure를 통해 군집의 포함 및 분리 여부를 판단함
  • k-means clustering: 각 군집의 mean 근처에 분포하는 것을 목표로 함. within-cluster sum of square distance를 최소화하는 알고리즘 접근
    -> 상기 concept은 functional data의 클러스터링에도 유사하게 적용 가능.
    단, discrete approximations of distance measures / dimension reduction의 추가 제약 조건을 고려하여야 함
    실제로는 계층적 군집화에 비해 k-means clustering이 널리 사용됨 -> cluster mean function을 찾는 관점으로
    • k-means functional clustering
      목표: find a set of cluster centers {$mu^c$ ; c = 1, ... , L} (assuming L clusters)
      방법: 각 X값과 cluster center간의 거리를 최소화 함(=> 아래의 sum of squared distance 최소화)

           

  • 문제점: functional data는 이산적으로 기록되므로, measurement error와 sparsity 혹은 irregularity에서 자유로울 수 없음
    => common approach: functional correlation/regression과 유사하게, 무한 차원의 functional data를 basis function으로 이루어진 저차원의 공간으로 projection 

- Mean functions as cluster centers

(1) Functional Clustering via Functional Basis Expansion

  • 사전 정의된 basis function set {$delta_1$, $delta_2$, ...}이 주어진다면, 해당 function을 span하여 만들어진 공간에 대한 projections은 functional data를 대표할 수 있음
  • 위에서 나타나는 패턴은 함수 공간의 cluster를 반영함
    -> basis expansion을 통한 coefficients(B(ik))의 집합에 의해 데이터를 대표할 수 있게 됨
  • 이에, 적절한 basis functions, 가능한 클러스터링 알고리즘이 요구됨
    • k-means clustering을 통해 적합: projected space에서의 cluster center를 얻음 -> 각 cluster center 집합은 함수 공간에서 다음과 같이 basis function과의 결합으로 이루어짐

mu hat은 L개의 cluster의 function space

(2) Functional Clustering via FPCA

  • 사전 정의된 basis function set을 필요로 하는 basis expansion 방식과 달리, FPCA의 finite approximation 기법 활용
  • Part1에서 언급한 covariance function에 의해 basis function 결정
  • FPC(Funcional Principal Components) score의 분포에 따라 서로 다른 클러스터링 패턴을 띠게 됨 -> 이때, mean function $mu$(t)는 클러스터링에 영향을 미치지 않음
  • 이 경우, score에 해당하는 벡터 set이 basis coefficients의 역할을 함

4.2 Classification of functional data

- Functional classification: discriminant function 및 classifier를 통해 새로운 데이터에 군집 할당

  • Popular approach: functional regression model 기반 -> class label을 response, 관측 데이터 및 공변량을 predictor
    • regression 기반 functional data classification 구현: functional GLM, functional multiclass logit model
  • 클러스터링과 유사하게, basis function을 활용한 차원축소 기법을 적용함

- Functional regression for classification

  • 가장 일반적인 접근: functional logistic regression model

L classes 존재, $Z_i$는 class label

  • $gamma_0k$는 intercept, $gamma_1k (t)$는 predictor $X_0$(t)의 coefficient function

      => multinomial regression의 baseline odds model을 functional extension한 것

 

- Functional discriminant analysis for classification

  • 회귀 관점 접근 대신, linear discriminant analysis 기법 활용
    -> Bayes rule을 적용해, class label의 가장 큰 조건부 확률을 근거로 분류를 진행함(given new data object)
        $X_0$에 대한 다음과 같은 사후확률을 생각할 수 있음

$phi_k$: k번째 class의 사전 확률, $f_k$: k번째 class의 density


5. Nonlinear Methods for Functional Data

- 시간의 변화 및 시간의 뒤틀림(warping) 존재: 관측값 자체가 randomly distorted, 시간 변화가 functional data의 주된 변동을 구성함
-> 때로는 선형 모형이 적합하지 않을수도 -> 데이터의 nonlinear 특성을 반영한 효율적 모델이 필요

 

- Nonlinear Regression Models

  • linear model과 동일하게 linear predictor를 가지고 있지만 이것이 nonlinear link function과 결합됨(GLM의 아이디어)
    비선형 link function으로 인해, 모델 분석이 때로는 더 복잡해짐(고차원의 approximation 과정 등이 필요함)
  • 고차원 자료 분석에 활용되는 비모수적 평활화 컨셉을 확장시켜 predictor function에 적용함
    E(Y|X) = g(X)를 목표로 커널평활법을 확장시켜 사용함

    • Kernel smoothing: neighboring observed data의 가중평균을 통해 real-valued function을 추정하는 기법
      -> weight = kernel

definition of kernel

  • 아이디어: 유클리디안 predictor space를 functional predictor space에 사영된 pseudo-distance로 대체함(funcional predictor의 infinite nature에 기인함)

6. Example & Conclusion

- 함수적 반응변수와 함수적 공변량의 선형모형: 강수량과 기온 데이터를 활용

  • 목표: 기온자료로부터 강수량 prec의 추정에 관심

모형1

  • 모형1은 t 시점에서의 강수량에 t 시점에서만의 기온의 영향을 고려


모형2

  • 모형2는 1년 또는 일정 기간의 기온이 강수량에 미치는 영향을 고려
  • 모형 적합의 기준:

적분된 제곱오차

  • 추정을 위해서 basis function 사용 or 평활화 기법 적용, $x_i$ = 기온, $y_i$ = 예측함수,
    $x_i$(*) = $x_i$ - $xbar$, $y_i$(*) = $y_i$ - $ybar$
    LMISE를 재정의하면,

  • $x_i$와 $y_i$ 각각을 basis로 표현하고, 회귀함수 $beta$를 다음과 같이 표현

B는 $b_jk$들을 포함하고 있는 J X K 행렬
함수적 선형모형에 적용한 결과: 각각 절편 함수와 회귀계수 함수의 추정치
3.13의 추정치를 적용한 서울, 철원, 충주, 제주 지역의 강수량 추정치

  • 추정치를 보다 부드럽게 하기 위해서는, basis의 수를 줄이거나 스플라인 평활화 같이 부드러움의 정도를 penalized 하는 평활량 도입 가능

- 결론

  • FDA는 종단적 성격의 데이터를 보다 합리적으로 분석할 수 있게 해줌
  • 고차원 데이터에 대한 분석 방법론을 제시하고 있음
  • 소개된 내용들 이외에도, domain selecton problem, functional time series 등 다양한 측면에서의 접근이 이루어지고 있음
  • 최근 연구되고 있는 활용 사례: monitoring of movement, 연속적으로 기록된 health data, traffic flow data, 경매 data, 금융 변동성(volatility) data 등에도 FDA가 활발하게 적용되고 있음

관련글 더보기

댓글 영역