심화 스터디/논문 리뷰 스터디

[논문 리뷰 스터디] Review of Functional Data Analysis (Part 1)

안녕윤기 2023. 5. 4. 14:28

작성자: 16기 민윤기

1. Introduction

- FDA란?: functions, images, shapes(curves) 등의 형태로 이루어진 데이터에 대한 분석 방법론

  • 본질적으로, infinite dimensional인 경우가 많음
  • 목적은 여타 통계적 분석의 목적과 같이 표본이 뽑힌 모집단에 대한 추론
  • 1세대 functional data: 독립적인 실함수로 구성된 random sample -> curve data라고 일컬어짐
  • Next generation functional data: brain & neuroimaging data
  • 데이터를 변환, 재표현, 그림 제공, 반응변수의 변동의 중요한 요인을 파악
  • 예) 시간에 따른 기온의 변화 데이터: 연속적인 성질에도 불구하고 관측의 속성상 이산형으로 나타남

- FDA의 특징

  • functional data에 대한 rigorous definition은 아직 완전하지 않음
  • 가장 특징적인 것은, 데이터가 개별적인 관측치의 연속체가 아니라 하나의 형태를 가지고 관측된 함수
  • dense data와 sparse data로 나뉘는데, sparse data는 각각이 다른 시점에 관찰되는 종단 연구를 의미함
  • 측정 방법(sampling plan)에 따라 FDA의 현상(수렴율 등)이 달라짐
  • 특정 시점마다 이산형 형태로 관측되는 데이터는 대부분 오차가 존재하여, 다양한 평활화 기법이 요구됨
    • Sparse/irregularly sampled functional data

          -> 각 개인별로 상이하고 불규칙적으로 측정되면서 생기는 plot의 불규칙함

               따라서, 오차 없이 관측된 functional data는 확률적 과정을 근거로 다루기 쉬움(functional law of large numbers,                   functional central limit theorems 등 적용 가능)

  • 일반적인 linear/generalized linear model에서 변형된 functional regression의 관점에서, 고차원의 functional data를 다루기 위한 demension reduction은 핵심 요소임
  • clustering과 classification 역시 유용하고 중요한 FDA의 tool 중 하나임
  • 가정: 데이터에 내재하는 함수가 smooth 해야함(derivative를 구할 수 있도록)
  • 대표적인 data handling 기법: smoothing methods, notably kernel, local least squares, spline smoothing

2.  Mean and Covariance Function, Functional Principal Component Analysis

- Estimator of Mean and Covariance

mean function
covariance function

  • 관측되는 $Y_ij$에 대한 notation: $Y_ij = X_ij + e_ij$ ($e_ij$는 measurement errors)
  • 가정: error의 등분산성 -> $(sigma^2)_ij$ = $sigma^2$ (꼭 필요한 가정은 아니지만 분석의 용이함을 위해 가정함)
  • Estimate of mean and covariance:

  • Sampling schedule이 각 대상마다 다르면, estimate을 동일한 방법으로 구할 수는 없음 -> 그러나, nomparametric smoother(ex. local polynomial estimate) 등을 산점도에 적용 가능 -> $mu(t)$에 대한 consistent estimates 구할 수 있음

Scatter plot of pooled CD4 counts with estimated mean based on local linear smoother

- Hypothesis Testing and Simultaneous Confidence Bands

  • Suggestions: two-sample test and ANOVA test 또는 dense functional data에 대한 '동시신뢰구간'
    • 문제점: 데이터의 무한 차원 + target function의 비모수적 성질
    • dense data에 대해서는 estimated mean process는 Gaussian process로 수렴함 -> 근사된 Gaussian 분포를 이용한 평균에 대한 근사신뢰구간을 구할 수 있음
  • 정리하면, functional data의 특성(ultra-dense, dense, sparse)에 따라 동시신뢰구간을 구하는 방식이 차별화 되어야 함 -> dense data는 일반적인 모수적 추론이 가능
  • bias는 독립적으로 측정되고, 적절한 asymtotic theory가 존재하고,  estimator의 정규성 조건을 충족시키는 것을 기대함 
    • ultra-dense: $sqrt(n)$은 asymtotic bias 없이 수렴율로 재현됨
    • dense: bias가 존재하지만, 수렴율은 $sqrt(n)$으로 근사할 수 있음
    • sparse: dense와는 다른 paradigm을 따르게 됨 -> $sqrt(n)$보다 느린 수렴율을 갖게 됨(measurement design에 의존함)

- Functional Principal Component Analysis(FPCA)

  • PCA: 다변량 데이터에 대한 핵심 차원 축소 기법 -> extended to FPCA
    반응변수들을 선형변환시켜, 주성분이라고 부르는 서로 연관되어 있지 않은, 독립적인 변수를 유도
  • FPCA: 무한 차원의 함수적 데이터를 유한 차원의 scores 벡터로 변환(일반적인 PCA 방법론을 차용)
    • 데이터 변동성의 형태를 찾기 위해 계산 가능한 유한한 주성분 요소를 찾음으로써 함수적 데이터의 차원 축소
    • 첫번째 주성분은 자료 변동의 가장 많은 부분을 설명하며, 두번째 주성분은 첫번째 주성분과 직교하는 변동을 설명하는 식으로, 몇 개의 주성분을 통해 데이터 변동의 거의 전부를 설명할 수 있음
    • 관측된 데이터의 함수적 표현: $x_i(t)$ (i = 1, ... , n)이 모든 t에 대해 '$sum  x_i(t)$ = 0'을 만족시킨다고 가정
    • 함수적 데이터의 공분산 함수:

공분산 함수 (x(s)는 함수적 데이터)

->  적분변환을 사용하여 고유값과 고유함수($psi$)로 나타낼 수 있음

-> 주성분 함수를 찾기 위해서는 eigen value에 대한 고유방정식을 만족하는 해 찾기

eigen equation

-> 고유값의 크기에 따라 주성분 함수의 순서 정해짐

- Applications of FPCA

  • 첫번째 eigen function은 데이터의 총 변동의 84%를 설명함
  • 이외 세번째와 네번째의 eigen function은 중요치 않다고 판단
  • 첫 eigen function은 시간에 따라 constant한 특성이 있음 -> random intercept가 총 변동에 크게 영향을 미침

Ex) 우리나라 68개 기상 관측소에서 30여년간 매월 측정한 기온 (=> 주기: 12)

  • 따라서, 12개의 푸리에 기저와 상수항을 이용하여 이산형 관측치들을 함수적 데이터로 변환
    • Cf) 푸리에 기저: 데이터의 평활화(smoothing)하는 기법 중 하나 -> 기저 함수의 선형 결합으로 데이터 표현 ->
      푸리에 기저는 주기적이고 급격한 변화가 없는 함수에 대해 특히 유용하게 적용됨

  • 대체적으로 사인 함수의 형태를 띠는 것을 확인할 수 있음

  • 예상과 같이, 여름철에 높은 기온과 뚜렷한 사계절의 형태 드러남 + 분산의 경우, 여름철이 겨울철보다 작다는 것 -> 겨울철에 지역별로 기온 차이가 더 크게 나타남을 알 수 있음

기온에 대한 주성분 분석의 결과(실선: 전체 평균 함수)

  • 첫번째 주성분이 전체 변동성의 약 80%를 설명하고 있으며, 우리나라 기온의 11월 말 부터 다음 해 1월 말까지, 즉 겨울철 변동성을 잘 설명하고 있음
  • 두번째 주성분은 전체 변동성을 약 19% 설명하며, 여름철의 변동성을 설명함
주성분의 우선순위를 고려하여, 우리나라 기온의 변동성은 겨울에 더 크다는 결론을 내릴 수 있음

3. Correlation and Regression: Inverse Problems and Dimension Reduction

- Functional Regression

  • 반응변수나 공변량이 functional data를 포함하는 경우의 회귀분석
  • 모델은 선형, 비선형, 부분적 선형 모두 가능
    • Model with Scalar Response

traditional linear model

  • $X$를 functional covariate $X^c$ = X(t) - $mu(t)$로 대체
  • $beta$는 $beta(t)$로 대체

functional linear model

  • $beta$와 $X$를 같은 함수적 기저의 선형결합 형태로 표현(orthonormal basis) -> basis expansion
  • 자주 사용되는 방법 중 하나인 B-spline regression
    • Spline regression: 기저 함수의 선형결합으로 회귀 모형을 근사하는 비모수 추정법
      functional data의 특성 상, 무한개로 이루어진 선형결합을 계산하기 어려우므로 유한개로 근사
    • 일반적인 regression처럼 LS method로 $b^hat$ 추정

회귀함수 f에 대한 기저의 선형결합

  • Using orthonormal basis,

$psi_k$ : orthonormal basis

  • Multiple functional regression, generalized linear model로도 확장 가능