상세 컨텐츠

본문 제목

[논문 리뷰 스터디] 부트스트랩을 활용한 이상원인 변수의 탐지기법_실제 적용

심화 스터디/논문 리뷰 스터디

by 깜디얏 2023. 5. 31. 18:55

본문

작성자 : 17기 우윤규

- T-square 관리도는 품질 관리에서 사용되는 통계적 도구 중 하나로, 두 개 이상의 그룹 간에 평균값 차이가 통계적으로 유의한지를 검정하는 데 사용됩니다.

 

 

예를 들어, 제조 업체에서 제품의 품질을 비교하기 위해 두 개 이상의 제품 그룹을 비교하는 경우에 T-square 관리도를 사용할 수 있습니다.  T-square 관리도는 일반적으로 다음과 같은 단계로 수행됩니다.

 

1. 데이터 수집: 비교하고자 하는 그룹 간의 측정 데이터를 수집합니다. 각 그룹은 같은 조건에서 수집되어야 하며, 가능한 경우 동일한 크기의 표본으로 구성되어야 합니다.

2. 가설 설정: T-square 관리도에서는 두 가지 가설을 설정합니다. 첫 번째 가설은 각 그룹의 평균값이 서로 동일하다는 것입니다. 두 번째 가설은 각 그룹의 평균값이 서로 다르다는 것입니다. T-square 통계량 계산: T-square 통계량은 각 그룹의 평균값과 분산, 그리고 그룹 간 공분산을 사용하여 계산됩니다.

3. 유의 확률 계산: T-square 통계량에서 추출한 값을 사용하여 유의 확률을 계산합니다. 유의 확률은 두 가지 가설 중 어느 가설이 더 적합한지를 판단하는 데 사용됩니다.

4. 결론 도출: 유의 확률을 기반으로 가설 검정을 수행합니다. 유의 확률이 충분히 작으면, 두 그룹 간의 평균값 차이가 통계적으로 유의미하다는 것을 의미합니다. 따라서, 두 그룹 간에는 품질 차이가 있다고 결론짓게 됩니다. 

 

일반적인 관리도와 다른 점은 '다변량 관리도'라는 의미입니다. 

이는 변수가 하나가 아니라 여러 개일 때도 사용이 가능합니다. 변수가 여러개 있으면 변수간의 교호 작용에 의해서 나타나는 효과까지도 영향을 끼치기 때문에 이를 제거하고 독립적으로 각 변수의 통계값이 이상치인지 아닌지 판별하기 위해서 T-square 통계량을 사용하면 한 번에 알 수 있습니다. 즉, 하나의 관리도를 통해서 여러 변수들이 나타내는 영향이 이상치인지 아닌지 판별이 가능하고, 그에 대해서 어떤 변수가 이상치에 영향을 끼치는지에까지도 알 수 있습니다.

 

<김성범 교수님 '품질공학'>

하지만 이러한 관리도는 가정이 하나 있습니다. 정규분포를 따라야 하는데, 실제 공정에서는 정규분포를 따르지 않는 경우가 많이 발생합니다. 이를 보완하기 위해서 이 논문에서는 부트스트랩 기반 T-square 관리도를 제안하고 있습니다.

 

기존의 관리도가 T-square 통계 값 (Monitoring Statistic)에 대해서 정규분포를 따른 다고 가정하고 유의수준에서 해당 표본값(관측값)이 통계적으로 유의한지 안한지 판별하는 것이었다면, 부트스트랩 기반 T-square 관리도는 나온 T-square 값을 기본으로 하여 정규분포를 따르지 않더라도 유의수준 값을 정한 후,  전체값에서 유의 수준 값을 부트스트랩을 통해서 정한 후 그를 기준으로 이상치 선을 긋는 것입니다.

즉, 이 방법을 통해서는 정규분포를 따르지 않더라도, 데이터의 분포를 고려하지 않더라도 해당 데이터에 맞게 관리도를 그려 이상치를 탐지할 수 있습니다.

본 논문에서는 시뮬레이션을 통해서 부트스트랩 기반 관리상한선이 이상치를 더 민감하고 효과적이게 잡아내고 있는 것을 보여주고 있으며, 이를 수업자료를 참조해서 시각화하면 다음과 같습니다.

 

 
# 직접 이를 프로젝트에 적용시켜보았습니다.
 
프로젝트 주제 : 아파트 값 변동 탐지 및 추천
아파트 가격의 변화를 예측하는 것도 중요하지만, 아파트 가격 및 거래 횟수, m2당 가격, 실제 가격을 모두 고려하여 모니터링 할 수 있고 그에 대한 이상치를 탐지 할 수 있다면, 실제 거래에 있어 거래 시점과 거래 시세를 고려할 수 있다.
그러한 시점 및 대상을 알려줄 수 있다면, 추천까지 가능할 것 같다.
 
데이터 전처리 & EDA
 
시계열 데이터의 자기상관성을 확인하였으며, 2년 단위로 가격을 Standardscaler로 scaling 시켰습니다.
이를 통해서 일정한 주기를 가진다는 것을 확인할 수 있습니다.
 
이상치 탐지 관리도
똑같이 T_square 관리도를 사용하였으며, 어떤 변수에 의해 이상치가 발생하였는지 알 수 있게 코드를 작성하였습니다.

관련글 더보기

댓글 영역