[논문 리뷰 스터디] MediaPipe Hands: On-device Real-time Hand Tracking

심화 스터디/논문 리뷰 스터디

by 깜디얏 2023. 3. 29. 12:03

17기 우윤규

우리는 정형데이터와 비정형 데이터의 차이를 각각의 독립 변수들이 독립적인가 종속적인가를 통해서 구분할 수 있다.

이때 독립적이라는 뜻은 다음과 같다.

예를 들어서 사진데이터는 x1, x2의 자리를 바꾸면 아예다른 사진이 되어버리므로, 비독립적이다.

그러나 차의 가격에 대한 연비 및 주행거리의 데이터프레임이 있을 때 연비 및 주행거리의 순서를 바꾼다고 해도 아예 다른 데이터가 되지 않으므로 독립적이다. 본 논문에서는 비정형데이터 뿐만 아니라, 정형 데이터를 주로 사용하여 손의 landmark detection을 한 결과를 보여주고 있다.

Yolo는 비정형 데이터 중심으로 object detection을 진행하였다면, Mediapipe는 정형 데이터를 input으로 넣고 output으로서 손의 골격 landmark 좌표 및 다른 데이터들을 추출해낸다. input 데이터 또한 Image도 넣지만 손의 정형데이터를 넣는다 (손의 유무 or 손의 좌표)
해당 모델은 두가지 모델로 구성되어 있으며,
첫 번째는 전체 입력 이미지에어 손의 경계를 통해서 손바닥을 찾는 감지 모델
두 번째는 손 경계 안에서 2.5 D의 landmark 좌표를 반환하는 손 landmark 모델

첫 번째 모델을 수행한 후에 얻어진 손바닥 구역 내에서 두 번째 모델이 수행되어진다.

첫 번째 모델인 경우, 동영상에 모든 프레임에 감지 모델을 적용하지 않는다. 실시간으로 추적이 가능하면 첫 번째 프레임에만 모델이 적용되거나, 손 예측이 손을 잃었다고 표시하는 경우에만 적용된다.
손바닥 모양을 감지하기 위해서 다음과 같은 모델 구조를 가진다.

이때 작은 물체에 대해서도 더 큰 장면 컨텍스트 인식을 위해 인토더-디코더 특징 추출기를 이용합니다.

손가락으로 손바닥 계를 모두 감지하기 보다는 손바닥을 포함하는 경계 상자를 추정하는 것이 더 간단하기 때문에 손바닥 경계 상자를 먼저 감지하고 그 다음에 손 landmark를 추측한다.

두 번째 모델인 경우, 첫번째 모델에서 손바닥을 감지를 하고 난 후에 회귀모형을 통해 감지된 손 영역 내에서 21개의 2.5D 좌표의 정확한 랜드마크를 뽑아낸다.
input 값은 실제 이미지, 인공 이미지, 손의 존재, 손잡이 구분으로 이루어져 있으며, 이를 활용하여 다음과 같은 3가지 출력을 얻어낸다/. (내부적으로 회귀식을 통해서 landmark 결과값을 얻어낸다)

a) x,y 및 상대 좌표로 구성된 21개의 손 랜드마크
b) 입력 이미지에서 손이 있을 확률
c) 손의 이진 분류 (왼쪽 또는 오른쪽)
이때 임계값을 설정하여 손을 예측한 확률이 임계값보다 낮다면 다시 추적한다. (다시 회귀식 추정) 이는 즉 임계값보다 낮다면 손바닥 추적기 부터 다시 시작해서 모델이 실행되어진다.
이는 계산량을 줄이는 효과를 낸다.

본 논문에서는 MediaPipe를 사용하였으며, 앞서 설명한대로 1)손바닥 탐지기 실행 2) 손 추적 모델을 순서대로 실행하고 있으며, 임계값보다 감지 확률이 높다면 바로 손바닥 감지가 아닌 손 landmark 감지 모델로 넘어가서 landmark 및 다르 결과 값들을 내보낸다.

이때 인코더 디코더 구조가 FPN와 동일하다고 했는데 FPN을 더 공부할 필요가 있어보인다.
내부적으로 회귀식을 사용한다고 되어있는데 이를 공개하고 있지 않다.

'심화 스터디 > 논문 리뷰 스터디' 카테고리의 다른 글

[논문 리뷰 스터디] Densely Connected Convolutional Networks (0)	2023.03.30
[논문 리뷰 스터디] Visualizing and Understanding Convolutional Networks (0)	2023.03.30
[논문 리뷰 스터디] WaveNet-A Generative Model for Raw Audio (0)	2023.03.28
[논문 리뷰 스터디] XGBoost: A Scalable Tree Boosting System (0)	2023.03.27
[논문 리뷰 스터디] Learning Transferable Visual Models from Natural Language Supervision (CLIP) (0)	2023.03.23