[3주차 / 천원준 / 논문리뷰] Rich feature hierarchies for accurate object detection and semantic segmentation

방학 세션/CV

by 원준천 2023. 2. 1. 02:34

Abstract

Object detection은 bounding box로 물체의 위치를 찾고 class를 분류해줘야 합니다. R-CNN은 대표적인 2 stage detector이며 딥러닝을 최초로 적용한 object detection 모델입니다.

R-CNN의 기본 구조는 다음과 같습니다. 크게 4가지 스텝으로 나눌 수 있습니다.

1. 이미지를 넣어줍니다

2. 물체가 있을만한 위치를 약 2000개가량 추출하고 (extract region proposals) 227x227 사이즈로 warp 해줍니다

3. 해당 이미지를 CNN 모델에 넣어줍니다

4. 각 이미지를 분류합니다

Region Proposal

R-CNN모델은 region proposal을 selective search를 사용하여 진행하였습니다. Selective search는 컬러, 무늬, 크기, 명암, 형태와 같은 여러 기준으로 유사한 region들을 grouping 하고 bounding box의 형태로 보여줍니다. 이때 인풋 이미지에 대하여 2000개의 region proposal들이 나오고 다음 CNN 모델에 인풋으로 사용하기 위해 227x227 사이즈로 resizing 합니다.

CNN

앞서 추출한 2000개의 227x227 사이즈 이미지를 CNN을 사용하여 feature extraction을 진행합니다. 이때 2000x4096 피쳐벡터가 나오게 되는데 이는 각 후보 영역별로 4096개의 피쳐를 추출했기 때문입니다. 사용된 CNN 모델은 ImageNet 데이터셋을 사용하여 pre-train 된 AlexNet을 사용하였습니다.

SVM

CNN을 통해 추출한 2000x4096 피쳐벡터를 linear SVM 모델에 입력하여 class를 예측하였습니다. Linear SVM 모델의 경우 이진 분류기이고 N개의 class를 예측하기 위해선 N+1개의 독립적인 linear SVM 모델을 학습시켜야 했습니다. 학습을 진행할 때 ground truth만 positive로 두었고 IoU가 0.3 미만은 negative, 그 외 나머지는 모두 무시하였습니다.

결국 학습된 linear SVM은 피쳐벡터에 따른 class와 confidence score를 반환합니다.

Bounding Box Regression

앞선 selective search 알고리즘을 사용하여 bounding box를 구했지만 정확성에 문제가 있습니다. 따라서 세밀한 조정을 위해 bounding box regression을 진행합니다.

x, y는 bounding box의 x좌표 y좌표입니다. w, h는 width와 height 값 입니다.

P는 선택한 bounding box이고 G는 ground truth bounding box입니다.

Bounding box regression의 목적은 P가 G에 맞춰지도록 유도하는 것 입니다.

수식 1,2,3,4에 존재하는 d(P)가 모델의 학습 대상입니다. 수식 6,7,8,9의 t가 학습 목표입니다.

결국 손실 함수를 통하여 d(P)가 t가 되도록 학습을 진행하는 것입니다.

Conclusion

장점:

Object detection에 처음 CNN을 적용하였다

다른 알고리즘 대비 매우 높은 정확도를 보인다

단점:

이미지 한장당 2000개의 region을 propose 하기 때문에 느리다

end to end 학습이 불가능 하다

참고

https://arxiv.org/abs/1311.2524

https://herbwood.tistory.com/5

https://lcyking.tistory.com/89

https://bkshin.tistory.com/entry/%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-R-CNN-%ED%86%BA%EC%95%84%EB%B3%B4%EA%B8%B0

'방학 세션 > CV' 카테고리의 다른 글

[3주차 / 신인섭/ 논문리뷰] Rich feature hierarchies for accurate object detection and semantic segmentation (0)	2023.02.01
[2주차 / 신인섭 / 논문리뷰] Deep Residual Learning for Image Recognition (1)	2023.02.01
[3주차 / 윤지현 / 논문리뷰] Fast R-CNN (1)	2023.02.01
[3주차 / 임채명 / 논문리뷰] Fast R-CNN (0)	2023.02.01
[3주차 / 황민아 / 논문리뷰] Fast R-CNN (0)	2023.02.01