[5주차 / 임정준 / 논문리뷰] An Image Is Worth 16 x 16 Words: Transformers for Image Recognition at Scale
#01 Abstract Transformer 구조가 NLP 분야에서 사실상 'Standard' 모델이 되었지만, CV 분야에서는 그 적용이 미진하였다. Vision 분야에서는 CNN 구조의 몇 부분만 대체하거나 혹은 네트워크 간의 결합을 할 때 'attention'을 활용하였다. 하지만 본 논문에서는 이미지들을 패치들로 쪼개어 Sequence 형태로 순수 Transformer에 적용하였을 때 이미지 분류 Task에서 그 성능이 SOTA 수준급으로 도달할 수 있음을 보여주었다. 본 리뷰에서는 해당 모델은 'ViT'에 대해 알아보고, 일반적인 CNN 네트워크와 어떠한 차이점이 존재하는지 알아보도록 하겠다. 더욱 더 자세한 이해를 위해서는 기본적으로 Transformer에 대한 전반적인 지식을 이해하고 오는 ..
방학 세션/CV
2023. 2. 14. 22:06