2024. 4. 5. 22:56ㆍ부트캠프
computer vision
low level, mid level, high level 로 나누어져있음.
low level 은 image processing, feature extraction
mid level 은 image->image, image->world
high level 은 semantic 즉 비전태스크 Image Classification, Object Detection, Segmentation
모델구조 이해
Visual Feature: 컴퓨터 비전의 태스크(classification, detection, segmentation, ...)를 해결할 때 필요한 이미지의 특성을 담고 있는 정보들을 지칭함.
Backbone의 역할
Backbone은 이미지에서 중요한 Feature를 추출(extract)할 수 있도록 훈련됨. 즉 Backbone의 역할은 주어진 비전 태스크를 잘 수행할 수 있는 압축된 Visual Feature를 산출하는 것
Backbone의 구조
Layer: Input 이미지에서 Feature(points, edges, shapes, ...)를 추출하기 위한 연산을 하는 층
Backbone은 여러 개의 Layer로 이루어져 있고, 이를 통해 다양한 Level의 Feature를 추출할 수 있음
Decoder의 역할
모델의 쓰임새에 따라 다양한 비전 태스크가 존재, 따라서 Decoder는 압축된 Feature를 목표하는 태스크의 출력 형태로 만드는 과정을 수행함
Encoder의 역할
일부 모델들의 경우 Backbone 이후에 Encoder를 도입하여 Feature와 Image Patch들 사이의 관계를 학습시키기도 함
비전 태스크에 따른 Decoder의 결과
Classification
Fully Connected Layer (FC Layer): 한 layer가 다음 layer와 완전히 연결되어 있는 layer로, 이미지 분류 모델에서 Decoder의 역할로 사용됨
Softmax: 입력 받은 값을 모두 [0,1] 사이로 정규화 시켜주는 함수를 말함. 이를 통해 Decoder의 출력물을 각 클래스에 해당할 확률로 나타낼 수 있게 됨.
탐지할 수 있는 데이터로 학습한 detection 모델
영역을 알 수 있는 데이터로 학습한 segmentation 모델
Backbone은 입력 이미지에서 유의미한 Feature를 추출한 뒤 압축하는 역할이므로, 태스크 종류가 다르더라도 동일한 Backbone을 사용할 수 있음.
Decoder의 경우에는 최종 결과를 출력해주는 역할이므로, 비전 태스크가 바뀐다면 올바른 형태로 결과를 산출할 수 있도록 디코더 구조를 변경시켜 주어야 함
'부트캠프' 카테고리의 다른 글
자체경진대회-classification (0) | 2024.04.29 |
---|---|
CV advanced (0) | 2024.04.29 |
자체경진대회-regression (0) | 2024.04.03 |
첫번째 그룹스터디 세미나 및 회고 (0) | 2024.03.15 |
ML project : Home Credit - Credit Risk Model Stability (0) | 2024.02.22 |