[논문리뷰]YOLO: You Only Look Once: Unified, Real-Time Object Detection

Notice

Recent Posts

Recent Comments

Link

« 2026/06 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Tags more

Archives

Today

Total

관리 메뉴

AI·빅데이터 융합 경영학 Study Note

[논문리뷰]YOLO: You Only Look Once: Unified, Real-Time Object Detection 본문

카테고리 없음

[논문리뷰]YOLO: You Only Look Once: Unified, Real-Time Object Detection

SubjectOwner 2026. 5. 10. 12:05

논문의 주제, 결론
: YOLO(You Only Look Once) 제시

real-time object detection system이다.
하나의 단일 컨볼루션 신경망을 사용하여

Image Classification과 Localization(위치 탐지)을 한 번에 처리하는 One-stage Detector임.

3가지 특징
빠르다(그래서 real time 이라고 부름)
DPM보다는 정확하다
객체의 Generalizable Representation을 학습한다

(: 다양한 상황에서 동일한 객체를 인식할 수 있는 일반화된 특징 표현을 학습한다 => 안정성 GOOD)

* mAP(mean Average Precision)은 객체 탐지 모델의 성능을 평가하는 지표이다. 객체 탐지 모델에서 각 클래스별로 Precision와 Recall을 기반으로 한 Average Precision (AP)(== 곡선 아래 면적)을 계산하고, 모든 클래스에 걸쳐 평균을 낸 값을 mAP라고 함. 클수록 객체를 잘 탐지함.

방법론 - Detection 방식

Input 이미지를 S x S 의 Grid로 나누고

(예를 들어, S=7이라면 이미지는 7 × 7의 그리드로 나뉩니다)

이미지에 있는 객체의 중심이 포함된 grid cell은 해당 객체를 탐지함.

(If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object.)

각 Grid cell이 “하나의” 객체의 위치를 나타내는 bounding boxes를 예측한다. 그리고 각 bounding box에 대해 confidence score를 계산한다.

Pr(Object)는 객체가 포함되면 1, 없으면 0.
IoU (Intersection over Union)는 객체 탐지에서 예측된 grid cell과 실제 정답 bounding box(ground truth) 간의 겹치는 정도를 나타내는 지표
confidence score가 1에 가까울수록 좋음.
At training time we only want one bounding box predictor to be responsible for each object. We assign one predictor to be “responsible” for predicting an object based on which prediction has the highest current IOU with the ground truth.
각 bounding box 에 대해 Class-specific Confidence Score 계산하기(= Conditional Class Probabilities(객체가 특정 클래스에 속할 확률)과 Bounding Box의 Confidence Score(Bounding Box가 객체를 포함할 신뢰도 점수)를 곱해서 계산됩니다.)

방법론 - training

ImageNet의 1000-class Competition Dataset으로 첫 20개의 Convolutional Layers를 Pretraining하기
YOLO 모델이 Detection 작업을 할 수 있게 변환하기
Google Net에 4개의 Convolutional Layers와 2개의 Fully Connected Layers를 추가
Input Resolution을 224 x 224에서 448 x 448로 증가