AI·빅데이터 융합 경영학 Study Note

[논문리뷰]YOLO: You Only Look Once​: Unified, Real-Time Object Detection 본문

카테고리 없음

[논문리뷰]YOLO: You Only Look Once​: Unified, Real-Time Object Detection

SubjectOwner 2026. 5. 10. 12:05

논문의 주제, 결론
: YOLO(You Only Look Once) 제시

 

  • real-time object detection system이다.
  • 하나의 단일 컨볼루션 신경망을 사용하여

Image ClassificationLocalization(위치 탐지)한 번에 처리하는 One-stage Detector.

  • 3가지 특징
  • 빠르다(그래서 real time 이라고 부름)
  • DPM보다는 정확하다
  • 객체의 Generalizable Representation을 학습한다

(: 다양한 상황에서 동일한 객체를 인식할 수 있는 일반화된 특징 표현을 학습한다 => 안정성 GOOD)

* mAP(mean Average Precision)은 객체 탐지 모델의 성능을 평가하는 지표이다. 객체 탐지 모델에서 각 클래스별로 PrecisionRecall을 기반으로 한 Average Precision (AP)(== 곡선 아래 면적)을 계산하고, 모든 클래스에 걸쳐 평균을 낸 값을 mAP라고 함. 클수록 객체를 잘 탐지함.

 

 

방법론 - Detection 방식

  • Input 이미지를 S x S Grid로 나누고

(예를 들어, S=7이라면 이미지는 7 × 7의 그리드로 나뉩니다)

  • 이미지에 있는 객체의 중심이 포함된 grid cell은 해당 객체를 탐지.

(If the center of an object falls into a grid cell, that grid cell is responsible for detecting that object.)

  • Grid cell하나의객체의 위치를 나타내는 bounding boxes 예측한다. 그리고 각 bounding box에 대해 confidence score 계산한다.
  • Pr(Object)는 객체가 포함되면 1, 없으면 0. 
  • IoU (Intersection over Union)는 객체 탐지에서 예측된 grid cell 실제 정답 bounding box(ground truth) 간의 겹치는 정도를 나타내는 지표
  • confidence score 1에 가까울수록 좋음.
  • At training time we only want one bounding box predictor to be responsible for each object. We assign one predictor to be “responsible” for predicting an object based on which prediction has the highest current IOU with the ground truth.
  • bounding box 에 대해 Class-specific Confidence Score 계산하기(= Conditional Class Probabilities(객체가 특정 클래스에 속할 확률)Bounding BoxConfidence Score(Bounding Box가 객체를 포함할 신뢰도 점수)를 곱해서 계산됩니다.)

방법론 - training

  • ImageNet1000-class Competition Dataset으로 첫 20개의 Convolutional LayersPretraining하기
  • YOLO 모델이 Detection 작업을 할 수 있게 변환하기
  • Google Net4개의 Convolutional Layers2개의 Fully Connected Layers를 추가
  • Input Resolution224 x 224에서 448 x 448로 증가
  • 마지막 layer를 제외하고 Leaky ReLU Activation Function 적용.

 

사용한 데이터셋

  • PASCAL VOC 2007, 2012 데이터셋 (20개 클래스의 다양한 객체 이미지로 구성되어 있으며, 객체 탐지 모델 성능 평가에 자주 사용됨.)

- COCO 데이터셋

(Microsoft Common Objects in Context)

(더 많은 객체 클래스와 다양한 이미지로 구성됨. 모델의 일반화 성능을 평가하기 위해 사용됨.)