AI·빅데이터 융합 경영학 Study Note

[ML수업] 7주차 이론: ensemble(앙상블) 본문

AI·ML

[ML수업] 7주차 이론: ensemble(앙상블)

SubjectOwner 2023. 11. 21. 15:51

Key Idea

  You can combine classifiers by averaging/voting

◼ Combining classifiers improve accuracy

◼ Combining classifiers reduce interpretability

 

 

 

1. Voting Ensemble (투표 앙상블):

  • 방법: 각기 다른 모델들이 예측한 결과에서 다수결을 따르는 방식입니다. 예를 들어, 여러 모델의 예측 결과 중에서 가장 많이 등장한 값을 최종 예측값으로 선택합니다.
  • 종류:
    • Hard Voting: 각 모델이 예측한 클래스 중에서 가장 많은 표를 받은 클래스를 최종 결과로 결정합니다.
    • Soft Voting: 각 모델의 예측 확률을 평균내어, 확률이 가장 높은 클래스를 선택합니다.
  • 장점: 쉽게 구현할 수 있으며, 개별 모델보다 더 나은 성능을 보이는 경우가 많습니다.

2. Averaging (평균화 앙상블):

  • 방법: 각 모델의 예측 값을 단순히 평균내어 최종 예측값으로 사용합니다. 주로 회귀 문제에서 사용되며, 분류 문제에서도 확률을 평균화하여 사용할 수 있습니다.
  • 장점: 예측 결과의 안정성을 높여, 하나의 모델에 과하게 의존하지 않도록 도와줍니다.
  • 예시: 예측값이 [100, 105, 110]이라면, 평균값인 105를 최종 예측값으로 사용.

3. Stacked Generalization (Stacking):

  • 방법: 여러 개의 모델을 결합하여, 각각의 예측값을 새로운 입력 데이터로 사용하여 메타 모델(meta-model)을 학습시킵니다. 각 모델의 예측 결과를 조합해 최종 모델에서 예측하도록 하는 구조입니다.
  • 단계:
    1. 여러 기본 모델(base model)이 각각 데이터를 학습하여 예측을 만듭니다.
    2. 각 모델의 예측 결과를 메타 모델의 입력으로 사용하여 최종 예측값을 생성합니다.
  • 장점: 다양한 모델들의 강점을 결합하여 높은 성능을 얻을 수 있습니다.
  • 단점: 복잡성이 증가하며, 학습 과정이 더 오래 걸릴 수 있습니다.

 

(땡큐 지피티)

요약: stacking이 가장 좋고 많이 쓰이는 기법이니 나머지는 이름만 알고 넘어가자.

 

데이터가 많을수록 분석 정확도가 높아지는 것처럼

다양한 모델을 평균낼수록 이상적인 모델(검은색 선)에 가까워진다.

 

(출처: https://github.com/vecxoz/vecstack/blob/master/pic/animation1.gif)