AI·빅데이터 융합 경영학 Study Note

X_train, y_train, X_test가 뭐냐? - 머신러닝, 딥러닝에서 데이터를 나누는 이유 본문

AI·ML

X_train, y_train, X_test가 뭐냐? - 머신러닝, 딥러닝에서 데이터를 나누는 이유

SubjectOwner 2023. 12. 1. 18:00

https://lsjsj92.tistory.com/545

 

머신러닝, 딥러닝에서 데이터를 나누는 이유 - X_train, X_test, y_train, y_test이란?

최근 머신러닝 기초반 스터디를 진행하면서 느끼는 점이 있습니다. 또한, 이메일로 질문 받는 것중 적지 않는 질문이기도 합니다. 그 질문은 아래와 같습니다. 왜 머신러닝(machine learning), 딥러닝

lsjsj92.tistory.com

 

X_train : train 데이터의 피처

y_train : train 데이터의 라벨

 

https://ganghee-lee.tistory.com/38

 

Train / Test / Validation set의 차이

딥러닝에서 신경망 모델을 학습하고 평가하기 위해 dataset이 필요하다. 이때 dataset을 성질에 맞게 보통 다음 3가지로 분류한다. 1. Train set 2. Validation set 3. Test set 이렇게 각각 모델을 학습하고 검

ganghee-lee.tistory.com

 

validation set과 test set의 공통점은 이 데이터를 통해 모델을 update 즉, 학습을 시키지 않는다는 것이다.

이렇게 validation set과 test set은 둘다 이미 학습을 완료한 모델에 대해 평가하고 학습을 시키지 않는데

 

"그렇다면 둘의 차이는 과연 무엇일까?"

 

결론부터 말하자면 둘의 차이는 

Validation set은 모델을 update, 즉 학습을 시키진 않지만 학습에 '관여'는 한다.

Test set 학습에 전혀 관여하지 않고 오직 '최종 성능'을 평가하기 위해 쓰인다.