-
훈련(Training set)/ 검증( Validation set)/ 테스트(Test set)ML 2021. 1. 21. 14:46반응형
Training set(훈련 데이터 세트)
: 모델을 맞추는데 사용되는 데이터 샘플
Validation set (검증 데이터 세트)
: 모델 하이퍼 파라미터를 조정하는 동안 훈련 데이터 세트에 맞는 모델에 대한 공정한 평가를 제공하는데 사용되는 데이터 샘플
: 이 데이터를 사용하여 모델 하이퍼 파라미터를 미세 조정
✌️모델의 성능 평가
Test set(테스트 데이터 세트)
: 학습 데이터 세트에 맞는 최종 모델에 대한 공정한 평가를 제공하는데 사용되는 데이터 샘플
: 훈련된 모델을 테스트 하는데 사용
✌️최종 성능평가
데이터 세트 A는 Training set와 Test set만 사용합니다. A에서는 Test set가 훈련된 모델을 테스트합니다.
데이터 세트 B는 Training set, Validation set, Test set를 사용합니다. B에서는 Validation set가 훈련된 모델을 테스트 하고,Test set는 최종 모델을 평가합니다.
예를 들어 캐글대회에서 Validation set는 처음에 Training set와 함께 공개되고, 실제 Test set는 경쟁이 끝나면 공개됩니다.
예측 편향, 과소적합, 과대적합을 방지하기위해 데이터를 분할 해야한다.
훈련데이터를 검증세트와 7:3, 8:2로 주로 분류하는데
sklearn의 train_test_split 함수를 사용한다.
reference)
en.wikipedia.org/wiki/Training,_validation,_and_test_sets
towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7
반응형'ML' 카테고리의 다른 글
[Computer Vision] Image Processing Operators (영상처리의 연산자) (0) 2023.04.29 리지회귀( Ridge regression) vs 라소회귀(Lasso regression) / L1 Norm vs L2 Norm (0) 2021.01.21