ML

훈련(Training set)/ 검증( Validation set)/ 테스트(Test set)

유랄라- 2021. 1. 21. 14:46
반응형

Training set(훈련 데이터 세트)

: 모델을 맞추는데 사용되는 데이터 샘플

 

Validation set (검증 데이터 세트)

:  모델 하이퍼 파라미터를 조정하는 동안 훈련 데이터 세트에 맞는 모델에 대한 공정한 평가를 제공하는데 사용되는 데이터 샘플 

: 이 데이터를 사용하여 모델 하이퍼 파라미터를 미세 조정

✌️모델의 성능 평가

 

Test set(테스트 데이터 세트)

: 학습 데이터 세트에 맞는 최종 모델에 대한 공정한 평가를 제공하는데 사용되는 데이터 샘플

: 훈련된 모델을 테스트 하는데 사용

✌️최종 성능평가

 

 

데이터 세트 A는 Training setTest set만 사용합니다.  A에서는 Test set가 훈련된 모델을 테스트합니다.

 

데이터 세트 B는 Training set, Validation set, Test set를 사용합니다. B에서는 Validation set가 훈련된 모델을 테스트 하고,Test set는 최종 모델을 평가합니다.

 

 

예를 들어 캐글대회에서 Validation set는 처음에 Training set와 함께 공개되고, 실제 Test set는 경쟁이 끝나면 공개됩니다. 

 

 

예측 편향, 과소적합, 과대적합을 방지하기위해 데이터를 분할 해야한다.

훈련데이터를 검증세트와 7:3, 8:2로 주로 분류하는데

sklearn의 train_test_split 함수를 사용한다.

 

 

 

 

 

reference)

en.wikipedia.org/wiki/Training,_validation,_and_test_sets

 

Training, validation, and test sets - Wikipedia

In machine learning, a common task is the study and construction of algorithms that can learn from and make predictions on data.[1] Such algorithms function by making data-driven predictions or decisions,[2] through building a mathematical model from input

en.wikipedia.org

towardsdatascience.com/train-validation-and-test-sets-72cb40cba9e7

 

About Train, Validation and Test Sets in Machine Learning

This is aimed to be a short primer for anyone who needs to know the difference between the various dataset splits while training Machine…

towardsdatascience.com

 

 

 

 

 

반응형