다음과 같이 봅시다.
상습
a) 교육 데이터-모델 매개 변수를 선택하는 데 사용됩니다.
i) E.g., finding intercept and slope parameters for an ordinary linear
regression model.
ii) The noise in the training data-set is used in some extent
in over-fitting model parameters.
b) 유효성 검사 데이터-하이퍼 파라미터 선택에 사용됩니다.
i) E.g., we may want to test three different models at step 1.a, say
linear model with one, two or three variables.
ii) The validation data-set is independent from training data, and thus, they provide
'unbiased' evaluation to the models, which help to decide which
hyper-parameter to use.
iii) We note that, a model trained in 1.a, say y = b_0+b_1*x_1, does
not learn anything from this data-set. So, the noise in this data-
set is not used to over-fit the parameters (b_0, b_1), but, over-
fit exists in choosing which linear model to use (in terms of
number of variables).
c) 시험 데이터-위의 두 단계에서 출력의 신뢰를 얻는 데 사용
i) Used once a model is completely trained
1 부를 보는 또 다른 방법
a) 우리의 모델 후보 풀은 5-dimenson 세트입니다.
i) Dimension 1: number of variables to keep in the regression model,
e.g., [1, 2, 3].
ii) Dimension 2-5: (b_0, b_1, b_2, b_3).
b) 1a 단계는 모델 후보를 5 차원에서 1 차원으로 줄입니다.
c) 1b 단계는 모델 후보를 1 차원에서 1 차원으로 0 차원으로 줄입니다.
d) 그러나 OP는 위의 '최종'출력이 테스트 데이터 세트에서 충분히 성능이 좋지 않다고 생각할 수 있으므로 일반적인 선형 회귀 대신 릿지 회귀를 사용하여 전체 프로세스를 다시 실행합니다. 그런 다음 테스트 데이터 세트가 여러 번 사용되므로이 데이터의 노이즈로 인해 선형 회귀 또는 능선 회귀를 사용할지 여부를 결정하는 데 약간의 오차가 생길 수 있습니다.
e) 매개 변수, 하이퍼 파라미터, 모델 유형 및 전처리 방법이 포함 된 고차원 모델 풀을 처리하기 위해 우리가 이용할 수있는 데이터로 분리되는 것은 본질적으로 의사 결정 프로세스를 정의합니다.
i) Sequentially reducing the model pool to zero-dimension.
ii) Allocating data noise overfitting to different steps of dimension
reductions (overfitting the noise in the data is not avoidable but
could be allocated smartly).
OP의 질문에 대한 결론 및 답변
a) 2 분할 (트레이닝 및 테스트), 3 분할 (트레이닝, 검증 및 테스트) 또는 더 많은 스플릿 수는 본질적으로 차원을 줄이고 데이터를 할당하는 것 (특히 노이즈 및 과적 합의 위험)에 관한 것입니다.
b) 어떤 단계에서 '최종'모델 후보 풀이 나온 다음 차원을 순차적으로 줄이는 프로세스를 설계하는 방법을 생각할 수 있습니다.
i) At each step of reducing the dimensions, the output is satisfactory,
e.g., not using just 10 data points with large noise to estimate a
six-parameter liner model.
ii) There are enough data for you to reduce the dimension to zero
finally.
c) 달성 할 수없는 경우 b
i) Use model and data insight to reduce the overall dimensionality of
your model pool. E.g., liner regression is sensitive to outliers thus
not good for data with many large outliers.
ii) Choose robust non-parametric models or models with less number of
parameter if possible.
iii) Smartly allocating the data available at each step of reducing the
dimensionality. There is some goodness of fit tests to help us decide
whether the data we use to train the model is enough or not.