예. 알고리즘이 정규화 된 훈련 데이터와 함께 작동하거나 정규화 된 훈련 데이터가 필요한 경우 테스트 데이터에 정규화를 적용해야합니다.
모델이 입력 벡터가 제공하는 표현에서 작동하기 때문입니다. 그 숫자의 규모는 표현의 일부입니다. 이것은 피트와 미터 사이의 변환과 약간 같습니다. . . 모델이나 공식은 일반적으로 한 가지 유형의 단위로만 작동합니다.
정규화가 필요할뿐만 아니라 훈련 데이터와 동일한 스케일링을 적용해야합니다. 이는 트레이닝 데이터에 사용 된 스케일과 오프셋을 저장하고 다시 사용하는 것을 의미합니다. 일반적인 초보자 실수는 열차와 테스트 데이터를 별도로 정규화하는 것입니다.
Python과 SKLearn에서는 다음 과 같이 Standard Scaler를 사용하여 입력 / X 값을 정규화 할 수 있습니다 .
scaler = StandardScaler()
train_X = scaler.fit_transform( train_X )
test_X = scaler.transform( test_X )
train_X
매개 변수에 맞는 함수를 사용하여 변환 한 다음 어떻게 정규화되는지 확인하십시오 . test_X
열차 데이터에서 얻은 것과 동일한 매개 변수를 사용하여 변환이 변환되는 동안 .
적용하는 tf-idf 정규화는 데이터 세트 전체에서 일부 매개 변수 (모든 문서의 단어 빈도)를 배우고 각 문서에서 찾은 비율을 사용하므로 비슷하게 작동합니다.
* 일부 알고리즘 (예 : 의사 결정 트리 기반 알고리즘)은 정규화 된 입력이 필요하지 않으며 고유 한 스케일이 다른 기능에 대처할 수 있습니다.