머신 러닝의 일반적인 모범 사례는 예측 변수의 특징 정규화 또는 데이터 표준화를 수행하는 것입니다. 즉, 평균을 빼고 데이터를 중심에두고 분산 (또는 표준 편차도)으로 나누어 정규화하는 것입니다. 자립과 이해를 위해 두 가지 주요 목표를 달성하기 위해이 작업을 수행합니다.
- 수치 적 안정성을 위해 작은 모델 중량을 피하십시오.
- 컨쥬 게이트 그라디언트 (Conjugate Gradient)와 같은 최적화 알고리즘의 빠른 수렴을 보장하여 다른 하나의 예측 변수 차원이 큰 수렴으로 인해 수렴이 느려지지 않도록합니다.
우리는 일반적으로 데이터를 교육, 검증 및 테스트 세트로 분할합니다. 문헌에서 우리는 일반적으로 피쳐 정규화를 수행하기 위해 전체 예측 변수 세트에 대한 평균 및 분산 (또는 표준 편차)을 취합니다. 내가 여기서 볼 수있는 큰 결함은 실제로 그렇게한다면 미래 예측 정보를 훈련 예측 변수, 즉 평균과 분산에 포함 된 미래 정보에 도입한다는 것입니다.
따라서 훈련 데이터에 대한 정규화 기능을 수행하고 평균과 분산을 저장합니다. 그런 다음 훈련 평균과 분산을 사용하여 유효성 검증 및 테스트 데이터 세트의 예측 변수에 기능 정규화를 적용합니다. 이것에 근본적인 결함이 있습니까? 누구든지 더 나은 대안을 추천 할 수 있습니까?