열차 / 유효 / 테스트 세트의 평균 빼기에 대한 질문


11

데이터 전처리를하고 데이터에 Convonets를 구축하려고합니다.

내 질문은 : 100 개의 이미지가있는 총 데이터 세트가 있고 100 개의 이미지 중 하나에 대한 평균을 계산 한 다음 각 이미지에서 뺀 다음 기차와 유효성 검사 세트로 나눕니다. 주어진 테스트 세트에서 처리하는 단계이지만 다음 링크에 따라 올바른 방법이 아닌 것 같습니다 : http://cs231n.github.io/neural-networks-2/#datapre

" 공통 함정 . 전처리에 대해 중요한 점은 전처리 통계 (예 : 데이터 평균)를 훈련 데이터에서만 계산 한 다음 유효성 검사 / 테스트 데이터에 적용해야한다는 것입니다. 예를 들어 평균 계산 및 빼기 전체 데이터 세트에 걸쳐 모든 이미지를 기록한 다음 데이터를 기차 / val / 테스트 분할로 분할하는 것은 실수가 아니라, 평균은 교육 데이터에 대해서만 계산 된 다음 모든 분할 (트레인 / val / 테스트)에서 똑같이 빼야합니다. "

저자가 말한 것을 추측하고 있습니다. 평균을 계산하고 각 이미지 내에서 빼지 말고 전체 이미지 세트의 평균 (예 : (image1 + ... + image100) / 100)을 계산하고 평균을 빼십시오. 각 이미지.

아무도 이해할 수없는 것을 이해하지 못합니까? 또한 내가하고있는 일이 왜 잘못되었는지 설명하십시오 (실제로 잘못 된 경우).


커뮤니티에 오신 것을 환영합니다. 아래 답변을 참조하십시오.
usεr11852

답변:


6

총 100 개의 이미지가 있다고 가정 해 봅시다. 90은 훈련 데이터이고 10은 시험 데이터입니다.

저자는 전체 100 개의 이미지 샘플을 사용하여 샘플 평균을 계산한다고 올바르게 주장합니다. μ^잘못되었습니다. 이 경우 정보 유출이 발생하기 때문입니다. "샘플이 아닌"요소의 정보는 학습 세트로 이동합니다. 특히μ^, 90 개 이미지 대신 100 개를 사용하는 경우 훈련 세트에 필요한 것보다 더 많은 정보를 제공 할 수 있습니다. 결과적으로 훈련 오류가 예상보다 낮을 수 있습니다.

추정 μ^교육 / 검증 / 테스트 절차 전반에 걸쳐 일반적입니다. 똑같다μ^모든 데이터를 중앙에 배치하는 데 사용됩니다. (나중에 각 이미지의 평균을 사용하여 해당 이미지의 중심에 약간의 인상을주기 때문에 나중에 언급합니다.)


답을 주셔서 감사합니다. 그리고 네, 각 이미지의 평균을 계산하고 있습니다.μ^실제로 각 단일 이미지 대신 전체 90 개의 교육 이미지로 계산해야합니까? 이유가 무엇입니까? 90 개의 트레이닝 세트에서 각 개별 이미지를 중앙에 맞출 수 없습니까?
Sam

1
견적 μ^이미지 자체 여야합니다. 각각을 개별적으로 중심에 맞추면 전체 샘플의 전체 추세를 제어하지 않습니다.
usεr11852

더 많은 정보를 갖는 것이 왜 우리 모델에 해를 끼치 겠는가? 이로 인해 "샘플 외부 응답 변수"정보가 훈련에 방해가되지 않습니다. 왜 열차 오류가 낮을까요?
GeneX

1
유효한 정보는 결코 "모델을 손상시키지"않습니다. 사용할 모델을 결정한 후 (일부 리샘플링 / 홀드 아웃 구성표에 따라) 모든 데이터대해 최종 모델을 학습합니다 . 그럼에도 불구하고 우리가 추정하면 훈련 할 때μ^전체 데이터 세트를 사용하여이 추가 정보는 비현실적인 좋은 통찰력을 반영합니다. 이는 훈련 중에 사용할 수없는 테스트 데이터에 대해 알고 있기 때문에 예상보다 테스트 오류를 ​​낮출 수 있습니다. ( : 신체 활동 모델을 개발한다고 가정 해 봅시다. 우리의 데이터에는 10 대, 성인, 노인 및 (계속)
usεr11852

... 어쩌면 어떤 노인이든 모든 노인들이 시험 세트에 들어갑니다. 훈련 세트에서만 평균 연령을 계산하면 전체 샘플보다 평균 연령이 낮아질 것입니다. 이 명백하게 편향된 평균 연령을 사용하면 다른 연령으로 잘 일반화되지 않으면 모델의 A성능이 저하 될 A수 있습니다. 전체 데이터 세트에서 평균 연령을 계산하면보다 대표적인 평균을 얻을 수 있습니다. 이제이 편견없는 평균 연령을 모델에 사용하면 다른 연령으로 잘 일반화되지 않아도 A이전보다 더 나은 성능을 얻을 수 A있습니다.)
usεr11852
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.