훈련 데이터 세트에 대해서만 탐색 적 데이터 분석을 수행하는 것이 더 낫습니까?


15

데이터 세트에서 탐색 적 데이터 분석 (EDA)을 수행하고 있습니다. 그런 다음 종속 변수를 예측하기 위해 일부 기능을 선택합니다.

문제는 :
훈련 데이터 세트에 대해서만 EDA를 수행해야합니까? 아니면 교육 및 테스트 데이터 세트에 함께 참여한 후 EDA를 수행하고이 분석을 기반으로 기능을 선택해야합니까?

답변:


6

http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf의 "7.10.2 잘못되고 올바른 교차 검증 방법"을 살펴 보는 것이 좋습니다 .

저자는 누군가가 다음을 수행하는 예를 제공합니다.

  1. 예측 변수 선별 : 클래스 레이블과 상당히 강한 (일 변량) 상관 관계를 나타내는 "좋은"예측 변수의 하위 집합을 찾습니다.
  2. 이 예측 변수의 하위 집합 만 사용하여 다변량 분류기를 만듭니다.
  3. 교차 검증을 사용하여 알려지지 않은 튜닝 파라미터를 추정하고 최종 모델의 예측 오차를 추정합니다

이는 모든 데이터에 대해 EDA를 수행하고 (예 : 훈련 및 테스트) EDA를 사용하여 "좋은"예측 변수를 선택하는 것과 매우 유사합니다.

저자는 이것이 왜 문제가되는지 설명합니다. 교차 검증 된 오류율은 인위적으로 낮아서 좋은 모델을 발견했다고 오해 할 수 있습니다.


1

따라서 종속 변수에 영향을 미치는 독립 변수를 식별하고 싶습니까?

그런 다음 두 가지 방법 모두 실제로 권장되지는 않습니다.

연구 질문을 정의한 후 이론을 개발해야합니다. 즉, 문헌을 사용하면 영향을 미칠 변수를 식별해야합니다 (이유를 설명 할 수 있어야 함).


6
이 견해는 통계적 테스트의 고전적 개념에 동의하는 것으로 생각되지만 (그렇지 않으면 나에게 동의하지 않음) 이것이 실현 불가능한 많은 현대 문제가 있습니다. 예를 들어, 20,000 개의 단백질 코딩 유전자 중 하나가 새로운 유전 질환과 관련이 있는지 확인하려고한다고 가정하십시오. 당신을 준비시킬 배경 이 없고 , "이론을 생각 해낼 수있는"방법이 없으며, EDA는 시작하는 유일한 방법입니다. EDA 확인 분석에 필요한 데이터가 충분 하면 실제로 어딘가에있을 수 있습니다.
Cliff AB

3
"당신의 이론을 발전시켜야한다"-그것은 좋은 생각이지만, 특히 산업계에서 항상 가능하지는 않다. 때로는 이론을 개발하지 않고도 예측을 계속 진행할 수 있습니다
Aksakal

1

테스트 데이터에 EDA를 적용하는 것이 잘못되었습니다.

교육은 최고의 모델을 만들기 위해 정답을 조사하는 프로세스입니다. 이 과정은 훈련 데이터에 대한 코드 실행에만 국한되지 않습니다. EDA의 정보를 사용하여 사용할 모델 결정, 매개 변수 조정 등 은 교육 과정의 일부 이므로 테스트 데이터에 액세스 할 수 없어야합니다. 따라서 테스트 데이터 만 사용하여 모델 성능을 확인하십시오.

또한 테스트하는 동안 모델의 성능이 좋지 않다는 사실을 깨닫고 다시 모델 조정으로 돌아 가면 좋지 않습니다. 대신 훈련 데이터를 둘로 나눕니다. 하나는 훈련에 사용하고 다른 하나는 모델을 테스트하고 조정하는 데 사용하십시오. 테스트 세트와 유효성 검사 세트의 차이점무엇입니까?를 참조하십시오 .


0

이 답변단락 이후 . Hastie는 p.245를 자세히 설명합니다 .

"이 예에서 교차 검증을 수행하는 올바른 방법은 다음과 같습니다.

  1. 샘플을 무작위로 K 교차 검증 배 (그룹)로 나눕니다.
  2. 각 폴드에 대해 k = 1, 2,. . . , K
    (a) 폴드 k에있는 샘플을 제외한 모든 샘플을 사용하여 클래스 레이블과 상당히 강한 (단 변량) 상관 관계를 나타내는 "좋은"예측 변수의 하위 집합을 찾습니다.
    (b)이 예측 변수의 부분 집합 만 사용하여 폴드 k의 표본을 제외한 모든 표본을 사용하여 다변량 분류기를 만듭니다.
    (c) 분류기를 사용하여 폴드 k의 샘플에 대한 클래스 라벨을 예측하십시오. "

-3

전체 데이터 세트에서 EDA를 수행합니다. 예를 들어 Leave-one-Out 교차 검증을 사용하는 경우 EDA 는 교육 데이터 세트 에서만 어떻게 수행 합니까? 이 경우 모든 관찰은 최소한 한 번은 훈련과 홀드 아웃입니다.

따라서 아닙니다. 전체 샘플의 데이터에 대한 이해를 형성합니다. 산업 시설에 있다면 더욱 분명합니다. 회사의 이해 당사자들에게 데이터의 추세와 일반적인 설명을 보여 주어야하며 전체 샘플에서이를 수행해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.