존재하지 않는 (누락되지 않은) 데이터를 처리하는 방법은 무엇입니까?


11

나는 어떤 종류의 분류 자에 대한 입력을 위해 존재하지 않는 데이터를 처리하는 방법에 대한 좋은 텍스트 나 예제를 찾지 못했습니다. 누락 된 데이터에 대해 많이 읽었지만 다변량 입력과 관련하여 존재하지 않거나 존재하지 않는 데이터에 대해 수행 할 수있는 작업을 읽었습니다. 나는 이것이 매우 복잡한 질문이며 사용 된 교육 방법에 따라 다를 수 있음을 이해합니다 ...

예를 들어, 정확한 정확한 데이터를 가진 여러 주자에 대한 랩타임을 예측하려는 경우. 많은 입력 중 많은 것 중에서 가능한 변수는 다음과 같습니다.

  1. 입력 변수-최초 러너 (Y / N)
  2. 입력 변수-이전 랩타임 (0-500 초)
  3. 입력 변수-연령
  4. 입력 변수-높이. . . 더 많은 입력 변수 등

& Output Predictor-예상 랩타임 (0-500 초)

'2. 이전 랩타임'에 대한 '결측 변수'는 '1. 첫 러너는 항상 N과 같습니다. 그러나 'NON EXISTENT DATA'(처음 주자) ( '1. 첫 번째 주자'= Y)의 경우 '2에 어떤 값 / 치료를 제공해야합니까? 이전 랩타임?

예를 들어 '2를 할당합니다. 이전 랩 타임 -99 또는 0으로 인해 분포가 급격히 왜곡되어 새로운 러너가 잘 수행 한 것처럼 보일 수 있습니다.

현재 훈련 방법은 로지스틱 회귀, SVM, NN 및 의사 결정 트리를 사용하고 있습니다.


나는 때문에 내재 된 불확실성을 모두 교육 및 예측 데이터에서 새로운 주자를 폐기했습니다 추가해야하지만, '무시'보다 더 좋은 방법을 부탁드립니다
osknows

답변:


6

존재하지 않는 첫 번째 주자 이전 랩 타임에 특별한 값을 할당하는 대신, 첫 번째 주자 더미의 역으로 ​​이전 랩 타임에 대한 상호 작용 항을 사용하십시오.

Yi=β0+β1FTRi+β2(NFTRi)×PLTi+...

여기

  • Yi 는 입력 변수입니다.
  • ... 다른 변수입니다.
  • FTRi 는 처음 주자에게는 더미입니다.
  • PLTi 는 이전 랩 타임이며
  • NFTRi 는 일 때 1이 아닌 첫 번째가 아닌 러너에 대해 더미 이고 그렇지 않으면 0입니다.FTRi=0

그런 다음 처음 주자 모델은 다음과 같습니다.

Yi=(β0+β1)+...

그리고 처음이 아닌 주자 :

Yi=β0+β2PLTi+...

8

모형에 (1)과 (2)가 모두있는 한 (2)에 대해 새로운 러너를 제공하는 "기본"값에 관계없이 (1)에 대한 추정치 그에 따라 조정됩니다.

예를 들어, 은 "새로운 러너"에 대한 표시기 변수이고 는 "이전 랩타임 (초)"변수입니다. 선형 예측 변수는 다음과 같습니다.X1X2

η=α+β1X1+β2X2+

의 기본값 이 0이면 새 러너의 선형 예측 변수는 다음과 같습니다.X2

η=α+β1+

기존 러너의 경우 다음과 같습니다.

η=α+β2X2+

이제 의 기본값을 0에서 -99로 변경한다고 가정하십시오 . 이제 새로운 러너의 선형 예측 변수는 다음과 같습니다.X2

η=α+β199β2+

그러나 기존 러너의 경우 동일하게 유지됩니다. 따라서 여러분이 수행 한 모든 것은 과 같이 모델의 매개 변수를 다시 설정하는 것입니다.β199β2=β1

물론 최대 가능성을 사용하지 않는 경우 (즉, 어떤 종류의 벌칙을 사용하거나 매개 변수를 사용하는 경우)에 따라 벌칙을 조정하지 않으면 다른 값을 얻게됩니다. 그리고 모델이 비선형 인 경우 (예 : SVM, NN & 의사 결정 트리)이 인수는 전혀 작동하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.