답변:
@ ken-butler의 답변을 조금 확장하십시오. 연속 변수 (시간)와 특수 값 (시간 = 0 또는 비 가장 먹이기)에 대한 표시기 변수를 모두 추가하면 "비 특수"값에 대한 선형 효과가 있고 특별한 가치에서 예측 된 결과. 그래프를 보는 것이 (적어도) 도움이됩니다. 아래 예에서 우리는 응답자 (모든 여성)가 일하는 주당 시간의 함수로 시간당 임금을 모형화하고 주당 40 시간의 "표준"에 대해 특별한 것이 있다고 생각합니다.
Stata에서이 그래프를 생성 한 코드는 다음에서 찾을 수 있습니다. http://www.stata.com/statalist/archive/2013-03/msg00088.html .
따라서이 경우 다른 변수와 다르게 처리되기를 원하지만 연속 변수에 값 40을 할당했습니다. 마찬가지로, 다른 수치 들과는 질적으로 다르다고 생각하더라도 몇 주 동안 모유 수유에 0의 값을 줄 것입니다. 나는 이것이 문제라고 생각하는 아래의 의견을 해석합니다. 이것은 사실이 아니므로 상호 작용 항을 추가 할 필요가 없습니다. 실제로, 시도하면 완벽한 공선 성으로 인해 해당 상호 작용 항이 삭제됩니다. 이는 제한 사항이 아니며 상호 작용 용어에 새로운 정보가 추가되지 않음을 나타냅니다.
회귀 방정식이 다음과 같다고 가정하십시오.
여기서 (모유 그렇지 않은 값 0을 포함) 모유 주의 수이고 n은 O , N _ B의 R E S t F E , E는 거라고 난을 N g 는 누군가가 모유 수유를하지 않을 때 1이고 그렇지 않으면 0 인 지표 변수입니다.
누군가가 모유 수유를 할 때 어떤 일이 발생하는지 고려하십시오. 회귀 방정식은 다음과 같이 단순화됩니다.
그래서 은 모유 수유를하는 사람들에게 모유 수유 기간의 선형 효과 일뿐입니다.
누군가가 모유 수유를하지 않을 때 어떤 일이 일어나고 있는지 생각해보십시오.
따라서 는 모유 수유가 아닌 효과와 모유 수유 주 수를 방정식에서 떨어 뜨립니다.
상호 작용 용어가 이미 암시 적으로 있기 때문에 상호 작용 용어를 추가 할 필요가 없음을 알 수 있습니다.
소요 시간 (= 1) 대 비 시간 소비 (= 0)에 대한 이진 표시기를 넣은 다음 연속 변수로 소비 한 시간을 갖는 경우 "0"횟수의 다른 효과는 " 0-1 표시기로 픽업
0 시간 대 0이 아닌 시간을 기준으로 그룹화하여 혼합 효과 모델을 사용하고 독립 변수를 유지할 수 있습니다
랜덤 포레스트 또는 신경망을 사용하는 경우이 숫자를 0으로 설정하면 괜찮습니다. 왜냐하면 0이 다른 값과 분명히 다르다는 것을 알 수 있기 때문입니다 (실제로 다른 경우). 다른 방법은 시간 변수 외에 범주 형 변수 yes / no를 추가하는 것입니다.
그러나 결국,이 특별한 경우에 나는 실제 문제를 보지 못합니다-0.1 주 모유 수유는 0에 가깝고 효과는 매우 비슷하므로 0은 무언가로 눈에 띄지 않는 꽤 연속적인 변수처럼 보입니다. 뚜렷한.
Tobit 모델 은 당신이 원하는 것입니다.