활동에서 독립 변수로 소비 한 시간


14

선형 모델에서 무언가 (예를 들어 모유 수유)를 독립 변수로 포함시키는 데 시간을 포함하고 싶습니다. 그러나 일부 관찰은 동작에 전혀 관여하지 않습니다. 0이 0보다 큰 값과 질적으로 다르기 때문에 0으로 코딩하는 것은 실제로 옳지 않습니다. 내가 생각해 낼 수있는 최선의 방법은 소요 시간을 분류하는 일련의 인형이지만, 이것은 귀중한 정보의 낭비입니다. 0으로 부풀린 Poisson과 같은 것도 가능성이있는 것처럼 보이지만이 맥락에서 어떻게 보일지 정확히 알 수는 없습니다. 누구든지 제안이 있습니까?

답변:


16

@ ken-butler의 답변을 조금 확장하십시오. 연속 변수 (시간)와 특수 값 (시간 = 0 또는 비 가장 먹이기)에 대한 표시기 변수를 모두 추가하면 "비 특수"값에 대한 선형 효과가 있고 특별한 가치에서 예측 된 결과. 그래프를 보는 것이 (적어도) 도움이됩니다. 아래 예에서 우리는 응답자 (모든 여성)가 일하는 주당 시간의 함수로 시간당 임금을 모형화하고 주당 40 시간의 "표준"에 대해 특별한 것이 있다고 생각합니다.

여기에 이미지 설명을 입력하십시오

Stata에서이 그래프를 생성 한 코드는 다음에서 찾을 수 있습니다. http://www.stata.com/statalist/archive/2013-03/msg00088.html .

따라서이 경우 다른 변수와 다르게 처리되기를 원하지만 연속 변수에 값 40을 할당했습니다. 마찬가지로, 다른 수치 들과는 질적으로 다르다고 생각하더라도 몇 주 동안 모유 수유에 0의 값을 줄 것입니다. 나는 이것이 문제라고 생각하는 아래의 의견을 해석합니다. 이것은 사실이 아니므로 상호 작용 항을 추가 할 필요가 없습니다. 실제로, 시도하면 완벽한 공선 성으로 인해 해당 상호 작용 항이 삭제됩니다. 이는 제한 사항이 아니며 상호 작용 용어에 새로운 정보가 추가되지 않음을 나타냅니다.

회귀 방정식이 다음과 같다고 가정하십시오.

y^=β1weeks_breastfeeding+β2non_breastfeeding+

여기서 (모유 그렇지 않은 값 0을 포함) 모유 주의 수이고 n은 O , N _ B의 R E S t F E , E는 거라고 난을 N gweeks_breastfeedingnon_breastfeeding 는 누군가가 모유 수유를하지 않을 때 1이고 그렇지 않으면 0 인 지표 변수입니다.

누군가가 모유 수유를 할 때 어떤 일이 발생하는지 고려하십시오. 회귀 방정식은 다음과 같이 단순화됩니다.

y^=β1weeks_breastfeeding+β20+=β1weeks_breastfeeding+

그래서 β1 은 모유 수유를하는 사람들에게 모유 수유 기간의 선형 효과 일뿐입니다.

누군가가 모유 수유를하지 않을 때 어떤 일이 일어나고 있는지 생각해보십시오.

y^=β10+β21+=β2+

따라서 는 모유 수유가 아닌 효과와 모유 수유 주 수를 방정식에서 떨어 뜨립니다.β2

상호 작용 용어가 이미 암시 적으로 있기 때문에 상호 작용 용어를 추가 할 필요가 없음을 알 수 있습니다.

β2weeks_breastfeedingweeks_breastfeedingβ2


1
답변 (및 기타)에 감사하지만 답변을받는 데 어려움을 겪고 있습니다. 1 : 0과 연속 시간 변수를 포함 시키면, 비유 방 지류에게 시간 값을 지정해야합니다 (또는 그렇지 않은 공변량에 대해서는 하락합니다). 1 : 0 변수에 조건부조차도 시간이 0이 아닌 비 피더를 포함시키는 것이 회귀 계수에 어떻게 영향을 미치지 않는지 알 수 없습니다. 아마도 둘 사이에 제품 상호 작용 용어를 추가하는 것이 더 합리적입니까?
DL Dahly

@DLDahly 나는 이러한 의심을 처리하기 위해 내 답변을 편집했습니다
Maarten Buis

좋습니다. 매우 도움이됩니다. 한 번 더 빠른 후속 조치를 요청하겠습니다 ... 정확하게 이해하고 있다면, B1 = 1에게 제공하는 시간 값에 관계없이 B1의 예상 값은 동일해야합니다. 맞습니까?
DL Dahly

1
매우 좋은 반응 Maarten. 다음은 특정 하위 그룹과 관련된 독립 변수를 포함하는 비슷한 상황을 보여주는 사이트의 유사한 질문 / 답변입니다 .
Andy W

1
@ GavinM.Jones 나는 그것을 명명하거나 인용 할 필요성을 결코 생각하지 않았다 : 그것은 연속적이고 지표 변수들의 간단한 적용 일 뿐이다. 결과적으로 나는 당신에게 좋은 참고 자료가 없습니다. 내가 빨리 파헤칠 수있는 것은 Treiman, DJ (2009) : Quantitative Data Analysis입니다. 아이디어를 테스트하기 위해 사회 연구 수행. 샌프란시스코 : Jossey-Bass. , 7 장은 비슷한 것을 논의했다. 모델은 상수를 포함합니다.
Maarten Buis

6

간단한 것 : 1/0에 대한 1/0 표시기와 실제 값으로 변수를 나타냅니다. 둘 다 회귀에 넣습니다.


4

소요 시간 (= 1) 대 비 시간 소비 (= 0)에 대한 이진 표시기를 넣은 다음 연속 변수로 소비 한 시간을 갖는 경우 "0"횟수의 다른 효과는 " 0-1 표시기로 픽업


2

0 시간 대 0이 아닌 시간을 기준으로 그룹화하여 혼합 효과 모델을 사용하고 독립 변수를 유지할 수 있습니다


좀 더 확장 해 주시겠습니까? 많은 감사합니다.
DL Dahly

혼합 효과 모델은 데이터를 서로 다른 (이종) 버킷으로 나누는 요인이 있다고 가정합니다. 각 버킷에서 설명 변수와 종속 변수 사이의 관계가 다를 수 있습니다 (절편 또는 가로 채기 및 기울기 / 계수 측면). en.wikipedia.org/wiki/Mixed_model
rezakhorshidi

모유 수유 상태에 중첩 된 개인을 사용하고 주 수유 수유에서 임의의 기울기를 사용합니까? 이 작업을 SEM으로 쉽게 수행하고 특정 제약 조건을 테스트 할 수 있습니다. 감사 +1
DL Dahly

1

랜덤 포레스트 또는 신경망을 사용하는 경우이 숫자를 0으로 설정하면 괜찮습니다. 왜냐하면 0이 다른 값과 분명히 다르다는 것을 알 수 있기 때문입니다 (실제로 다른 경우). 다른 방법은 시간 변수 외에 범주 형 변수 yes / no를 추가하는 것입니다.

그러나 결국,이 특별한 경우에 나는 실제 문제를 보지 못합니다-0.1 주 모유 수유는 0에 가깝고 효과는 매우 비슷하므로 0은 무언가로 눈에 띄지 않는 꽤 연속적인 변수처럼 보입니다. 뚜렷한.


3
첫 번째 단락에서 +1이지만 사회 과학 또는 의료 데이터를 다루지 만 0 대 0.1 주 동안의 효과는 큰 걱정이 아닙니다. 요점은 모유 수유를 전혀 시도하거나보고하지 않는 여성은 다른 많은 측면 (건강 문제, 소득, 가족 상황, 일을 할 수없는 능력, 건강 서비스 이용, 정보를 얻을 수있는 곳)에서 체계적으로 다를 수 있다는 것입니다 육아 등))이 여성들이 모유 수유를 시도하고 빨리 멈추는 어머니와 매우 유사하다고 믿을 이유가 없습니다.
갈라

1
통계적 관점에서 볼 때 이러한 다른 변수를 모델에 명시 적으로 넣는 것이 좋지만 0에 특별한 일이 없다고 가정하면 조심해야한다고 생각합니다.
갈라

0

Tobit 모델 은 당신이 원하는 것입니다.


5
결과가 일부 임계 값 위 또는 아래에서 검열 될 때 비트가 사용됩니다. 예를 들어, 최저 임금 이하의 임금이나 일부 코드화 된 가치 이상의 소득은 관찰되지 않습니다. 이 응용 프로그램은 독립 변수입니다.
Dimitriy V. Masterov
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.