선형 회귀 분석에서 대수 변환 계수를 해석하는 방법은 무엇입니까?


10

내 상황은 다음과 같습니다

간단한 선형 회귀 분석을 위해 잔차를 정규화하기 위해 로그 변환 한 연속 종속 변수 1 개와 연속 예측 변수 1 개가 있습니다.

이러한 변환 된 변수를 원래 컨텍스트와 연관시키는 방법에 대한 도움을 주시면 감사하겠습니다.

선형 회귀 분석을 사용하여 2010 년에 결석 한 날짜 수를 기준으로 2011 년에 결석 한 학생 수를 예측하려고합니다. 대부분의 학생들은 0 일이 걸리거나 며칠이 지나면 데이터가 긍정적으로 왼쪽으로 치우쳐 있습니다. 따라서 선형 회귀를 사용하려면 변환이 필요합니다.

두 변수 모두에 log10 (var + 1)을 사용했습니다 (0 일 학교를 결석 한 학생에게는 +1을 사용했습니다). 성별 / 민족성 등의 범주 요소를 추가하고 싶기 때문에 회귀를 사용하고 있습니다.

내 문제는 :

내가 피드백을주고 싶은 청중은 log10 (y) = log (constant) + log (var2) x (그리고 솔직히 나도)를 이해하지 못할 것입니다.

내 질문은 :

a) 회귀에서 변환 된 변수를 해석하는 더 좋은 방법이 있습니까? 즉, 2010 년 1 일 동안 누락 된 2010 년에 1 번의 로그 단위 변경이 아니라 2011 년에 1 번의 로그 단위 변경이있는 것과 달리 2011 년에는 2 일이 누락 될 것입니까?

b) 구체적 으로 다음과 같이이 출처 에서 인용 된 구절을 가정한다 .

"이것은 모델에서 다른 변수가 일정하게 유지되는 경우 수학 표준화 시험 점수의 한 단위 증가에 대한 음 이항 회귀 추정치입니다. 학생이 수학 시험 점수를 한 점씩 높이려면 모델의 다른 변수는 일정하게 유지하면서 예상 카운트는 0.0016 단위 감소 할 것으로 예상됩니다. "

나는 알고 싶다:

  • 이 구절은 UNTRANSFORMED변수 수학 점수의 1 단위 증가마다 상수 (a)에서 0.0016 감소를 초래하므로 UNTRANSFORMED수학 점수가 2 포인트 증가하면 상수 a에서 0.0016 * 2를 뺍니다.
  • 즉, 지수 (a)와 지수 (a + β * 2)를 사용하여 기하 평균을 구하고 예측 변수가 어떤 영향을 미치는지 말하기 위해이 둘 사이의 백분율 차이를 계산해야한다는 것을 의미합니까? 종속 변수에 있습니까?
  • 아니면 내가 완전히 틀렸어?

SPSS v20을 사용하고 있습니다. 긴 질문 으로이 프레임을 만들어서 죄송합니다.



8
포아송 회귀를 대신 사용하려고 생각 했습니까? 자연스럽게 종속 계수 데이터로 표시되며 로그 변환을 통한 성공은 포아송 분포와 일치합니다. 계수는 학교 하루를 놓칠 것으로 예상되는 확률이 비례 적으로 증가하는 것으로 해석됩니다. 한 가지 장점은 0에 대한 특별한 처리가 필요하지 않다는 것입니다.
whuber

안녕하세요 Whuber, 그렇습니다. 포아송 회귀에 대해 생각하고 있었지만 이것에 대해 확신하지 못하거나 부정적인 이항 회귀에 대해 선택하지 않았습니다. 데이터가 과도하게 분산됨에 따라 음 이항으로 추측됩니다. 즉, 평균이 데이터 세트의 분산보다 작습니다 (따라서 양의 스큐). 또한 Poisson은 무제한 분모를 가정하는 반면 엄격하게는 학년도 학교 세션 수의 상한이 있습니까? 아니면 여전히 포아송이 더 적절하다고 생각하십니까? 불행히도 SPSS는 내가 본 한 제로 팽창 모델을 지원하지 않습니다 ...) 고마워 Whuber :)
JimBob

3
Poisson 분포의 무제한 지원에 문제가 보이지 않습니다. 정규 분포를 사용하여 음이 아닌 값을 모델링하는 것과 비슷합니다. 불가능한 값과 관련된 기회가 적 으면 그럼에도 불구하고 좋은 모델이 될 수 있습니다. 음 이항 법은 적합성과과 분산의 우수성을 테스트하는 데 사용되는 포아송의 표준 대안입니다. 좋은 생각입니다. SPSS가 너무 제한되어 있으면 다른 것을 사용하십시오! ( R0 팽창 모델 용 패키지가 있습니다 . 이 사이트를 검색하십시오 .)
whuber

2
@whuber에 동의합니다. ZIP 또는 ZINB 모델을 원할 것입니다. 나는 그것들이 또한 SAS에서 PROC COUNTREG (ETS)를 통해 SAS에서 이용 가능하고 SAS 9.2부터 PROC GENMOD (STAT)에서
Peter Flom

답변:


7

@whuber의 의견에서 더 중요한 점이 제안된다고 생각합니다. 대수를 취하면 2010 년이나 2011 년에 누락 된 날이없는 학생들을 효과적으로 데이터 세트에서 버릴 수 있기 때문에 전체 접근 방식이 잘못되었습니다. 문제가 될만한 사람들이 충분히있는 것 같습니다. 당신이 취하는 접근법에 따라 잘못 될 수 있습니다.

대신 포아송 응답을 사용하여 일반화 된 선형 모형을 적합시켜야합니다. 적절한 모듈에 대한 비용을 지불하지 않으면 SPSS가이를 수행 할 수 없으므로 R로 업그레이드하는 것이 좋습니다.

여전히 계수 해석에 문제가 있지만 기본적으로 적합한 모델을 갖는 것이 중요합니다.


변환을 사용하지 않는 이유는 무엇 입니까? 이것은 당신이 제기 한 문제를 해결할 것입니다. 그러나 역변환은 약간 더 복잡하고 해석이 더 어려울 수 있습니다. 여기에 게시물이 있습니다 : stats.stackexchange.com/questions/18694/…xlog(x+1)
toypajme

3

다른 응답자, 특히 모델 형식과 관련하여 동의합니다. 그러나 귀하의 질문에 대한 동기를 이해하면 일반 사용자를 대상 으로 하고 실질적인 내용 을 전달하고자합니다(이론적) 분석의 의미. 이를 위해 다양한 "시나리오"에서 예측 된 값 (예 : 누락 된 날짜)을 비교합니다. 선택한 모형을 바탕으로 예측 변수가 특정 고정 값 (예 : 중간 값 또는 0)에있을 때 종속 변수의 예상 수 또는 값을 비교 한 다음 예측 변수의 "의미있는"변화를 보여줄 수 있습니다. 예측에 영향을줍니다. 물론 데이터를 처음부터 이해할 수있는 원래의 스케일로 다시 변환해야합니다. 나는 "의미있는 변화"라고 말합니다. 표준 "X의 한 단위 변화"는 종종 독립 변수의 실제 수입 또는 부족을 전달하지 않기 때문입니다. "출석 데이터"를 통해 그러한 변화가 무엇인지 잘 모르겠습니다. (학생이 2010 년과 2011 년에 하루를 놓친 경우, 우리가 무엇을 배울 지 잘 모르겠습니다. 그러나 나는 모른다.)


2

모델 인 경우 의 1 단위 증가는 Y에서 ab 단위 증가를 기대할 수 있습니다 . 대신 가있는 경우 의 1 % 증가를 기대합니다 Y에서 단위 증가 를 산출합니다 .X Y = b 로그 ( X ) X b 로그 ( 1.01 )Y=bXXY=blog(X)Xblog(1.01)

편집 : 으악, 종속 변수도 로그 변환되었음을 알지 못했습니다. 다음은 세 가지 상황을 모두 설명하는 좋은 예가있는 링크입니다.

1) Y 만 변환 2) 예측 변수 만 변환 3) Y와 예측 변수 모두 변환

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm


1
안녕하세요 JC, 답장을 보내 주셔서 감사합니다. 일관성을 위해 종속 변수와 독립 변수를 모두 변환하는 접근 방식을 취했지만 IV와 비교하여 정규성을 위해 실제로 변환 해야하는 DV 만 있다는 것을 읽었습니다.
JimBob

실제로 제안한 링크를 보았지만 (특히 고마워) 두 가지 점에서 명확하지 않았습니다. 특히 기하학적 평균을 '실제'와 비교하는 것과 관련이 있지만 기하학적 평균을 사용하는 것이 모델링과 더 관련이 있다고 생각합니다 x의 단위 변화 당 y의 결과보다는 y에 대한 x 변화의 영향? 돌아가서 다시 읽어야한다고 생각합니다 ...
JimBob

2

필자는 종종 로그 변환을 사용하지만 이진 공변량을 사용하는 경향이 있습니다.이 곱셈은 승수 측면에서 자연스럽게 해석되기 때문입니다. 예를 들어 3 개의 이진 공변량 , 및 이 값을 취하는 를 예측한다고 가정합니다 . 이제 제시하는 대신 :X 1 X 2 X 3 { 0 , 1 }YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2 ,

간단하게 보여줄 수 있습니다 :

YC M1X1 M2X2 M3X3 ,

: , 및 승산기이다. 즉, 공변량 1 일 때마다 예측은 로 곱해진다 . 예를 들어 , 및 경우 예측은 다음과 같습니다.M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3 입니다.

나는 이것이 의 평균을 정확하게 예측하지 않기 때문에 사용 하고 있습니다 : 로그 정규 분포의 평균 매개 변수는 일반적으로 임의 변수의 평균이 아닙니다 (이것이없는 고전 선형 회귀의 경우와 같습니다) 로그 변환). 나는 여기에 정확한 언급이 없지만 이것이 단순한 추론이라고 생각합니다.Y


3
로그 정규 문제에 대해 걱정할 필요가 없습니다. 승수는 관계없이 정확합니다. (이 분산 모델에는 문제가있을 수 있습니다.) 이는 여기서 는 다음의 분산입니다. . BTW, 오타가 있는지 정의를 스캔하십시오 . σ 2 로그 ( Y ) M IE[Y]=Ceσ2/2e(X1W1+X2W2+X3W3)σ2log(Y)Mi
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.