내 상황은 다음과 같습니다
간단한 선형 회귀 분석을 위해 잔차를 정규화하기 위해 로그 변환 한 연속 종속 변수 1 개와 연속 예측 변수 1 개가 있습니다.
이러한 변환 된 변수를 원래 컨텍스트와 연관시키는 방법에 대한 도움을 주시면 감사하겠습니다.
선형 회귀 분석을 사용하여 2010 년에 결석 한 날짜 수를 기준으로 2011 년에 결석 한 학생 수를 예측하려고합니다. 대부분의 학생들은 0 일이 걸리거나 며칠이 지나면 데이터가 긍정적으로 왼쪽으로 치우쳐 있습니다. 따라서 선형 회귀를 사용하려면 변환이 필요합니다.
두 변수 모두에 log10 (var + 1)을 사용했습니다 (0 일 학교를 결석 한 학생에게는 +1을 사용했습니다). 성별 / 민족성 등의 범주 요소를 추가하고 싶기 때문에 회귀를 사용하고 있습니다.
내 문제는 :
내가 피드백을주고 싶은 청중은 log10 (y) = log (constant) + log (var2) x (그리고 솔직히 나도)를 이해하지 못할 것입니다.
내 질문은 :
a) 회귀에서 변환 된 변수를 해석하는 더 좋은 방법이 있습니까? 즉, 2010 년 1 일 동안 누락 된 2010 년에 1 번의 로그 단위 변경이 아니라 2011 년에 1 번의 로그 단위 변경이있는 것과 달리 2011 년에는 2 일이 누락 될 것입니까?
b) 구체적 으로 다음과 같이이 출처 에서 인용 된 구절을 가정한다 .
"이것은 모델에서 다른 변수가 일정하게 유지되는 경우 수학 표준화 시험 점수의 한 단위 증가에 대한 음 이항 회귀 추정치입니다. 학생이 수학 시험 점수를 한 점씩 높이려면 모델의 다른 변수는 일정하게 유지하면서 예상 카운트는 0.0016 단위 감소 할 것으로 예상됩니다. "
나는 알고 싶다:
- 이 구절은
UNTRANSFORMED
변수 수학 점수의 1 단위 증가마다 상수 (a)에서 0.0016 감소를 초래하므로UNTRANSFORMED
수학 점수가 2 포인트 증가하면 상수 a에서 0.0016 * 2를 뺍니다. - 즉, 지수 (a)와 지수 (a + β * 2)를 사용하여 기하 평균을 구하고 예측 변수가 어떤 영향을 미치는지 말하기 위해이 둘 사이의 백분율 차이를 계산해야한다는 것을 의미합니까? 종속 변수에 있습니까?
- 아니면 내가 완전히 틀렸어?
SPSS v20을 사용하고 있습니다. 긴 질문 으로이 프레임을 만들어서 죄송합니다.
R
0 팽창 모델 용 패키지가 있습니다 . 이 사이트를 검색하십시오 .)