종속 변수, 종속 변수 및 독립 변수 또는 독립 변수 만 로그 변환인지 해석에 차이가 있는지 궁금합니다.
의 경우를 고려
log(DV) = Intercept + B1*IV + Error
IV를 백분율 증가로 해석 할 수 있지만
log(DV) = Intercept + B1*log(IV) + Error
또는 내가있을 때
DV = Intercept + B1*log(IV) + Error
?
종속 변수, 종속 변수 및 독립 변수 또는 독립 변수 만 로그 변환인지 해석에 차이가 있는지 궁금합니다.
의 경우를 고려
log(DV) = Intercept + B1*IV + Error
IV를 백분율 증가로 해석 할 수 있지만
log(DV) = Intercept + B1*log(IV) + Error
또는 내가있을 때
DV = Intercept + B1*log(IV) + Error
?
답변:
Charlie는 훌륭하고 올바른 설명을 제공합니다. UCLA의 통계 계산 사이트에는 몇 가지 추가 예가 있습니다. http://www.ats.ucla.edu/stat/sas/faq/sas_interpret_log.htm 및 http://www.ats.ucla.edu/stat/mult_pkg/ 자주 묻는 질문 / 일반 /log_transformed_regression.htm
Charlie의 답변을 보완하기 위해 아래는 예제에 대한 구체적인 해석입니다. 항상 그렇듯이 계수 해석은 모형을 방어 할 수 있고 회귀 진단이 만족스럽고 데이터가 유효한 연구에서 나온 것으로 가정합니다.
예 A : 변환 없음
DV = Intercept + B1 * IV + Error
"IV의 한 단위 B1
증가는 DV 의 ( ) 단위 증가 와 관련이 있습니다."
예 B : 결과 변환
log(DV) = Intercept + B1 * IV + Error
"IV의 한 단위 B1 * 100
증가는 DV 의 ( ) 퍼센트 증가 와 관련이 있습니다."
예 C : 노출 변환
DV = Intercept + B1 * log(IV) + Error
"IV의 1 % B1 / 100
증가는 DV 의 ( ) 단위 증가 와 관련이 있습니다."
예 D : 결과 변환 및 노출 변환
log(DV) = Intercept + B1 * log(IV) + Error
"IV의 1 % B1
증가는 DV 의 ( %) 증가 와 관련이 있습니다."
log-log- 모델에서 기억 또는 이 후자의 공식에 100을 곱하면 의 퍼센트 변화가 나타납니다 . 우리는 비슷한 결과를 얻었습니다 .
이 사실을 사용하여 을 의 1 % 변화에 대한 변화 백분율로 해석 할 수 있습니다 .
동일한 논리에 따라 레벨 로그 모델에 대해
선형 회귀의 주요 목적은 인접한 회귀 수준을 비교하여 평균 결과 차이를 추정하는 것입니다. 많은 유형의 수단이 있습니다. 우리는 산술 평균에 가장 익숙합니다.
AM은 OLS 및 변형되지 않은 변수를 사용하여 추정되는 것입니다. 기하학적 평균은 다릅니다 :
실제로 GM 차이는 곱셈 차이입니다. 대출을 가정 할 때 이자율의 X %를 지불하고, 메트포르민을 시작한 후 헤모글로빈 수치가 X % 감소하고, 스프링의 실패율이 너비의 일부로 X % 증가합니다. 이 모든 경우에, 평균 평균 차이는 의미가 적습니다.
로그 변환은 기하학적 평균 차이를 추정합니다. 다음 공식 사양을 사용하여 결과를 로그 변환하고 선형 회귀로 모델링 log(y) ~ x
하면 계수 은 인접한 단위를 비교 한 로그 결과 의 평균 차이입니다 . 이는 사실상 쓸모가 없으므로 매개 변수 하고이 값을 기하 평균 차이로 해석합니다. X e β 1
예를 들어, ART 투여 10 주 후 HIV 바이러스 부하에 대한 연구에서, 우리는 전치사 평균 추정 할 수 있습니다 . 이는 바이러스로드가 기준선에 있더라도 평균 60 % 더 낮 거나 후속 조치에서 0.6 배 감소했음을 의미합니다. 기준선에서 하중이 10,000 인 경우 내 모델은 후속 조치에서 4,000 일 것으로 예상하고, 기준선에서 1,000 인 경우 내 모델은 후속 조치에서 400 일 것으로 예상합니다 (원시 스케일의 작은 차이이지만 비례 적으로 동일).
이것은 다른 답변 과의 중요한 차이점입니다 . 로그 스케일 계수에 100을 곱하는 규칙은 가 작을 때 근사 에서 비롯됩니다 . (로그 스케일에서) 계수가 0.05라면, 이고 해석은 다음과 같습니다 : 에서 1 단위 "증가"에 대한 결과에서 5 % "증가" . 그러나 계수가 0.5 인 경우 이고 의 1 단위 "증가"에 대해 에서 65 % "증가"로 해석합니다 . 50 % 증가하지 않습니다.X exp ( 0.05 ) ≈ 1.05 X exp ( 0.5 ) = 1.65 Y X
예측 변수를 로그 변환한다고 가정합니다 y ~ log(x, base=2)
. 여기서 나는 근본적인 차이보다는 의 곱셈 변화에 관심이 있습니다 . 이제 에서 2 배가 다른 참가자를 비교하는 데 관심이 있습니다. 예를 들어, 부가 위험 모델을 사용하여 다양한 농도에서 혈액 매개 병원체에 노출 된 후 감염 (예 / 아니오)을 측정하는 데 관심이 있다고 가정합니다. 생물학적 모델은 농도가 두 배가 될 때마다 위험이 비례 적으로 증가 함을 시사합니다. 그런 다음 결과를 변환하지는 않지만 추정 된 계수는 감염 물질의 2 배 농도 차이로 노출 된 그룹을 비교하는 위험 차이로 해석됩니다.X β 1
마지막으로, log(y) ~ log(x)
노출 수준에서 곱셈이 다른 그룹을 비교하는 곱셈 차이를 얻기 위해 간단히 두 정의를 적용합니다.