변환 된 변수를 사용할 때 선형 회귀 효과 크기


9

선형 회귀를 수행 할 때 더 나은 정규 분포 구조를 얻기 위해 종속 변수에 대한 로그 변환과 같은 변환을 수행하는 것이 종종 유용합니다. 결과의 효과 크기 / 실제 관련성을 더 잘 평가하기 위해 회귀 분석에서 베타를 검사하는 것이 종종 유용합니다.

예를 들어 로그 변환을 사용할 때 효과 크기가 로그 스케일에 있으며, 사용 된 스케일의 비선형 성으로 인해 이러한 베타를 역변환하면 의미없는 값을 초래할 수 있다고 들었습니다. 실제 사용량이 없습니다.

지금까지 우리는 변환 된 변수로 선형 회귀를 수행하여 유의성을 검사 한 다음 변환되지 않은 원래 변수로 선형 회귀를 수행하여 효과 크기를 결정했습니다.

이 작업을 수행하는 올바른 방법이 있습니까? 대부분의 경우 임상 데이터로 작업하기 때문에 실제 사례는 특정 노출이 신장, 체중 또는 일부 실험실 측정과 같은 변수에 어떻게 영향을 미치는지 결정하는 것이며, "노출 A가 영향을 미쳤습니다. 무게가 2kg 증가 "

답변:


5

오류에 대한 정규 분포를 얻는 데 변환이 중요하지 않다고 제안합니다. 정규성은 필수적인 가정이 아닙니다. "충분한"데이터가있는 경우 중심 한계 정리가 시작되고 표준 추정값이 점진적으로 정상이됩니다. 또는 부트 스트랩을 비모수 적 수단으로 사용하여 표준 오류를 추정 할 수 있습니다. 표준 오차가 옳 으려면 단위 간 관측치에 대한 공통 분산 인 Homokedasticity가 필요합니다. 강력한 옵션은 이분산성을 허용합니다.

대신 변환은 선형 모델이 적합하도록하는 데 도움이됩니다. 이를 이해하기 위해 변환 된 모델에서 계수를 해석하는 방법을 고려해 보겠습니다.

  • 결과는 단위, 예측 변수는 단위입니다. 예측 변수의 한 단위 변경은 결과의 베타 단위 변경으로 이어집니다.
  • 단위로 결과, 로그 단위로 예측 변수 : 예측 변수가 1 % 변경되면 결과에서 베타 / 100 단위가 변경됩니다.
  • 로그 단위의 결과, 단위의 예측 변수 : 예측 변수의 1 단위 변화는 결과의 베타 x 100 % 변화로 이어집니다.
  • 로그 단위의 결과, 로그 단위의 예측 변수 : 예측 변수의 1 % 변화는 결과의 베타 백분율 변화로 이어집니다.

모델이 이해하기 위해 (즉, 선형성을 유지하기 위해) 변환이 필요한 경우이 모델의 추정값을 추론에 사용해야합니다. 당신이 믿지 않는 모델의 추정치는 그다지 도움이되지 않습니다. 위의 해석은 변환 된 모델의 추정값을 이해하는 데 매우 유용 할 수 있으며 종종 당면한 질문과 관련이있을 수 있습니다. 예를 들어, 경제학자들은 베타의 해석이 경제학의 중요한 척도 인 탄성이기 때문에 로그 로그 공식을 좋아합니다.

함수의 기대가 기대의 함수가 아니기 때문에 역변환이 작동하지 않는다고 덧붙입니다. 베타 예상 값의 로그가 베타 로그의 예상 값이 아닙니다. 따라서 견적자는 편견이 없습니다. 이것도 표준 오류를 발생시킵니다.


2

짧은 답변 : 절대적으로 맞습니다. 베타 값의 역변환은 의미가 없습니다. 그러나 비선형 성을 다음과 같이보고 할 수 있습니다. "무게가 100kg 인 경우 하루에 두 조각의 케이크를 먹으면 일주일에 체중이 약 2kg 증가합니다. 그러나 체중이 200kg 인 경우 체중이 2.5kg 증가합니다.이 비선형 관계의 묘사는 그림 1을 참조하십시오 ( "원시 데이터에 대한 곡선의 적합도는 그림 1입니다."

긴 대답 :

역변환 된 값의 의미는 다양하지만 올바르게 수행하면 일반적으로 의미가 있습니다.

베타가 0.13이고 절편이 7.0 인 두 개의 x 예측 변수에 대해 자연 로그 값의 회귀가있는 경우 0.13 (1.14)의 역변환은 거의 의미가 없습니다. 맞아요. 그러나 7.13의 역변환은 어떤 의미로 해석 될 수있는 값이 될 것입니다. 그런 다음 7.0의 역변환을 빼고 의미있는 스케일 (152.2)의 나머지 값으로 남겨 둘 수 있습니다. 예측 된 값을 보려면 먼저 로그 값으로 모두 계산 한 다음 역변환해야합니다. 예측 된 모든 값에 대해 별도로 수행해야하며 그래프로 표시하면 곡선이됩니다.

변환이 데이터에 상대적으로 작은 영향을 미치는 경우에 수행하는 것이 합리적입니다. 반응 시간의 로그 변환은 역변환 될 수있는 일종의 값입니다. 올바르게 완료되면 값이 원시 데이터에 대한 간단한 계산을 수행하는 중간 값에 가깝게 보입니다.

그럼에도 불구하고 상호 작용과 비상 호작용에주의해야합니다. 상대적인 값은 규모에 따라 다릅니다. 이 분석은 로그 값에 민감하지만 역변환 된 값은 상호 작용이 없어야하는 것처럼 보이는 다른 패턴을 나타내거나 그 반대 일 수 있습니다. 다시 말해,주의하는 한 데이터를 약간 변경하는 것을 역변환 할 수 있습니다.

로지스틱 확률 변환과 같은 일부 변경 사항은 특히 스케일의 끝 부분에 상당히 큰 영향을 줄 수 있습니다. 역변환하지 말아야 할 장소의 예는 확률의 높거나 낮은 부근의 교호 작용 도표입니다.


2

문제는 한계 계수 (X의 Y에 대한)에 관한 것입니다. 개별 계수를 해석하는 것에 대해서는별로 생각하지 않습니다. 사람들이 유용하게 지적했듯이, 이들은 선형 및 가산 관계가있을 때 효과 크기로만 식별 할 수 있습니다.

그것이 초점이라면 문제에 대해 생각하는 (개념적으로, 실용적이지는 않지만) 가장 간단한 방법은 다음과 같습니다.

어떤 상호 작용 선형 일반 회귀 모형에서 Y에서 X의 한계 효과를 얻으려면, 당신은 할 수 있습니다 만 그것은하지 알려진 추정되기 때문에 매우 충분하지 않습니다 X. 그러나에 계수 봐. 어쨌든, 한계 효과를 위해 실제로 원하는 것은 X 값 범위에 대한 Y에 대한 예측과 불확실성의 척도를 제공하는 일종의 플롯 또는 요약입니다. 일반적으로 예측 평균 Y와 신뢰 구간을 원하지만 X에 대한 Y의 전체 조건부 분포에 대한 예측을 원할 수도 있습니다.이 분포는 모형 계수에 대한 불확실성을 고려하기 때문에 적합 모형의 시그마 추정치보다 넓습니다. .

이와 같은 간단한 모델을위한 다양한 폐쇄 형 솔루션이 있습니다. 현재의 목적을 위해 우리는 그것들을 무시하고 대신에 임의의 복잡한 모델을 다루는 방식으로 시뮬레이션에 의해 한계 효과 그래프를 얻는 방법에 대해 더 일반적으로 생각할 수 있습니다.

X의 변화가 Y의 평균에 미치는 영향을 원하고 다른 모든 변수를 의미있는 값으로 고치면 행복하다고 가정합니다. X의 새로운 각 값에 대해 모형 계수 분포에서 크기 B 표본을 가져옵니다. R에서 그렇게하는 쉬운 방법은 그것이 평균 coef(model)과 공분산 행렬을 갖는 보통이라고 가정하는 것입니다 vcov(model). 각 계수 세트에 대해 새로운 예상 Y를 계산하고 간격으로 로트를 요약합니다. 그런 다음 X의 다음 값으로 이동하십시오.

이 방법은 각 샘플링 단계에서 변수 (또는 그 역수)를 적용하는 경우 변수에 적용된 멋진 변환의 영향을받지 않는 것 같습니다. 따라서 적합 모형에 log (X)가 예측 변수 인 경우 샘플링 된 계수에 곱하기 전에 새 X를 기록합니다. 적합 모형에 종속 변수로 sqrt (Y)가있는 경우 표본으로 예측 된 각 평균을 제곱하여 구간으로 요약합니다.

요컨대, 프로그래밍은 많지만 확률 계산은 적으며 결과적으로 임상 적으로 이해 가능한 한계 효과입니다. 이 '방법'은 때때로 정치 과학 문헌에서 CLARIFY로 언급되지만 매우 일반적입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.