와 를 회귀 에 포함시키는 방법 과 중심을 잡을 것인지 여부


9

I는 용어 포함 할 및 사각형 I가 낮은 값으로 가정하므로 회귀로 (예측 변수)를 종속 변수에 대한 긍정적 인 효과가 높은 값이 음의 영향을 미친다. 보다 높은 값의 영향을 포착한다. 따라서 의 계수는 양수이고 의 계수는 음수가 될 것으로 기대합니다. 외에도 다른 예측 변수도 포함합니다.xx2xx2xx2x

다중 게시물 선형성을 피하기 위해이 경우 변수를 중앙에 배치하는 것이 좋습니다. 다중 회귀 분석을 수행 할 때는 예측 변수를 언제 중심에두고 언제 표준화해야합니까?

  1. 두 변수를 개별적으로 (평균으로) 중심에 두어야합니까 아니면 만 중심에 두고 정사각형을 취해야합니까 아니면 만 중심에 두고 원래 포함해야 합니까?xx2x

  2. 가 계수 변수 인 경우 문제가 됩니까?x

가 카운트 변수가되는 것을 피하기 위해 이론적으로 정의 된 영역 (예 : 5 평방 킬로미터)으로 나누는 것을 생각했습니다. 이것은 점 밀도 계산과 약간 비슷해야합니다.x

그러나이 상황에서 및 때와 같이 계수의 부호에 대한 초기 가정이 더 이상 유지되지 않을까 걱정됩니다.x=2x²=4

x=2/5 km2 = 0.4 km2

그러나 x2 다음 때문에 작은 것이 x2=(2/5)2=0.16 .


1
회귀 소프트웨어는 수치 문제를 자동으로 처리합니다. 특히 데이터를 내부적으로 중앙 집중화하고 표준화 할 가능성이 높습니다. 센터링에 대한 질문에 대답하는 방법은 계수를 해석하려는 방법에 달려 있습니다.
whuber

답변:


4

귀하의 질문은 실제로 여러 가지 하위 질문으로 구성되어 있으며, 최선을 다해 이해하려고 노력할 것입니다.

  • 회귀에 대한 낮은 값과 높은 값의 의존성을 구별하는 방법은 무엇입니까?

와 고려 하는 것이 방법이지만 테스트가 결정적입니까? 회귀의 모든 가능한 결과에 유용한 무언가를 결론 지을 수 있습니까? 미리 질문을 명확하게 제시하면 도움이 될 수 있으며, 비슷한 질문과 관련 질문을하면 도움이 될 수 있습니다. 예를 들어 회귀 기울기가 다른 의 임계 값을 고려할 수 있습니다 . 이것은 중재자 변수를 사용하여 수행 할 수 있습니다 . 서로 다른 경사 (동일한 절편을 부과하는 동안)가 호환되면 차이가 없으며, 그렇지 않으면 차이에 대한 명확한 주장을 스스로에게 제공 한 것입니다.xx2x

  • 언제 중심을 맞추고 표준화해야합니까?

나는이 질문이 첫 번째 질문 및 테스트와 혼합되어서는 안되며, 또는 중심으로 미리 결과가 바이어스 될 수 있다고 두려워 합니다. 나는 적어도 첫 단계에서 중심을 두지 말라고 권고합니다. 다중 공선 성으로 죽지 않을 것임을 기억하십시오. 많은 저자는 더 작은 샘플 크기 ( herehere ) 로 작업하는 것과 동일하다고 주장합니다 .xx2

  • (연속) 부동 소수점 변수에서 이산 카운트 변수를 변환하면 결과의 해석이 변경됩니까?

네, 그렇습니다. 그러나 이것은 처음 2 점에 크게 좌우되므로 한 번에 한 가지 문제를 해결하도록 제안합니다. 이 변환이 없으면 회귀가 작동하지 않는 이유가 없으므로 지금은 무시하는 것이 좋습니다. 또한 공통 요소로 나누면 의 배율이 변경 되지만 위에서 쓴 것처럼이 임계 값을보다 명시 적으로 고려하는 완전히 다른 방법이 있습니다.x2=x


답변, 특히 링크에 대해 대단히 감사합니다 !!!
Peter

도와주게되어 기뻤습니다. =)
pedrofigueira

4

일반적으로 센터링은 다중 공선 성을 줄이는 데 도움이되지만 "다중 공선 성으로 죽지 않을 것입니다"(predrofigueira의 답변 참조).

가장 중요한 것은 절편을 의미있게 만들기 위해 센터링이 종종 필요합니다. 단순 모델 에서 절편은 의 예상 결과로 정의됩니다 . 는 IF 제로의 값은 의미가 없다, 어느 쪽도 itercept는 없습니다. 변수 를 평균의 중심에 두는 것이 종종 유용합니다 . 이 경우 예측 변수의 형식은 이고 intercept 는 의 값 이 평균 동일한 주제의 예상 결과입니다 .yi=α+βxi+εx=0xx(xix¯)αxix¯

이러한 경우 중심으로 한 다음 정사각형 을 만들어야합니다 . "new"변수 에서 결과를 회귀하므로 와 개별적으로 가운데에 맞출 수 새 변수를 제곱해야합니다. 센터링 은 무엇을 의미할까요?xxx2(xix¯)x2

평균이 의미가있는 경우 카운트 변수를 가운데에 맞출 수 있지만 스케일 변수 일 수도 있습니다. 예를 들어 및 "2"가 기준선이 될 수있는 경우 2를 빼면됩니다 : . 절편은 의 값 이 참조 값인 "2"와 동일한 주제의 예상 결과가됩니다 .x=1,2,3,4,5(xi2)=1,0,1,2,3xi

나누기에 관해서는 아무런 문제가 없습니다 : 추정 계수가 더 클 것입니다! Gelman and Hill §4.1의 예는 다음과 같습니다.

earnings=61000+1300height (in inches)+errorearnings=61000+51height (in millimeters)+errorearnings=61000+81000000height (in miles)+error

1 인치는 이므로 은 입니다. 1 인치는 에밀리이므로 은 입니다. 그러나이 세 방정식은 완전히 같습니다.25.4511300/25.41.6e5810000001300/1.6e5



답변 해 주셔서 감사합니다. Sergio. 정말 도움이되었습니다. 불행히도 하나의 답변 만 허용되는 답변으로 표시 할 수 있습니다.
Peter

천만에요. 걱정 마세요 ;-)
Sergio Sergio

1

x의 낮은 값은 종속 변수에 긍정적 인 영향을 미치고 높은 값은 부정적인 영향을 미친다고 가정합니다.

나는 다른 사람들이 계수의 중심을 맞추고 해석하는 것에 대해 감사하지만 여기서 설명하는 것은 단순히 선형 효과입니다. 즉, 설명 한 것은 x 제곱을 테스트 할 필요가 없음을 나타냅니다 .


내 관점에서, 만약 의 (부분) 효과 의 (또는 더 나은 상 )이다 입니다. 이러한 효과는 일정하며 레벨에 의존하지 않습니다 . 모형이 인 경우 의 부분 효과 는 이며 수준에 따라 다릅니다 . 이는 선형 스플라인 모델과 같은 다른 모델에서도 발생할 수 있지만 단순한 선형 (1도) 모델에서는 발생하지 않습니다. 내가 잘못? y=β0+β1x1+β2x2+εxiyE[yx]E[yx]/xi=βi xiy=β0+β1x1+β2x2+β3x22+εx2β2+2β3x2x2
Sergio

@ rolando2 : 우리가 samte에 대해 이야기하는지 확실하지 않습니다. 정규 예측 변수 만 포함하면 해당 예측 변수에 대한 추정 계수가 양수 또는 음수입니다. 계수에 따라 x에 하나의 단위를 추가하면 y가 특정 양만큼 증가하거나 감소합니다. 그러나 작은 값이 실제로 y의 증가로 이어지는 지, 특정 값에서 높은 값이 y의 감소로 이어지는 지 여부를이 방법으로 알 수 없습니다.
Peter

@Peter-이해합니다. 질문의 "I 가정"문장을 편집하여 다음과 같이 읽을 것을 제안합니다. "x의 일부 영역에서 높은 x 값은 종속 변수에 긍정적 인 영향을 미치지 만 다른 영역에서는 값이 클수록 부정적인 영향을줍니다. "
rolando2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.