독립 변수를 중심에두고 왜 주요 효과를 조정할 수 있습니까?


28

이 CV 스레드에서 영감을 얻은 다중 회귀 및 상호 작용과 관련된 질문이 있습니다. 중심 변수를 사용한 상호 작용 항 계층 회귀 분석? 우리는 어떤 변수를 중심에 두어야합니까?

중재 효과를 확인할 때 독립 변수를 중심에두고 중심 변수를 곱하여 교호 작용 항을 계산합니다. 그런 다음 회귀 분석을 실행하고 주요 효과와 상호 작용 효과를 확인하여 중재가 표시 될 수 있습니다.

중심을 맞추지 않고 분석을 다시 실행하면 분명히 결정 계수 ( R2 )는 변하지 않지만 회귀 계수 ( β s)는 변하지 않습니다. 그것은 분명하고 논리적으로 보입니다.

내가 이해하지 못하는 것 : 상호 작용이 맞지 않지만 주요 효과의 p- 값은 중심에 따라 크게 바뀝니다. 따라서 주요 효과에 대한 나의 해석은 중심에 따라 결정될 수 있습니다. (두 분석에서 여전히 동일한 데이터입니다!)

누군가가 명확히 할 수 있습니까? -그것은 내 변수를 중심에 두는 옵션이 필수적이며 모든 사람들이 동일한 데이터로 동일한 결과를 얻으려면 그것을 수행해야한다는 것을 의미하기 때문입니다.


해당 문제와 포괄적 인 설명에 배포 해 주셔서 감사합니다. 당신의 도움은 대단히 감사합니다!

저에게 센터링의 가장 큰 장점은 다중 공선 성을 피하는 것입니다. 중심에 있든 없든 규칙을 수립하는 것은 여전히 ​​혼란 스럽습니다. 내 인상은, 대부분의 자원이 중심에 있다고 제안하지만 그것을 할 때 약간의 "위험"이 있다는 것이다. 다시 한 번 말하지만, 동일한 재료와 데이터를 다루는 2 명의 연구원이 다른 결과를 도출 할 수 있습니다. 저는 Bortz (독일과 유럽의 통계 스타 교수이자 일종의 책)의 일부를 읽었으며 그 기술에 대해서는 언급조차하지 않았습니다. 변수가 상호 작용에 관여 할 때 변수의 주요 효과를 해석 할 때주의해야한다는 점을 지적합니다.

결국, 하나의 IV, 하나의 중재자 (또는 두 번째 IV) 및 DV로 회귀 분석을 수행 할 때 중심을 설정하는 것이 좋습니까?


5
나는 센터링을 거의 사용하지 않으므로 완전히 불필요하고 혼란 스럽습니다.
Frank Harrell

3
답을 다시주의해서 읽으십시오. 독립 변수를 중심에 놓거나 선형 변환을 올바르게 적용하면 결론이 변경 되지 않습니다 . 센터링하지 않기 때문에 다중 공선 성은 순수한 수치 적 문제이며 적절한 소프트웨어에 의해 자동으로 처리됩니다.
Scortchi-Monica Monica 복원

1
stats.stackexchange.com/questions/28730/… 에서 설명 된 것처럼,이 현상 (p- 값 변경)은 상호 작용의 2 차 특성의 결과로 이해 될 수 있습니다 .
whuber

답변:


23

교호 작용 항이없는 모형 (즉, 다른 항의 곱으로 구성된 항이없는 모형)에서 각 변수의 회귀 계수는 해당 변수 방향으로 회귀 표면의 기울기입니다. 변수의 값에 관계없이 일정하므로 해당 변수의 전체 효과를 측정한다고 할 수 있습니다.

교호 작용이있는 모형에서이 해석은 교호 작용에 관여하지 않는 변수에 대해서만 추가 검증없이 이루어질 수 있습니다. 교호 작용과 관련된 변수의 경우 "주 효과"회귀 계수, 즉 변수 자체의 회귀 계수는 다른 모든 변수가 다음과 같은 경우 해당 변수 방향으로 회귀 표면의 기울기입니다. 해당 변수와의 상호 작용은 값이 0 이며 계수의 유의성 검정은 예측 변수 공간의 해당 영역에서만 회귀 표면의 기울기를 나타냅니다.. 공간의 해당 영역에 실제로 데이터가있을 필요는 없기 때문에, 주 효과 계수는 데이터가 실제로 관찰 된 예측 자 공간의 영역에서 회귀 표면의 기울기와 거의 유사하지 않을 수 있습니다.

anova 관점에서, 주 효과 계수는 전체 주 효과가 아닌 단순한 주 효과와 유사합니다. 더욱이, 이는 데이터가있는 셀로부터 추정함으로써 데이터가 공급 된 빈 셀이 될 수있는 anova 설계에서 무엇을 의미 할 수있다.

anova의 전체 주요 효과와 유사하고 데이터가 관측 된 영역을 넘어 외삽하지 않는 변수의 전체 효과를 측정하려면 변수 방향으로 회귀 표면의 평균 기울기를 조사해야합니다. 평균화는 실제로 관찰 된 N 경우를 초과합니다. 이 평균 기울기는 해당 변수를 포함하는 모형의 모든 항에 대한 회귀 계수의 가중치 합계로 표현할 수 있습니다.

무게는 설명하기 어색하지만 쉽게 얻을 수 있습니다. 변수의 주 효과 계수는 항상 1의 가중치를 갖습니다. 해당 변수와 관련된 항의 다른 계수 각각에 대해 가중치는 해당 항에서 다른 변수의 곱의 평균입니다. 예를 들어, 5 개의 "원시"변수 x1, x2, x3, x4, x5와 4 개의 양방향 상호 작용 (x1,x2), (x1,x3), (x2,x3), (x4,x5)및 1 개의 3 방향 상호 작용이 (x1,x2,x3)있는 경우 모델은 다음과 같습니다.

y = b0 + b1*x1 + b2*x2 + b3*x3 + b4*x4 + b5*x5 +
    b12*x1*x2 + b13*x1*x3 + b23*x2*x3 + b45*x4*x5 +
    b123*x1*x2*x3 + e

전반적인 주요 효과는

B1 = b1 + b12*M[x2] + b13*M[x3] + b123*M[x2*x3],

B2 = b2 + b12*M[x1] + b23*M[x3] + b123*M[x1*x3],

B3 = b3 + b13*M[x1] + b23*M[x2] + b123*M[x1*x2],

B4 = b4 + b45*M[x5],

B5 = b5 + b45*M[x4],

여기서 M [.]은 괄호 안의 수량의 샘플 평균을 나타냅니다. 괄호 안의 모든 제품 용어는 회귀를 수행하기 위해 만들어진 용어 중 하나이므로 회귀 프로그램은 이미 회귀에 대해 알고 있어야하며 요청시 수단을 인쇄 할 수 있어야합니다.

주 효과와 양방향 상호 작용 만있는 모형에서는 전체 효과를 얻는보다 간단한 방법이 있습니다. 즉, 미가공 변수를 평균으로 중심에 둡니다. 이는 제품 용어를 계산하기 전에 수행되어야하며 제품에는 적용되지 않습니다. 그러면 모든 M [.] 표현식이 0이되고 회귀 계수는 전체 효과로 해석 할 수 있습니다. b의 값이 바뀔 것이다; B의 값은 그렇지 않습니다. 교호 작용에 관여하는 변수 만 중심에 둘 필요가 있지만 일반적으로 다른 측정 변수를 중심에 두는 데에는 해가 없습니다. 변수 센터링의 일반적인 효과는 절편을 변경하는 것 외에도 중심 변수와 상호 작용하는 다른 변수의 계수 만 변경한다는 것입니다. 특히, 중심 변수와 관련된 항의 계수는 변경되지 않습니다. 위에서 주어진 예에서, 중심 x1은 b0, b2, b3 및 b23을 변경합니다.

[1- "센터링"은 다른 사람들이 혼란을 일으킬 정도로 다른 방식으로 사용됩니다. 여기에서 사용 된 "변수를 중심에 맞추는 것"은 변수의 모든 점수에서 #을 빼고 원래 점수를 #의 편차로 변환하는 것을 의미합니다.]

그렇다면 왜 항상 수단을 중심에 두지 않겠습니까? 세 가지 이유. 먼저, 중심이없는 변수의 주 효과 계수 자체가 관심을 가질 수 있습니다. 이러한 경우 중심을 맞추는 것은 다른 변수의 주 효과 계수를 변경하기 때문에 역효과를 낳습니다.

둘째, 센터링은 모든 M [.] 표현식을 0으로 만들므로 3 방향 이상의 상호 작용이없는 모델에서만 간단한 효과를 전체 효과로 변환합니다 . 모형에 이러한 교호 작용이 포함 된 경우 모든 변수가 평균의 중심에 있더라도 b-> B 계산을 수행해야합니다.

셋째, 합리적으로 선택되는 것이 아니라 예측 변수의 분포에 의해 정의되는 평균과 같은 값을 중심으로하는 것은 중심에 의해 영향을받는 모든 계수가 특정 표본에 고유함을 의미합니다. 평균을 중심으로 한 경우 연구를 복제하려는 사람은 자신이 얻은 것과 동일한 계수를 얻으려면 자신의 평균이 아닌 평균을 중심으로해야합니다. 이 문제에 대한 해결책은 점수의 의미에 의존하고 점수의 분포에 의존하지 않는 그 변수의 합리적으로 선택된 중심 값에 각 변수를 집중시키는 것입니다. 그러나 b-> B 계산은 여전히 ​​필요합니다.

전체 효과의 중요성은 회귀 계수의 선형 조합을 테스트하기위한 일반적인 절차로 테스트 할 수 있습니다. 그러나 전체 효과는 구조적 매개 변수가 아니라 디자인에 따라 다르므로 결과를주의해서 해석해야합니다. 회귀 계수 (비 중심 또는 합리적인 중심화) 및 오차 분산과 같은 구조적 매개 변수는 예측 변수 분포의 변화에 ​​따라 변하지 않을 것으로 예상되지만 전체 효과는 일반적으로 변경됩니다. 전체 효과는 특정 표본에 따라 다르며 예측 변수에 다른 분포를 가진 다른 표본으로 이어지지 않아야합니다. 한 연구에서 전체 효과가 유의하고 다른 연구에서는 중요하지 않은 경우 예측 변수 분포의 차이 만 반영 할 수 있습니다.


10

β

와이=β1엑스1+β2엑스2+β엑스1엑스2+ϵβ1엑스1β엑스1엑스2엑스1엑스1엑스2β

ββ1와이엑스1 엑스2=0엑스1와이엑스2β1엑스2

β엑스1와이엑스2와이엑스1엑스2


-1

나는 같은 질문에 열중했지만 마침내 당신과 내 문제에 대한 해결책을 찾았습니다. 중심 변수를 계산하는 방법은 모두 중요합니다. 다음과 같은 두 가지 옵션을 사용할 수 있습니다.
1. 평균-개별 변수 2. 개별 변수-평균
중앙 변수를 (개별 변수-평균 값) 으로 계산 했으므로 값이 낮을수록 음수 점수를 얻고 값이 높은 값은 양수를 나타냅니다 점수.
이해하기 쉽도록 예제를 통해 설명하겠습니다. 나는 근력이 뼈 질량에 어떻게 영향을 미치는지보고 싶고 성별을 고려하여 그것이 소녀와 소년에서 다르게 영향을 미치는지 확인하고 싶습니다. 아이디어는 근육 강도가 높을수록 뼈 질량이 높다는 것입니다. 따라서 나는 가지고있다 :

종속 변수 : 뼈 질량 독립 변수 : 성별, 근력, 상호 작용 _SEX_MUSCLE 강도.

다중 공선 성 (일반적으로 상호 작용 항이있을 때 수행함)을 발견하면 근력 (MEAN – 개별 변수)을 중심으로하고 새로운 중심 변수를 사용하여 새로운 상호 작용 항을 작성했습니다. 내 계수는

0.902
-0.010
-0.023
0.0002

0.902(00.010)(0.023musclecentredvalue)+(Interaction0.0002)

이것을 보면 근육이 뼈에 부정적인 영향을 준다고 생각할 수도 있지만 원래 변수가 아닌 중심 변수를 고려해야합니다. 그룹의 평균 근력이 ~이라고 가정 해 봅시다 30 KG. 그리고 수행 한 소년 (WEAKBOY)과 수행 한 20 KG다른 사람 (STRONGBOY)의 뼈 질량을 추정하려고합니다 40KG. WEAKBOY의 중심 값은 (MEAN GROUP VALUE – INDIVIDUAL VALUE; 30 – 20 = 10)이며 STRONGBOY의 경우 -10이됩니다. 이 값을 방정식에 적용 :

WEAKBOY 뼈 질량 = 0.902 – 0 – (0.023 * 10) + .... = 0.672

STRONGBOY 뼈 질량 = 0.902 – (0.023 * (-10)) + ... = 1.132

보시다시피 STRONGBOY는 실제로 더 강한 뼈를 가졌을 것입니다. 다른 방법으로 변수를 중앙에 배치 한 경우 : (INDIVIDUAL – MEAN) 모든 계수는 동일하지만 기호는 다릅니다. 이는 중심 변수 WEAKBOY를 적용하면 (-10)이되고 STRONGBOY는 (+10)이되기 때문입니다. 따라서 최종 결과는 정확히 같습니다.

일단 이해하면 모든 것이 이해됩니다.

예제가 충분히 명확하기를 바랍니다.


이 실수는 p- 값의 변화를 설명하지 않습니다. BTW, 옵션 (1)에는 값을 상수로 곱하는 것이 포함되어 있기 때문에 가운데에 있지 않습니다. (상수는 -1입니다.)
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.