두 변수의 합이 개별 변수보다 더 많은 분산을 어떻게 설명 할 수 있습니까?


13

두 예측 변수가 음의 상관 관계가있는 경우 세 번째 변수와 합계의 상관 관계에 대한 혼란스러운 결과가 나타납니다. 이러한 난처한 결과의 원인은 무엇입니까?

예 1 : 두 변수의 합과 세 번째 변수의 상관

아래 표시된 Guildford의 1965 년 텍스트의 427 페이지에있는 공식 16.23을 고려하십시오.

당황한 결과 : 두 변수가 .2를 세 번째 변수와 상관시키고 -.7을 서로 상관시키는 경우 수식의 값은 .52입니다. 두 변수가 각각 0.2 변수와 세 번째 변수의 상관 관계인 경우 총계와 세 번째 변수의 상관 관계는 어떻게 .52 일 수 있습니까?

예 2 : 두 변수와 세 번째 변수 사이의 다중 상관 관계는 무엇입니까?

Guildford 's 1965 텍스트의 404 페이지의 공식 16.1을 고려하십시오 (아래 참조).

난처한 발견 : 같은 상황. 두 변수가 .2를 세 번째 변수와 상관시키고 -.7을 서로 상관시키는 경우 수식의 값은 .52입니다. 두 변수가 각각 0.2 변수와 세 번째 변수의 상관 관계인 경우 총계와 세 번째 변수의 상관 관계는 어떻게 .52 일 수 있습니까?

나는 약간의 Monte Carlo 시뮬레이션을 시도했고 Guilford 공식의 결과를 확인했습니다.

그러나 두 예측 변수가 각각 세 번째 변수의 분산의 4 %를 예측하는 경우 어떻게 합의 1/4을 분산으로 예측할 수 있습니까?

두 변수의 합과 세 번째 변수의 상관 관계 두 변수와 세 번째 변수의 다중 상관

출처 : 심리학과 교육의 기초 통계, 제 4 판, 1965.

설명

내가 다루고있는 상황은 지금 자신의 능력을 측정하여 개인의 미래 성과를 예측하는 것입니다.

아래의 2 개의 벤 다이어그램은 상황에 대한 나의 이해를 보여주고 내 의문을 명확히하기위한 것입니다.

이 벤 다이어그램 (그림 1)은 x1과 C 사이의 0 차 r = .2를 반영합니다. 필자의 분야에는 기준을 완만하게 예측하는 예측 변수가 많이 있습니다.

그림 1

이 벤 다이어그램 (그림 2)은 각각 r = .2에서 C를 예측하는 두 예측 변수, x1 및 x2를 반영하고 두 예측 변수는 음의 상관 관계 r =-. 7을 반영합니다.

그림 2

C의 분산의 25 %를 함께 예측하게하는 두 r = .2 예측 변수 사이의 관계를 구상하는 데 실패했습니다.

x1, x2 및 C의 관계를 이해하는 데 도움을 요청합니다.

(내 질문에 대한 답변으로 일부 사람들이 제안한대로) x2가 x1에 대한 억제 변수로 작동하는 경우 두 번째 벤 다이어그램의 어떤 영역이 억제됩니까?

구체적인 예가 도움이 될 경우 x1과 x2는 2 명의 인간 능력으로, C는 4 년 후 4 년제 대학 GPA로 간주 할 수 있습니다.

억제 변수가 어떻게 두 r = .2 0 차 r의 8 % 설명 분산이 C의 분산의 25 %를 확대하고 설명하게 만들 수 있는지 상상하는 데 어려움을 겪고 있습니다. 구체적인 예는 매우 도움이 될 것입니다.


통계에는 독립적 인 변수 집합의 합의 분산이 분산의 합과 같다는 오래된 경험 법칙이 있습니다.
Mike Hunter

@DJohnson. 귀하의 의견은 질문과 어떤 관련이 있습니까?
Joel W.

죄송합니다. 질문을 이해하지 못합니다. 나에게는 그것이 어떻게 관련되어 있는지 분명합니다. 또한 현상금을받을 자격이 없으며 더 자세한 설명이 필요하지 않은 의견입니다.
Mike Hunter

1
@DJohnson. 귀하의 의견은 질문과 어떤 관련이 있습니까? 나에게 그것이 어떻게 관련되어 있는지 분명하지 않습니다.
Joel W.

2
N보기의 의미에 대한 귀하의 질문은 Meta CV 사이트에서 더 나은 응답을 얻을 수 있습니다.
mdewey

답변:


3

두 예측 변수에 모두 큰 방해 요소가 포함되어 있지만 반대 부호가있는 경우 이러한 문제가 발생할 수 있습니다. 따라서이를 합치면 귀찮은 요소가 취소되고 세 번째 변수에 더 가까운 값을 얻게됩니다.

더 극단적 인 예를 들어 설명하겠습니다. 이 독립 표준 정규 확률 변수 라고 가정 합니다. 이제하자X,YN(0,1)

A=X

B=X+0.00001Y

말 세 번째 변수 될 일이 당신이 예측이고, 당신에 대해 아무것도 모르는 잠재 변수입니다. A와 Y의 상관 관계는 0이고 B와 Y와의 상관 관계는 0.00001에 가깝습니다. * 그러나 와 의 상관 관계 는 1입니다.YA,BXA+BY

* B의 표준 편차는 1보다 약간 작은 작은 보정이 있습니다.


이러한 유형의 상황은 사회 과학에서 발생합니까?
Joel W.

1
사회 과학 용어에서, 이것은 기본적으로 특정 방식으로 약한 효과를 혼란시키는 강력한 효과입니다. 나는 사회 과학 전문가는 아니지만 그 예를 찾기가 어렵다는 것을 상상할 수 없습니다.
Paul

물리 과학 이외의 사례가 있습니까?
Joel W.

설명하는 관계가 벤 다이어그램에 표시 될 수 있습니까?
Joel W.

개인적으로 Venn 다이어그램을 찾지는 못하지만, 필요한 경우 B를 사각형으로 그린 ​​다음 큰 사각형 A와 작은 마른 Y를 두 개의 하위 사각형으로 나눕니다. 큰 부분 A를 취소하고 작은 부분 Y를 남겨 둡니다.
Paul

10

세 개의 변수를 다른 비 상관 변수의 선형 조합으로 생각하면 도움이 될 수 있습니다. 통찰력을 향상시키기 위해 기하학적으로 묘사하고 대수적으로 작업하며 원하는대로 통계적 설명을 제공 할 수 있습니다.

그런 다음 세 개의 상관 관계없는 제로 평균 단위 분산 변수 , 및 . 이 구성에서 다음을 수행하십시오.XYZ

U=X,V=(7X+51Y)/10;W=(3X+17Y+55Z)/75.

기하학적 설명

다음 그래픽은 이러한 변수 간의 관계를 이해하는 데 필요한 모든 것입니다.

그림

UVWU+VX,Y,ZUVUVWUVW, 예각 (약 45도) 만들기 : 예상치 못한 양의 상관 관계가 있습니다.


대수 계산

좀 더 엄격한 것을 원하는 사람들을 위해 그래픽의 지오메트리를 백업하는 대수학이 있습니다.

UVW

Cor(U,V)=Cov(U,V)=E(UV)=E(51XY7X2)/10=7/10=0.7

XY

Cor(U,W)=3/75=1/5=0.2

Cor(V,W)=(73+1517)/(1075)=1/5=0.2.

드디어,

Cor(U+V,W)=Cov(U+V,W)Var(U+V)Var(W)=1/5+1/5Var(U)+Var(V)+2Cov(U,V)=2/51+12(7/10)=2/53/50.5164.

결과적으로이 세 변수는 원하는 상관 관계를 갖습니다.


통계 설명

이제 왜 모든 것이 작동하는지 확인할 수 있습니다.

  • U 및 강한 음의 상관 관계가 때문에 부정적인 비례 플러스의 작은 여러 형태의 작은 "노이즈" .V7/10VUY

  • U 및 약한 양의 상관 관계가 때문에 작은 다수 포함 플러스의 배수의 형태로 많은 소음 및 .W1/5WUYZ

  • V ( 상관 관계를 변경하지 않는 곱한 경우 )는 다음 세 가지의 합 이므로 와 는 약한 양의 상관 관계를 갖습니다 .W1/5W75

    • 17Y , 와 양의 상관 관계가 있습니다 .V
    • 3X , 그 음의 상관성 전체적인 상관을 감소시킨다;V
    • 많은 노이즈를 발생시키는 의 배수 .Z
  • 그럼에도 불구하고 는 와 양의 상관 관계 가 있습니다. 그 부분의 배수 하지 않는 등 .WWZU+V=(3X+51Y)/10=3/100(3X+17Y)WWZ


벤 다이어그램에 이것을 표시하는 방법이 있습니까? 수학에도 불구하고, 나는 여전히 합산에 들어가는 두 변수에서 각각 세 번째 변수의 분산의 25 %를 설명하지만 두 번째 변수의 분산의 4 %를 설명하는 두 변수의 합의 논리를 보지 못합니다. . 두 변수를 추가하여 8 % 설명 분산이 어떻게 25 % 설명 분산이 될 수 있습니까?
Joel W.

또한이 이상한 현상의 실제 적용이 있습니까?
Joel W.

벤 다이어그램이 설명 된 분산을 나타내는 데 적합하지 않은 경우 왜 부적절한 지 말해 줄 수 있습니까?
Joel W.

@JoelW. 여기서 좋은 대답은 벤 다이어그램이 왜이 현상을 설명하는 임무에 미치지 못하는지
Jake Westfall

Joel, Cohens는 분산 분석을 위해 "Bantantine"이라고하는 벤과 유사한 다이어그램을 사용했습니다. 예를 들어 ww2.amstat.org/publications/jse/v10n1/kennedy.html 을 참조하십시오 . 분산 및 분산 분해의 어떤 응용 프로그램은 다음과 같습니다 : 지금까지 실제적인 응용 프로그램을 이동, 당신은 마땅히 반대 질문 요청 수 없는 실용적인?
whuber

5

또 다른 간단한 예 :

  • zN(0,1)
  • x1N(0,1)
  • x2=zx1z=x1+x2

그때:

  • Corr(z,x1)=0
  • Corr(z,x2).7
  • Corr(z,x1+x2)=1

기하학적으로 진행되는 일은 WHuber의 그래픽과 같습니다. 개념적으로 다음과 같이 보일 수 있습니다. 여기에 이미지 설명을 입력하십시오

E[XY]

x1 과 는 서로 관련이 없으므로 직교합니다. 하자 두 벡터 사이 나타낸다 각도.zθ

  • Corr(z,x1)=cosθzx1=0θz,x1=π2
  • Corr(z,x2)=cosθzx2.7θz,x2=π4
  • Corr(z,x1+x2)=cosθz,x1+x2=1θz,x1+x2=0

Flounderer의 답변에서 토론에 연결하려면 를 신호로, 을 잡음으로, 잡음 신호 를 신호 와 노이즈를 의 합으로 . 을 더하는 것은 노이즈 신호 에서 노이즈 을 빼는 것과 같습니다 .x 1 x 2 z x 1 x 1 x 2x 1 x 2zx1x2zx1x1x2x1x2


(+1) 좋은 예입니다!
user795305

답변의 전제를 설명하십시오. z = x1 + x2를 포지셔닝 한 후 왜“ther Corr (z, x1) = 0”이라고 말합니까? Corr (z, x1) = 0은 첫 번째 Let 문에서 따르거나 0의 상관 관계가 추가 가정입니까? 추가 가정 인 경우, 원래 질문의 상황에서 추가 가정이 필요한 이유는 무엇입니까?
Joel W.

zx1zx1zx1x2

@MatthewGunn. 세 번째는 z = x1 + x2라고합시다. 그것은 처음 두 개를 위반하는 것 같습니다. z와 x1은 독립적입니다.
Joel W.

1
z=x1+x2zx1

3

귀하의 의견을 말하십시오 :

수학에도 불구하고, 나는 여전히 합으로 들어가는 두 변수에서 각각 세 번째 변수의 분산의 25 %를 설명하지만 두 번째 변수의 분산의 4 %를 설명하는 두 변수의 합의 논리를 보지 못합니다. . 두 변수를 추가하여 8 % 설명 분산이 어떻게 25 % 설명 분산이 될 수 있습니까?

여기서 문제는 "분산 설명"이라는 용어 인 것 같습니다. 통계의 많은 용어와 마찬가지로 이것은 실제보다 더 의미있는 것처럼 들리도록 선택되었습니다.

다음은 간단한 수치 예입니다. 일부 변수 있다고 가정하십시오.Y

y=(6,7,4,8,9,6,6,3,5,10)

UYRRY

r=(20,80,100,90,50,70,40,30,40,60)

U=R+0.1Y

u=(19.4,79.3,100.4,90.8,50.9,70.6,40.6,30.3,40.5,61.0)

V=R+0.1Y

v=(20.6,80.7,99.6,89.2,49.1,69.4,39.4,29.7,39.5,59.0)

UVYr0.2YY

YUURVRYU+V

각 변수의 도표

ABBA


@ naught101은 Flounderer 변수를 설명하기 위해 그림을 만들었습니다. 그것들을 포함시키는 것이 당신에게 호소력이 있는지보고 싶을 수도 있습니다.
gung-복직 모니카

물론 원하는대로 편집하십시오. 실제로 직장에서 이미지를 볼 수는 없지만 괜찮을 것이라고 확신합니다!
Flounderer

나는 그 제안을 거절했다. b / c 나는 그가 당신에게 연락 한 것을 보지 못했다. 그래도 제안 된 편집 대기열로 이동하여 승인 할 수 있습니다.
gung-복직 모니카

당신이 제공하는 예제는주의 깊게 만들어 졌다면 흥미롭지 만, 내가 제시 한 상황은 더 일반적이고 (숫자가 신중하게 선택되지 않은) 2 개의 변수 N (0,1)을 기반으로합니다. 용어를 "설명"에서 "공유"로 변경하더라도 질문은 남아 있습니다. 공식에 따라 세 번째 변수와 25 % 공유 분산을 갖는 간단한 합계로 각각 4 % 공유 분산을 갖는 2 개의 랜덤 변수를 어떻게 결합 할 수 있습니까? 또한 목표가 예측 인 경우 공유 분산의이 이상한 증가에 대한 실제 실제 적용이 있습니까?
Joel W.

음, (시끄러운 소음 + 약한 신호) + (시끄러운 소음) = 약한 신호가있을 때 전자 장치의 어느 곳에 나이를 적용합니다. 예를 들어, 잡음 제거 헤드폰입니다.
Flounderer
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.