공분산의 정의에 대한 직감


11

나는 두 개의 임의 변수의 공분산을 더 잘 이해하고 그것을 처음 생각한 사람이 통계에서 일상적으로 사용되는 정의에 어떻게 도달했는지 이해하려고 노력했습니다. 나는 그것을 더 잘 이해하기 위해 위키 백과 에 갔다 . 이 기사에서 대한 올바른 후보 측정 또는 수량 은 다음과 같은 속성을 가져야합니다.Cov(X,Y)

  1. 두 개의 임의 변수가 유사 할 때 (즉, 하나가 다른 하나를 증가시킬 때와 다른 하나가 감소 할 때도) 양의 부호를 나타냅니다.
  2. 또한 두 개의 랜덤 변수가 반대로 비슷한 경우 (즉, 하나의 변수가 증가하면 다른 임의의 변수가 감소하는 경향이 있음) 음의 부호를 갖기를 원합니다
  3. 마지막으로, 두 변수가 서로 독립적 일 때 (즉, 서로에 대해 서로 상이하지 않을 때)이 공분산 양이 0 (또는 매우 작을까요?)이 되길 원합니다.

위의 속성에서 를 정의하려고합니다 . 첫 번째 질문은 가 왜 이러한 속성을 만족시키는 지 완전히 명확하지 않습니다 . 우리가 가진 속성에서 나는 더 많은 "유도 적"과 같은 방정식이 이상적인 후보가 될 것으로 기대했을 것입니다. 예를 들어, "X의 변화가 양수이면 Y의 변화도 양수 여야합니다"와 같은 것입니다. 또한 왜 "올바른"행동과 다른 의미를 갖는가?C o v ( X , Y ) = E [ ( X - E [ X ] ) ( Y - E [ Y ] ) ]Cov(X,Y)영형V(엑스,와이)=이자형[(엑스이자형[엑스])(와이이자형[와이])]

보다 탄젠트하지만 여전히 흥미로운 질문은 이러한 속성을 만족시킬 수 있고 여전히 의미 있고 유용했을 다른 정의가 있습니까? 나는 왜 우리가 왜이 정의를 처음에 사용하는지에 대해 의문을 품고 있지 않기 때문에 이것을 묻고있다. (내 생각에 끔찍한 이유이며 과학적이고 수학적 호기심과 사고). 수용된 정의가 우리가 가질 수있는 "최상의"정의입니까?


다음은 수용된 정의가 왜 합리적인지에 대한 나의 생각입니다 (직관적 인 주장 일뿐입니다).

하자 (즉,이 시간에 다른 값에 어떤 값에서 변경) 변수 X에 대한 몇 가지 차이가. 마찬가지로 를 정의 .Δ YΔ엑스Δ와이

한 번의 인스턴스에 대해 다음을 수행하여 관련 여부를 계산할 수 있습니다.

에스나는(Δ엑스Δ와이)

이것은 다소 좋다! 한 번에, 그것은 우리가 원하는 속성을 만족시킵니다. 둘 다 함께 증가하면 대부분의 경우 위의 양은 양수 여야합니다 (반대로 유사하면 의 부호가 같기 때문에 음수입니다 ).이자형

그러나 그것은 우리에게 한 번에 하나의 인스턴스에 대해 원하는 양을 제공하며, rv이기 때문에 하나의 관측치에 기초하여 두 변수의 관계를 기반으로 결정하면 초과 적합 할 수 있습니다. 그렇다면 차이점의 "평균적인"결과를보기 위해 이것을 기대해보십시오.

에스나는(이자형[Δ엑스Δ와이])

평균 관계가 위에 정의 된 것을 평균적으로 포착해야합니다! 그러나이 설명이 가지고있는 유일한 문제는이 차이점을 어떻게 측정 할 것인가입니다. 이것은 평균과의 차이를 측정하여 해결되는 것으로 보입니다 (어떤 이유로 올바른 일입니다).

나는 정의와 관련된 주요 문제는 평균에서 차이를 취하는 것 같아요 . 나는 그것을 저 자신에게 정당화 할 수없는 것 같습니다.


부호에 대한 해석은 더 복잡한 주제 인 것처럼 보이기 때문에 다른 질문으로 남겨 둘 수 있습니다.


2
교차점의 개념이나 직관이 시작점이 될 수 있습니다 (공분산은 단지 그 확장 일뿐입니다). 길이가 같은 일련의 숫자 X와 Y가 두 개이고 합산 된 교차 곱을 Sum (Xi * Yi)로 정의하면 두 계열이 같은 순서로 정렬되면 최대화되고 하나 인 경우 최소화됩니다 시리즈는 오름차순으로 정렬되고 다른 하나는 내림차순으로 정렬되었습니다.
ttnphns 2014 년

평균과의 차이는 근본적인 문제가 아닙니다. 중요한 것은 단지 원점과의 차이입니다. 어떤 이유로 원점을 평균에 넣는 것이 자연스럽고 편리합니다.
ttnphns 2014 년

@ttnphns 당신은 그들이 함께 coveary 경우 공분산을 최대화해야하고 그들이 반대 covary 경우 가능한 한 음수해야한다고 말하고 있습니까? (즉, 최소화 된) 왜 교차 제품의 기대로 정의되지 않습니까?
Charlie Parker

공분산은 고유 한 기원이없는 변수에 대해 자연 스럽습니다. 그런 다음 평균을 원점으로 계산합니다 (평균은 연관 주제와 관련이없는 좋은 속성을 가지므로 일반적으로 선택됩니다). 원점이 고유하고 의미가있는 경우 원점을 고수하는 것이 합리적입니다. 그러면 "공분산 (공분산)"은 대칭이 아니지만 누가 신경 쓰나요?
ttnphns

1
이 답변 은 공분산과 관련된 매우 훌륭한 직관을 제공합니다.
Glen_b-복귀 모니카

답변:


10

빈 숫자 스택으로 시작한다고 상상해보십시오. 그런 다음 관절 분포에서 쌍 을 그리기 시작 합니다. 다음 네 가지 중 하나가 발생할 수 있습니다.(엑스,와이)

  1. X와 Y가 각각의 평균보다 크면 쌍이 비슷 하므로 양수를 스택에 넣습니다.
  2. X와 Y가 각각 평균보다 작 으면 쌍이 비슷 하고 양수를 스택에 넣습니다.
  3. X가 평균보다 크고 Y가 평균보다 작 으면 쌍이 다르고 스택에 음수를 넣습니다.
  4. X가 평균보다 작고 Y가 평균보다 크면 쌍이 다르고 스택에 음수를 넣습니다.

그런 다음 X와 Y의 (비 유사성)에 대한 전반적인 측정 값을 얻기 위해 스택의 숫자 값을 모두 더합니다. 양의 합계는 변수가 동시에 같은 방향으로 이동 함을 나타냅니다. 음수 합계는 변수가 반대 방향으로 더 자주 움직이지 않음을 나타냅니다. 합계가 0이면 한 변수의 방향을 아는 것이 다른 변수의 방향에 대해 많이 알려주지 않습니다.

음이 아닌 두 변수가 비슷하다고 판단 될 수 있으므로 (예 : M42에서 다음 자동차 사고의 크기와 내일 Paddington 기차역에서 구입 한 티켓 수).

공분산 공식은이 과정의 공식화입니다.

코브(엑스,와이)=이자형[(엑스이자형[엑스])(와이이자형[와이])]

몬테카를로 시뮬레이션 대신 확률 분포를 사용하고 스택에 넣은 숫자의 크기를 지정합니다.


와우, 이것은 매우 좋은 대답입니다. 그냥 마지막 한가지, 당신이 이유의 정당성에 대한 자세한 내용을 추가하는 마음 수행 차이가 형성 될 평균을 ? 다른 가치가없는 이유는 무엇입니까? 왜 이치에 맞습니까? 이것이 저에게이 정의를 완전히 내재화시키는 데 방해가되는 것입니다. 감사합니다 btw!
Charlie Parker

감사. 서로 다른 두 국가에 두 개의 큰 트럭이 있다고 가정하십시오. 이제 큰 트럭은 큰 짐을 운반하는 경향이 있습니다. 각 트럭에 큰 하중이 가해질 때마다 양수를 스택에 추가하면 두 트럭의 동작이 매우 유사하다는 결론을 내릴 수있었습니다. 그러나 실제로 한 트럭이 운반하는 하중의 크기는 특정 시간에 다른 트럭이 운반하는 하중의 크기와 관련이 없습니다. 그들은 단지 큰 트럭 일뿐입니다. 따라서 우리의 유사성 측정은 유용하지 않습니다. 그렇기 때문에 우리는 '평균보다 큰 것'에 대해 생각해야합니다.
추측

죄송합니다. 조금 늦었지만이 주제를 검토하기로 결정했는데 왜 평균과 다른지에 대한 질문이 있습니다. 각 랜덤 변수 X와 Y가 다른 척도에서 나올 수 있기 때문에 각각의 평균과의 차이가 중요합니까? 즉, "큰"이 무엇인지에 대한 이해를 위해서는 기본 스케일에 따라 다릅니다. 그렇다면이 규모의 문제를 극복하기 위해 우리는 그것을 각각의 수단과 비교합니까?
Charlie Parker

1

여기 방정식없이 그것을 볼 수있는 직관적 인 방법이 있습니다.

  1. 분산을 더 높은 차원으로 일반화합니다. 데이터의 작동 방식을 설명하려는 동기에서 비롯된 것 같습니다. 첫 번째로, 우리는 그 위치-평균을 가지고 있습니다. 두 번째로, 우리는 산포-공분산을가집니다.

    정의와 관련된 주요 문제는 평균에서 차이를 취하는 것 같습니다. 나는 그것을 저 자신에게 정당화 할 수없는 것 같습니다.

    분산은 분포 중심을 기준으로 평가됩니다. 분산의 가장 기본적인 정의는 '평균과의 평균 편차'입니다. 따라서 공분산의 경우에도 평균을 빼야합니다.

  2. 염두에 두어야 할 또 다른 주요 동기는 임의 변수 사이의 거리를 측정하는 방법을 정의해야한다는 것입니다. 마할 라 노비스 거리 와 공분산은 서로 밀접한 관계가 있습니다. 가우스 분포에서 추출되지 않은 특이 치가 될 가능성이 높은 표본을 물으면 유클리드 거리는 그렇지 않습니다. Mahalanobis 거리는 유클리드 거리와 눈에 띄는 차이가 하나 있습니다. 분포의 분산 (공분산)을 고려합니다. 이를 통해 임의 변수까지의 거리를 일반화 할 수 있습니다.


1
  1. 마지막으로, 두 변수가 서로 독립적 일 때 (즉, 서로에 대해 서로 상이하지 않을 때)이 공분산 양이 0 (또는 매우 작을까요?)이 되길 원합니다.

(12)엑스와이이자형[엑스와이]이자형[엑스와이]=14엑스^=1000엑스와이^=1000와이이자형[엑스^와이^]=250,000(엑스,와이)=이자형[(엑스이자형[엑스])(와이이자형[와이])]

  1. 또한 두 개의 랜덤 변수가 반대로 비슷한 경우 (즉, 하나의 변수가 증가하면 다른 임의의 변수가 감소하는 경향이 있음) 음의 부호를 갖기를 원합니다

엑스와이=1엑스이자형[엑스와이]=0(엑스,와이)=이자형[(엑스이자형[엑스])(와이이자형[와이])]

  1. 그것은해야한다 (원문) 두 확률 변수가 비슷하면 긍정적 인 신호가 (즉 하나 증가 다른 하나가 수행하고 하나가 감소 할 때 다른 하나는 너무 않는 경우).

엑스와이=엑스1이자형[엑스와이](엑스,와이)=이자형[(엑스이자형[엑스])(와이이자형[와이])] 원하는대로 양수 값을 제공합니다.

엑스=와이


1

나는 똑같은 질문에 대해 궁금해했고 추측에 의한 직감이 나를 도왔다. 직관을 시각화하기 위해 두 개의 임의의 법선 벡터 x와 y를 취하고 산점도를 플로팅하고 각 평균의 편차 (양수 값의 경우 파란색, 음수의 경우 빨간색)로 산점을 표시했습니다.

그림에서 알 수 있듯이, 제품은 오른쪽 위와 왼쪽 아래 사분면에서 가장 긍정적 인 반면 오른쪽 아래와 왼쪽 위 사분면에서 가장 부정적인 것입니다. 파란색 포인트가 빨간색 포인트를 취소하므로 제품을 합산하면 0이됩니다.

그러나 빨간색 점을 제거하면 나머지 데이터가 서로 양의 관계를 나타내며 양의 제품 합계 (예 : 파란색 점의 합계)로 확인됩니다.

여기에 이미지 설명을 입력하십시오


0

랜덤 변수의 벡터 공간에서 거리 도트 곱의 이러한 정의 또는 랜덤 변수의 관계에 대해 E {(xy) ^ 2}로 두 랜덤 변수 x와 y 사이의 거리의 제곱을 정의하는 것이 합리적입니다. {xy}는 정규화에 사용되는 용어 -E {x} 및 -E {y}를 제외하고 공분산 정의와 매우 유사합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.