관절 분포가 다변량 정규 인 경우 왜 Pearson의 ρ가 완전한 연관성 측정치입니까?


16

이 주장은 이 질문 에 대한 최고의 응답으로 제기되었습니다 . 나는 '왜'질문이 새로운 스레드를 보장하기에 충분히 다르다고 생각합니다. 인터넷 검색의 "완전한 연관성 측정"으로 인한 조회수는 없었으며 해당 문구가 무엇을 의미하는지 잘 모르겠습니다.

답변:


15

다변량 분포에서 "연관 측정"을 이해 하여 값을 임의로 크기를 조정하고 최근에 변경했을 때 동일하게 유지되는 모든 속성 으로 구성하는 것이 가장 좋습니다 . 그렇게하면 평균과 분산을 이론적으로 허용 가능한 값으로 변경할 수 있습니다 (분산은 양수 여야하며, 평균은 무엇이든 가능함).

상관 계수 ( "피어슨 ρ") 그런 다음 다변량 정규 분포 를 완전히 결정합니다.이를 확인하는 한 가지 방법은 밀도 함수 또는 특성 함수에 대한 공식과 같은 공식 정의를 보는 것입니다. 평균, 분산 및 공분산 되지만 공분산 및 상관 관계는 차이를 알면 서로 추론됩니다.

다변량 정규군은이 특성을 즐기는 유일한 분포 군이 아닙니다. 예를 들어, 임의의 다변량 t 분포 (자유도 초과2)는 잘 정의 된 상관 관계 행렬을 가지며 처음 두 모멘트에 의해 완전히 결정됩니다.


여기서 적용하는 정의에 따라 공분산이 연관의 척도가 아님을 알 수 있습니까? 분산이 확장됨에 따라 확장되는 경향이 있기 때문입니다.
user1205901-복원 Monica Monica

2
맞아요. 공분산은 분명히 연관 척도와 관련이 있지만 다른 요인의 영향을 받기 때문에 그 자체가 아닙니다.
whuber

19

변형은 Pearson 상관 관계가 완전히 눈에 띄지 않는 방식으로 연관 될 수 있습니다.

다변량 법선에서, Pearson 상관 관계는 가능한 유일한 연관성이ρ. 그러나 다른 분포 (정상 마진이있는 분포)의 경우 상관없이 연관 될 수 있습니다. 다음은 3 개의 정규 랜덤 변량 (x, y 및 x, z)에 대한 몇 가지 도표입니다. 그들은 매우 관련이 있습니다 (당신이 나에게 가치를 말하면엑스-변형, 다른 두 가지를 말해 줄 게요 와이 나는 당신에게 말할 수 있습니다 )이지만 모두 서로 관련이 없습니다.

여기에 이미지 설명을 입력하십시오

관련이 있지만 관련이없는 변형의 또 다른 예는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

(여기서는 데이터를 사용하여 설명하고 있지만 배포에 대한 기본 사항이 제시되고 있습니다.)

변이가 상관되어 있더라도 피어슨 상관 관계는 일반적으로 어떻게 . 동일한 Pearson 상관 관계를 갖는 매우 다른 형태의 연관성을 얻을 수 있습니다 (그러나 변칙이 다변량 정규 인 경우 표준화 된 변이가 얼마나 관련되어 있는지 정확하게 말할 수있는 상관 관계).

따라서 Pearson 상관 관계는 변이가 연관되는 방식을 "고갈"하지 않습니다. 연관성이 있지만 연관성이 없거나 연관성이 있지만 매우 뚜렷한 방식으로 연관 될 수 있습니다. [상관 관계에 의해 완전히 포착되지 않는 다양한 방식이 발생할 수 있지만 그 중 하나가 발생하면 다변량 법선을 가질 수 없습니다. 그러나 내 토론에서 아무것도 이것을 암시하는 것은 아닙니다.ρ 제목 인용 부호가 제안하는 것처럼 보이지만 가능한 연관성을 정의합니다.)

(다변량 연관을 해결하는 일반적인 방법은 copulas를 사용하는 것입니다. copulas와 관련된 많은 질문이 사이트에 있습니다. 일부는 도움이 될 수 있습니다)


그러한 분포를 가진 실제 데이터가 있습니까?

@what 정규 분포에서 가져온 실제 데이터가 있습니까? 나는 의심의 여지가 있지만 (마지막에서 한계가 모두 정상이기 때문에) 대답을 즉시 "아니오"로 만들 것입니다. 예제의 요점은 왜 랜덤 변수들 간의 연관이 때때로 추정되는 것처럼 단순하지 않은지 (연관성을 측정하기 위해 얼마나 자주 Pearson 상관 관계를 계산합니까? 정상은 다릅니다. Pearson 상관 관계가 확실히 발생하는 상황을 포착하지 못하는 매우 실제적인 예입니다.
Glen_b-복지 주 모니카

분포에 대해서는 잠시 이야기하지 않겠습니다. 점 구름으로부터의 상관 관계를 계산할 때, 우리는 구름의 점들이 약간의 "오류"로 인해 빗나가는 근본적인 "기하학적 모양"(선형, 쌍곡선, 로그, 사인 등) 이상적인 상관 관계를 가정합니다. 이제 내가 본 모든 이상적인 모양은 연속 (단절없이)하고 적어도 하나의 축 (예 : 원형이 아닌)을 따라 항상 증가하는 실제 데이터에서 추상화되었습니다. 데이터에 대한 지식이 제한되어 있기 때문에 실제로 비 연속적이거나 순환적인 실제 데이터가 있는지 궁금합니다.

예를 들어, 플롯하면 두 개의 점 구름처럼 보일 수있는 데이터가있을 수 있습니다. 이 데이터에 대한 맹목적으로 상관 관계를 계산하면 하나를 찾을 수 있지만 (또는 들었을 때) 줄거리는 알 수없는 혼란스러운 변수가 누락되었음을 나타냅니다.이 변수를 설명하면 내 가짜 관계를 해결할 수 있습니다. 데이터. 교수님이 "x"또는 "y"모양의 예를 살펴 본다면, 저는 두 개의 서로 다른 데이터 하위 집합이 혼합되어 있다고 말할 것입니다.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.