표준 편차가 0 일 가능성이있는 데이터 세트의 Pearson 상관 관계


12

가능한 표준 편차가 0 인 데이터 세트의 피어슨 상관 계수를 계산하는 데 문제가 있습니다 (즉, 모든 데이터의 값이 동일 함).

다음 두 데이터 세트가 있다고 가정하십시오.

float x[] = {2, 2, 2, 3, 2};
float y[] = {2, 2, 2, 2, 2};

상관 계수 "r"은 다음 방정식을 사용하여 계산됩니다.

float r = covariance(x, y) / (std_dev(x) * std_dev(y));

그러나 데이터 세트 "y"의 모든 데이터가 동일한 값을 가지므로 표준 편차 std_dev (y)는 0이되고 "r"은 정의되지 않습니다.

이 문제에 대한 해결책이 있습니까? 아니면이 경우 데이터 관계를 측정하기 위해 다른 방법을 사용해야합니까?


y는 변하지 않기 때문에이 예에서는 "데이터 관계"가 없습니다. 할당 어떤 으로 수치 연구하는 것은 실수가 될 것입니다.
whuber

1
@whuber- 이 정의되어 있지 않다는 것은 사실이지만 반드시 "true"알 수없는 상관 관계 를 추정 할 수는 없습니다. 추정하기 위해 다른 것을 사용해야합니다. ρrρ
확률

@probability 이것은 특성화의 문제가 아니라 추정의 문제라고 가정합니다. 그러나 이것을 받아들이면 예제에서 어떤 추정기를 제안 하시겠습니까? 추정기가 어떻게 사용되는지 (실제로 손실 함수)에 달려 있기 때문에 보편적으로 정확한 답은 없습니다. 같은 PCA와 같은 많은 응용 프로그램에서, 사용하는 것으로 보인다 어떤 절차 것은 전가가에 값 것을 인식 다른 절차보다 더 할 수있다 식별 할 수 없습니다. ρρρ
whuber

1
@whuber - 추정치는 나를 위해 단어의 나쁜 선택 (당신은 내가 최고의 단어의 달인이 아니에요 눈치 챘을 수도)이며 내가 의미하지만 것이 었습니다 고유하게 식별되지 않을 수 있습니다,이 데이터가 쓸모있는 것은 아닙니다 에 대해 알려주십시오 . 내 대답은 대수적 관점에서 이것을 (추악한) 시연합니다. ρρρ
확률

@ 확률 분석이 모순되는 것 같습니다. 실제로 y가 정규 분포로 모델링 된 경우 5 개의 2의 표본이이 모델이 부적절하다는 것을 보여줍니다. 궁극적으로 아무 것도 얻지 못합니다. 결과는 이전에 대한 가정에 크게 의존합니다. 를 식별하는 데있어 원래의 문제 는 여전히 존재하지만 이러한 모든 추가 가정에 의해 숨겨져 있습니다. IMHO는 문제를 명확히하기보다는 모호하게 만드는 것 같습니다. ρ
whuber

답변:


9

"샘플링 이론"사람들은 그러한 추정치가 존재하지 않는다고 말할 것입니다. 그러나 당신은 하나를 얻을 수 있고, 당신은 당신의 이전 정보에 대해 합리적이어야하며, 훨씬 더 어려운 수학적 작업을해야합니다.

베이지안 추정 방법을 지정하고 사후가 이전과 동일하면 데이터에 매개 변수에 대해 아무 것도 말하지 않는다고 말할 수 있습니다. 일이 우리에게 "단일"될 수 있기 때문에 무한 매개 변수 공간을 사용할 수 없습니다. Pearson 상관 관계를 사용하기 때문에 이변 량 정규 가능성이 있다고 가정합니다.

p(D|μx,μy,σx,σy,ρ)=(σxσy2π(1ρ2))Nexp(iQi2(1ρ2))
여기서
Qi=(xiμx)2σx2+(yiμy)2σy22ρ(xiμx)(yiμy)σxσy

이제 하나의 데이터 세트가 동일한 값일 수 있음을 나타 내기 위해 다음과 같이됩니다.yi=y

iQi=N[(yμy)2σy2+sx2+(x¯μx)2σx22ρ(x¯μx)(yμy)σxσy]
여기서
sx2=1Ni(xix¯)2

따라서 가능성은 네 가지 숫자에 따라 다릅니다 . 따라서 의 추정치가 필요하므로 이전에 곱하고 방해 매개 변수 합니다. 이제 통합을 준비하기 위해 "사각형 완성" sx2,y,x¯,Nρμx,μy,σx,σy

iQi1ρ2=N[(μy[y(x¯μx)ρσyσx])2σy2(1ρ2)+sx2σx2(1ρ2)+(x¯μx)2σx2]

이제 우리는주의를 기울여야하고 제대로 정규화 된 확률을 보장해야합니다. 그렇게하면 문제가 발생하지 않습니다. 그러한 옵션 중 하나는 약한 유익한 사전을 사용하는 것입니다. 따라서 이 평평한 수단의 경우 의 표준 편차에 대한 이전. 이러한 한계는 문제에 대한 약간의 상식적인 생각으로 쉽게 설정할 수 있습니다. 대해 지정되지 않은 사전을 취하여 의 특이점을 자르지 않으면 균일하게 작동합니다 .Lμ<μx,μy<UμLσ<σx,σy<Uσρ±1

p(ρ,μx,μy,σx,σy)=p(ρ)Aσxσy

여기서 입니다. 이것은 다음의 후부를 제공합니다.A=2(UμLμ)2[log(Uσ)log(Lσ)]2

p(ρ|D)=p(ρ,μx,μy,σx,σy)p(D|μx,μy,σx,σy,ρ)dμydμxdσxdσy

=p(ρ)A[2π(1ρ2)]N2LσUσLσUσ(σxσy)N1exp(Nsx22σx2(1ρ2))×
LμUμexp(N(x¯μx)22σx2)LμUμexp(N(μy[y(x¯μx)ρσyσx])22σy2(1ρ2))dμydμxdσxdσy

이제 변수 변경하여 대한 첫 번째 통합을 수행 할 수 있습니다. 상기 제 적분 위에 된다 :μyz=Nμy[y(x¯μx)ρσyσx]σy1ρ2dz=Nσy1ρ2dμyμy

σy2π(1ρ2)N[Φ(Uμ[y(x¯μx)ρσyσx]σyN1ρ2)Φ(Lμ[y(x¯μx)ρσyσx]σyN1ρ2)]

여기에서 볼 수 있듯이 분석 솔루션은 불가능합니다. 그러나 값 이 방정식에서 빠지지 않았다는 점도 주목할 가치가 있습니다 . 이는 데이터와 사전 정보가 여전히 실제 상관 관계에 대해 말할 내용이 있음을 의미합니다. 데이터의 상관 관계에 대해 아무 말도하지 않으면, 우리는 단순히 남아있을 것입니다 의 유일한 기능으로 이 방정식이다.ρp(ρ)ρ

또한 대한 무한 한계의 한계로 는 것은 복잡해 보이는 정상적인 CDF 함수 인 포함 된 에 대한 일부 정보를 "버릴" 방법을 보여줍니다 . 이제 데이터가 많으면 한계에 도달하는 것이 좋지만 많이 풀지는 않지만 귀하의 경우와 같이 정보가 매우 부족한 경우 모든 스크랩을 유지하는 것이 중요합니다. 그것은 못생긴 수학을 의미하지만이 예제는 수치 적으로하기가 너무 어렵지 않습니다. 따라서 값에서 에 대한 적분 가능성을 상당히 쉽게 수 있습니다. 작은 간격으로 적분으로 적분을 교체하기 만하면 트리플 합산μyρΦ(.)ρ0.99,0.98,,0.98,0.99


@probabilityislogic : 와우. 와우 귀하의 답변 중 일부를 본 후에 정말 궁금합니다. 나와 같은 doofus가 유연한 베이지안 상태에 도달하려면 어떻게해야합니까?
steffen

1
@ 스티븐-롤. 그렇게 어렵지는 않지만 연습 만하면됩니다. 그리고 항상 항상 곱셈과 합산 확률 규칙이 필요한 유일한 규칙 이라는 것을 항상 기억하십시오 . 그들은 당신이 보는지 여부에 관계없이 모든 정보를 추출합니다. 따라서 제품 및 합계 규칙을 적용한 다음 수학을 수행하면됩니다. 그것이 내가 여기서 한 전부입니다.
probabilityislogic

@steffen-그리고 다른 규칙-통계보다 수학적인 것-계산에서 너무 일찍 무한한 한도를 넘지 않거나 결과가 임의적이거나 세부 사항이 거의 나오지 않을 수 있습니다. 측정 오차 모델은 이에 대한 완벽한 예입니다 (이 질문과 마찬가지로).
chanceislogic

@probabilityislogic : "Bayesian Analysis"-copy;)를 통해 작업을 마치 자마자 고마워요.
steffen

@probabilityislogic : 비 수학적 통계 학자 / 연구자에게 유머를 줄 수 있다면 치과 의사, 고등학교 교장 또는 입문 통계 학생들에게 답을 요약하거나 번역 할 수 있습니까?
rolando2

6

이 경우 상관 관계가 정의되지 않았다는 sesqu에 동의합니다. 애플리케이션 유형에 따라 두 벡터 간의 Gower 유사성을 계산할 수 있습니다. 여기서 는 에 함수로 적용되는 kronecker- 나타냅니다 . δv1,v2gower(v1,v2)=i=1nδ(v1i,v2i)nδv1,v2

예를 들어 모든 값이 같으면 gower (.,.) = 1입니다. 반면에 한 차원에서만 다르면 gower (.,.) = 0.9입니다. 치수가 다르면 gower (.,.) = 0 등입니다.

물론 이것은 상관 관계에 대한 측정은 아니지만 s> 0을 가진 벡터가 s = 0을 가진 벡터에 얼마나 가까운 지 계산할 수 있습니다. 물론 다른 측정 항목이 목적을 더 잘 충족시키는 경우에도 적용 할 수 있습니다.


+1 창의적인 아이디어입니다. "Gower 유사성"이 스케일링 된 Hamming 거리 인 것 같습니다 .
whuber

@ whuber : 사실이다!
steffen

0

이 경우 상관 관계가 정의되지 않습니다. 정의 해야하는 경우 0으로 정의하지만 간단한 평균 절대 차이를 대신 고려하십시오.


0

이 질문은 프로그래머들로부터 나왔으므로 0을 연결하는 것이 좋습니다. 상관 관계에 대한 증거는 없으며 귀무 가설은 0이됩니다 (상관 관계 없음). 한 컨텍스트에서 "일반적인"상관 관계를 제공하는 다른 컨텍스트 지식이있을 수 있지만 코드는 다른 컨텍스트에서 재사용 될 수 있습니다.


2
상관 관계 가 없다는 증거가 없으므로 1을 연결하지 않는 이유는 무엇입니까? 아니면 -1? 아니면 그 사이에 뭔가? 그것들은 모두 재사용 가능한 코드로 이어집니다!
whuber

@whuber-데이터가 독립적 일 때 데이터가 "제약되지 않기 때문에"0을 연결합니다. 따라서 제약 조건에 상관 관계를 명시 적으로 지정하지 않으면 최대 분포가 독립적입니다. 이러한 상관 관계를 알지 못하면 독립성을 보수적 인 가정으로 볼 수 있습니다. 효과적으로 모든 가능한 상관 관계를 평균화 합니다 .
probabilityislogic

1
@prob 나는 왜 모든 상관 관계에 걸쳐 평균을 내는 일반적인 절차로서 의미가 있는지 의문을 제기한다 . 실제로이 절차는 명확하고 틀린 대답 "0!"을 대체합니다. 정답을 위해 "데이터는 우리에게 알려주지 않습니다." 이러한 차이는 의사 결정에 중요 할 수 있습니다.
whuber

질문이 프로그래머의 것이기 때문에 정의되지 않은 값을 0으로 변환해야한다는 의미는 아닙니다. 0은 상관 관계 계산에 특정한 것을 의미합니다. 예외를 던지십시오. 발신자가 어떻게해야하는지 결정하게하십시오. 함수는 계산할 수없는 경우 수행 할 작업을 결정하지 않고 상관 관계를 계산해야합니다.
Jared Becksfort
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.