비선형 의존성 측정


11

두 랜덤 변수 간의 공분산은 서로 선형 적으로 얼마나 밀접하게 관련되어 있는지 측정합니다. 그러나 관절 분포가 원형이라면 어떻게 될까요? 분명히 배포판에 구조가 있습니다. 이 구조는 어떻게 추출됩니까?

답변:


8

"원형"에 의해 분포는 pdf의이 등고선 플롯에서와 같이 원형 영역에 집중되어 있음을 이해합니다.

순환 분포의 등고선도

rr(X,Y)(μX,μY)

F(ρ)=Pr[(XμX)2+(YμY)2ρ2],ρ0;
F(ρ)=0,ρ<0.

이것은 거리 과 중심의 사이에 놓일 수있는 총 확률을 포착합니다 . 모든 방향으로 펼치려면 은 cdf 의 임의 변수 이고 는 독립적 으로 에서 균일 한 임의 변수입니다 . 이변 량 랜덤 변수 는 의 원형 평균 입니다 . (이 작업을 수행하는 "평균 원형"우리의 요구 때문에 직관 (a)가 올바른 직경 분포, 즉 보유 구성을함으로써, 그리고 (b) 중심으로부터 모든 방향 (0ρRFΘ[0,2π]R(Ξ,H)=(Rcos(Θ)+μX,Rsin(Θ)+μY)(X,Y)FΘ)도 마찬가지입니다.)

이 시점에서 많은 선택을 할 수 있습니다. 남아있는 것은 의 분포 와 의 분포를 비교하는 것입니다 . 가능한 거리는 거리Kullback-Leibler 분기 (수많은 관련 거리 측정과 함께 : 대칭 발산, Hellinger 거리, 상호 정보 )가 있습니다. 비교는 가 "가까이"있을 때 원형 구조를 가질 수 있음을 시사 합니다. 이 경우 구조는 속성에서 "추출"될 수 있습니다 . 예를 들어, 평균 또는 중앙값과 같은 의 중심 위치 측정은 분포의 "반경"을 식별합니다.(X,Y)(Ξ,H)Lp(X,Y)(Ξ,H)FF(X,Y) 및 의 표준 편차 (또는 다른 척도)는 "확산" 이 중심 위치 중심으로 반지름 방향으로 어떻게 퍼져 있는지를 나타냅니다 .F(X,Y)(μX,μY)

데이터 을 사용하여 분포에서 표본추출 할 때 합리적인 원형도 테스트는 중앙 위치를 평소와 같이 (평균 또는 중간 값으로) 추정 한 다음 각 값 를 추정 된 중심을 기준 으로 극좌표반지름의 표준 편차 (또는 IQR)를 평균 (또는 중앙값)과 비교합니다. 비 원형 분포의 경우 비율이 커집니다. 순환 분포의 경우 상대적으로 작아야합니다. (기본 분포에 대해 특정 모형을 염두에 둔 경우 방사형 통계량의 표본 분포를 계산하고이를 사용하여 유의성 검정을 구성 할 수 있습니다.) 따로 따로 구간의 균일 성을 위해 각도 좌표를 테스트합니다.(xi,yi),1in(xi,yi)(ri,θi)[0,2π) . 원형 분포 (및 다른 분포도)에 대해 대략 균일 할 것입니다. 불균일성은 원형에서 벗어난 것을 나타냅니다.


1
감사합니다! 완전히 명확하지는 않지만 이것은 나에게 몇 가지 아이디어를 제공합니다. 이런 종류의 배포판을 다루는 곳을 읽어 보시겠습니까? 나는 가우시안과 다른 표준 배포판에만 노출되었습니다. 또 다른 질문은 원자의 방사형 분포 함수와 관련이 있습니까?
무한대

1
@Infinity 명확하지 않은 부분을 알려 주면 문제를 해결할 수 있습니다. 이러한 분포가 어디에서 논의되는지는 모르겠지만 관련 분석은 "원형 분포"에 관한 문헌에서 찾을 수 있습니다. 근본적인 수학적 아이디어는 실제로 원자 궤도 이론과 다소 밀접한 관련이 있습니다. 관련 개념에는 구면 좌표에서 슈뢰딩거 방정식의 분리 성, 평균화를 통해 소형 Lie 그룹의 Haar 측정 값 구성, 중첩 적분을 통해 궤도를 비교하는 것이 포함됩니다.
whuber

감사. 나는 확률과 통계에 매우 익숙하므로 아마도 그 때문일 것입니다. "중심을 중심으로 한 평균 분포"라는 의미를 이해하지 못합니다. 중심이 에 반경이 모든 원의 평균을 합니다 선형 회귀선 적합처럼 다소. 그 맞습니까? (μX,μY)ρ
무한대

내가 가진 또 다른 의심은 분배 함수 가 디스크를 설명하는 것처럼 보이지만 그림 (및 내가 생각한 것)은 링이라는 것입니다. 랜덤 변수 는 평균 원을 극좌표 형태로 나타냅니다. 다음에 무슨 일이 벌어 질지 미안하다. 일부 거리 측정법을 사용하여 두 분포를 비교하지만 가 왜 특별한 지 왜 추론 할 수 없는지 이해합니다. 질문이 너무 어리 석다면 죄송합니다. F(ρ)(Ξ,H)(Ξ,H)
무한대

1
@Infinity 나는 몇 가지 명확한 설명을 추가했습니다. 당신은 원을 평균하지 않습니다; 오히려, 당신은 밖으로 평균 (또는 "얼룩") 모든 가능성 에 걸쳐 (원형 윤곽선) 각 원은 시작 상관없이, 그것은 내 그림처럼 보이는까지 끝나도록. 원래 분포가 실제로 원형이라면이 평균화는 변경되지 않습니다. 따라서 분포를 평균 버전과 비교하면 처음에 원형에서 얼마나 멀리 떨어져 있는지 알 수 있습니다.
whuber

5

상호 정보 에는 공분산과 다소 유사한 특성이 있습니다. 공분산은 독립 변수의 경우 0이고 선형에 종속적 인 변수의 경우 0이 아닌 숫자입니다. 특히 두 변수가 동일한 경우 공분산은 분산과 같습니다 (보통 양수). 공분산의 한 가지 문제는 의존성이 비선형 인 경우 두 변수가 독립적이지 않더라도 0 일 수 있다는 것입니다.

상호 정보 (MI)는 음수가 아닌 숫자입니다. 두 변수가 통계적으로 독립적 인 경우에만 0입니다. 이 속성은 공분산보다 일반적이며 비선형 속성을 포함한 모든 종속성을 포함합니다.

두 변수가 동일하면 MI는 변수의 엔트로피와 동일합니다 (일반적으로 양수). 변수가 다르고 결정적으로 관련되지 않은 경우 MI는 엔트로피보다 작습니다. 이런 의미에서, 두 변수의 MI는 0과 H (엔트로피) 사이에 있으며, 독립적 인 경우에만 0, 결정 론적으로 의존하는 경우에만 H를 갖습니다.

공분산과의 한 가지 차이점은 종속성의 "부호"가 무시된다는 것입니다. 예를 들어 이지만 입니다.Cov(X,X)=Cov(X,X)=Var(X)MI(X,X)=MI(X,X)=H(X)


4
이 개념이 질문에 대한 답변을 제공하는 방법을 확장 할 수 있습니까?
onestop

3

과학의 다음 기사를 살펴보십시오. 요점을 정확하게 설명합니다.

David N. Reshef et al.의 대규모 데이터 세트에서 새로운 연관성 탐지

초록에서 :

대규모 데이터 세트에서 변수 쌍 간의 흥미로운 관계를 식별하는 것이 점점 중요 해지고 있습니다. 여기, 우리는 최대 정보 계수 (MIC)라는 두 변수 관계에 대한 의존도를 제시합니다. MIC는 기능적이든 아니든 광범위한 연관성을 포착하고 기능적 관계에 대해 회귀 함수에 대한 데이터의 결정 계수 (R ^ 2)와 대략 같은 점수를 제공합니다. MIC는 관계를 식별하고 분류하기위한 더 큰 클래스의 최대 정보 기반 비모수 탐색 (MINE) 통계에 속합니다. 우리는 글로벌 건강, 유전자 발현, 메이저 리그 야구 및 인간 장내 미생물의 데이터 세트에 MIC와 MINE을 적용하고 알려진 새로운 관계를 식별합니다.

보충 자료는 여기에서 찾을 수 있습니다 : http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1

저자는 R 및 Python과 함께 사용할 수있는 새로운 방법을 통합 한 무료 도구를 제공합니다. http://www.exploredata.net/

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.