답변:
"원형"에 의해 분포는 pdf의이 등고선 플롯에서와 같이 원형 영역에 집중되어 있음을 이해합니다.
이것은 거리 과 중심의 사이에 놓일 수있는 총 확률을 포착합니다 . 모든 방향으로 펼치려면 은 cdf 의 임의 변수 이고 는 독립적 으로 에서 균일 한 임의 변수입니다 . 이변 량 랜덤 변수 는 의 원형 평균 입니다 . (이 작업을 수행하는 "평균 원형"우리의 요구 때문에 직관 (a)가 올바른 직경 분포, 즉 보유 구성을함으로써, 그리고 (b) 중심으로부터 모든 방향 ()도 마찬가지입니다.)
이 시점에서 많은 선택을 할 수 있습니다. 남아있는 것은 의 분포 와 의 분포를 비교하는 것입니다 . 가능한 거리는 거리 와 Kullback-Leibler 분기 (수많은 관련 거리 측정과 함께 : 대칭 발산, Hellinger 거리, 상호 정보 등 )가 있습니다. 비교는 가 "가까이"있을 때 원형 구조를 가질 수 있음을 시사 합니다. 이 경우 구조는 속성에서 "추출"될 수 있습니다 . 예를 들어, 평균 또는 중앙값과 같은 의 중심 위치 측정은 분포의 "반경"을 식별합니다. 및 의 표준 편차 (또는 다른 척도)는 "확산" 이 중심 위치 중심으로 반지름 방향으로 어떻게 퍼져 있는지를 나타냅니다 .
데이터 을 사용하여 분포에서 표본 을 추출 할 때 합리적인 원형도 테스트는 중앙 위치를 평소와 같이 (평균 또는 중간 값으로) 추정 한 다음 각 값 를 추정 된 중심을 기준 으로 극좌표반지름의 표준 편차 (또는 IQR)를 평균 (또는 중앙값)과 비교합니다. 비 원형 분포의 경우 비율이 커집니다. 순환 분포의 경우 상대적으로 작아야합니다. (기본 분포에 대해 특정 모형을 염두에 둔 경우 방사형 통계량의 표본 분포를 계산하고이를 사용하여 유의성 검정을 구성 할 수 있습니다.) 따로 따로 구간의 균일 성을 위해 각도 좌표를 테스트합니다. . 원형 분포 (및 다른 분포도)에 대해 대략 균일 할 것입니다. 불균일성은 원형에서 벗어난 것을 나타냅니다.
상호 정보 에는 공분산과 다소 유사한 특성이 있습니다. 공분산은 독립 변수의 경우 0이고 선형에 종속적 인 변수의 경우 0이 아닌 숫자입니다. 특히 두 변수가 동일한 경우 공분산은 분산과 같습니다 (보통 양수). 공분산의 한 가지 문제는 의존성이 비선형 인 경우 두 변수가 독립적이지 않더라도 0 일 수 있다는 것입니다.
상호 정보 (MI)는 음수가 아닌 숫자입니다. 두 변수가 통계적으로 독립적 인 경우에만 0입니다. 이 속성은 공분산보다 일반적이며 비선형 속성을 포함한 모든 종속성을 포함합니다.
두 변수가 동일하면 MI는 변수의 엔트로피와 동일합니다 (일반적으로 양수). 변수가 다르고 결정적으로 관련되지 않은 경우 MI는 엔트로피보다 작습니다. 이런 의미에서, 두 변수의 MI는 0과 H (엔트로피) 사이에 있으며, 독립적 인 경우에만 0, 결정 론적으로 의존하는 경우에만 H를 갖습니다.
공분산과의 한 가지 차이점은 종속성의 "부호"가 무시된다는 것입니다. 예를 들어 이지만 입니다.
과학의 다음 기사를 살펴보십시오. 요점을 정확하게 설명합니다.
David N. Reshef et al.의 대규모 데이터 세트에서 새로운 연관성 탐지
초록에서 :
대규모 데이터 세트에서 변수 쌍 간의 흥미로운 관계를 식별하는 것이 점점 중요 해지고 있습니다. 여기, 우리는 최대 정보 계수 (MIC)라는 두 변수 관계에 대한 의존도를 제시합니다. MIC는 기능적이든 아니든 광범위한 연관성을 포착하고 기능적 관계에 대해 회귀 함수에 대한 데이터의 결정 계수 (R ^ 2)와 대략 같은 점수를 제공합니다. MIC는 관계를 식별하고 분류하기위한 더 큰 클래스의 최대 정보 기반 비모수 탐색 (MINE) 통계에 속합니다. 우리는 글로벌 건강, 유전자 발현, 메이저 리그 야구 및 인간 장내 미생물의 데이터 세트에 MIC와 MINE을 적용하고 알려진 새로운 관계를 식별합니다.
보충 자료는 여기에서 찾을 수 있습니다 : http://www.sciencemag.org/content/suppl/2011/12/14/334.6062.1518.DC1
저자는 R 및 Python과 함께 사용할 수있는 새로운 방법을 통합 한 무료 도구를 제공합니다. http://www.exploredata.net/