서수와 연속 랜덤 변수 사이의 비강도 연관 강도 측정


12

내가받은 문제를 여기에 던지고 있습니다.

두 개의 임의 변수가 있습니다. 하나는 연속적 이며 (Y) 다른 하나는 이산 적이며 서수 (X) 로 접근 합니다. 쿼리와 함께받은 줄거리 아래에 넣었습니다.

여기에 이미지 설명을 입력하십시오

데이터를 보낸 사람 은 X와 Y 사이 의 연관 강도측정 하려고합니다 . 데이터를 생성 한 프로세스에 대한 가정이 먼저 나오지 않을 아이디어를 찾고 있습니다. 이것은 부트 스트랩에서와 같이 관계의 강도 를 테스트 하는 비모수 적 방법을 찾는 것이 아니라 관계를 측정 하는 비모수 적 방법을 찾는 것에 관한 것입니다.

반면에 데이터 포인트가 많기 때문에 효율성은 문제가되지 않습니다.


1
X (이산 변수)가 서수입니까?
Peter Flom

@ PeterFlom : 감사합니다. 예. 나는 이것을 질문에 추가한다.
user603

"비모수 적"이란 평균 또는 분산의 계산이 허용되지 않음을 의미합니까?
ttnphns 2016 년

답변:


8

정의에 따라 서수 스케일은 노치 사이의 실제 거리를 1 2 3 4알 수없는 게이지 입니다. 마치 마약 / 알코올로 통치자를 보는 것과 같습니다. 실제 거리는 어느 것이나 될 수 있습니다. 그것은 수 1 2 3 4또는 1 2 3 4또는 무엇 이건. 거리를 결정하고 수정하지 않으면 상관 관계와 같은 통계를 계산할 수 없습니다.

한 가지 이유 는 다음과 같습니다. 측정 스케일 인 게이지가 알려지지 않은 단조로운 방식으로 왜곡되므로 데이터 값을 믿을 수 없습니다. 그들의 규모의 순서 만 신뢰할 수 있습니다. 뇌를 더 활용하지 않으면 질서를 가치로 선언하십시오. 따라서 관측 된 분포를 균등 분포 ( 순위)로 바꿉니다 . 그 후, 연관 계수, 예를 들어 Pearson 계산할 수 있습니다 . 우리가 알고 있듯이 그것은 Spearman 일 것입니다. Pearson 은 선형 연관의 강도를 측정합니다. 변수의 순위를 매기는 것은 초기에 균일하지 않은 분포에 기인 한 단조로운 관계의 부분을 선형화하는 트릭이었습니다. 따라서 Spearmanr h o r r h o rrrhorrho는 한계 분포를 균일화하는 작용 하에서 선형성으로 변환 될 수있는 관계에서 이러한 단 조성의 측정치이다. OP 질문에서 두 변수 중 하나만 서수입니다 (두 번째 변수는 연속적입니다). 따라서 일반적으로 변수의 순위를 지정할 필요가 없습니다 . 서수의 순위를 매기고 을 계산할 수 있습니다.r

또 다른 접근법 (균일화) 랭킹 대안 일 수있다 최적 스케일링 서수 변수. 최적 스케일링은 변수 사이의 선형 이 최대한 최대화 되도록 서수 스케일에서 그러한 거리를 찾는 것, 즉 단조 적 변환을 찾는 것을 목표로하는 반복적 인 절차입니다 . 순위 접근 방식은 전제 "진정한 스케일은 균일 분포를 갖는 데이터에 해당"이라는 전제를 기반으로하지만 최적의 스케일링 접근 방식은 전제 "진정한 스케일은 최대 선형 갖는 데이터에 해당합니다.rrr". 범주 형 회귀 분석 (CATREG)에서 최적의 스케일링을 수행 할 수 있습니다. 그러나 범주 형 회귀 분석을 수행하려면 다른 입력 변수가 반드시 이산 형이어야합니다 (필수 서수는 아님). 따라서 고유 값이 많은 연속 형인 경우에는 임의로 사용자가 비닝해야합니다. .

다른 접근법도 있습니다. 그러나 서수 스케일이 알려지지 않은 방식으로 왜곡되기 때문에 어쨌든 우리는 서수 스케일을 단조롭게 "..."(일부 가정 또는 목표)로 변환합니다. 근본적으로 또 다른 결정은 먼저 "절전"하고 결정이 왜곡되지 않거나 (즉, 간격), 알려진 방식으로 왜곡되거나 (비 간격) 또는 공칭인지 결정하는 것입니다.

일부 비대칭 접근법은 다른 (간격 / 연속)에 의한 서수 변수의 서수 회귀를 포함 할 수있다. 또는 예측 변수가 다항식 대비 (즉,로 입력 b1X + b2X^2 + b3X^3,...) 인 모델을 사용하여 후자를 서수로 선형 회귀 분석 합니다. 이러한 접근 방식의 단점은 비대칭이라는 것입니다. 하나의 변수는 종속적이며 다른 하나는 독립적입니다.


감사; 변수 중 하나의 순위 만 계산하는 것이 좋습니다.
user603

6

di=xiyixiyi

rS=16i=1ndi2n(n21)

XY


참고 문헌

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M. 및 Sabeti, P. (2011). 대규모 데이터 세트에서 새로운 연관성을 감지합니다. 과학 , 334 (6062) : 1518–1524.

Reshef, D., Reshef, Y., Mitzenmacher, M. 및 Sabeti, P. (2013). 최대 정보 계수의 동등성 분석과 비교 . arXiv , 8 월 14 일.


둘 다 아주 좋은 아이디어처럼 보입니다. 실제로, 제안한 두 가지 접근 방식은 서로를 보완 합니다. 질문을 조금만 열어 두겠습니다.
user603
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.