가중 상관과 같은 것?


14

가장 인기있는 음악가들에 대한 흥미로운 데이터가 위치별로 나누어 약 200 개의 의회 구역으로 나뉘어 있습니다. 나는 음악적 취향에 따라 사람을 조사 할 수 있고 "민주당처럼 들리는 지"또는 "공화당처럼 들리는 지"를 결정할 수 있는지 알고 싶다. (당연히 이것은 가벼운 마음이지만 데이터에는 실제 엔트로피가 있습니다!)

지난 3 번의 선거주기 동안 각 지구에서 약 100 명의 예술가와 공화당 및 민주당 평균 투표율에 대한 데이터가 있습니다. 그래서 저는 각 예술가들과 상관 관계를 맺어 어느 예술가가 민주당의 투표 분배의 함수로 가장 불균형 적으로 들리는 지 알아 냈습니다. 이러한 상관 관계는 주어진 아티스트에 대해 약 -0.3에서 0.3 사이로 실행되며 중간에 예측력이 거의 또는 전혀없는 많은 부분이 있습니다.

두 가지 질문이 있습니다. 첫째, 지구당 전체 스트림 수는 크게 다릅니다. 지금, 나는 비욘세에 속하는 지구당 모든 스트림의 비율을 민주당에 대한 투표율과 상관 관계가 있습니다. 그러나 한 지역의 전체 스트림은 수백만에 달할 수 있지만 다른 지역은 10 만에 이릅니다. 어떻게 든 상관 관계를 설명하기 위해 상관 관계에 가중치를 부여해야합니까?

둘째, 이러한 상관 관계를 사용자의 정치와 관련하여 복합적인 추측으로 결합하는 방법이 궁금합니다. 각 방향으로 10 개의 절대 상관 값 (양수 및 음수)이 가장 높은 20 명의 아티스트를 가져 와서 각 아티스트가 얼마나 좋아하는지 사용자에게 설문 조사를한다고 가정하겠습니다. 그래서 저는 각 아티스트에 대해 위 또는 아래로 투표하고 20 개 값 모두에 대한 정치와의 상관 관계를가집니다. 이러한 상관 관계를 단일 추정값으로 결합하는 표준 방법이 있습니까? (나는 NYTimes의 유명한 방언 퀴즈 와 같은 것을 생각하고 있는데 25 질문에 대한 지역 확률을 히트 맵으로 결합했습니다. 그러나이 경우에는 민주주의 또는 공화당의 음악 취향이 얼마나 단일 한 가치가 필요합니다.

감사합니다!

답변:


25

가중치 Pearson 상관 관계 공식 은 웹 , StackOverflowWikipedia 에서 쉽게 찾을 수 있으며 psych 또는 weights와 같은 여러 R 패키지로 구현됩니다. 및 Python의 statsmodels 패키지 와 됩니다. 이것은 일정한 상관 싶지만 이용하여 계산되는 가중치 수단 ,

mX=iwixiiwi,    mY=iwiyiiwi

가중 분산 ,

sX=iwi(ximX)2iwi,    sY=iwi(yimY)2iwi

가중 공분산

sXY=iwi(ximX)(yimY)iwi

이 모든 것을 가지고 가중 상관을 쉽게 계산할 수 있습니다

ρXY=sXYsXsY

두 번째 질문에 관해서는, 내가 이해하는 것처럼, 당신은 20 명의 예술가에 대한 정치적 지향과 선호 사이의 상관 관계에 대한 데이터를 가지고 있으며 사용자는 자신의 선호에 대한 이진 답변을 얻을 수 있으며 어떤 종류의 집계 측정을 원합니다.

z

ρ¯=tanh1(j=1Ktanh(ρj)K)

기본적으로 상관 계수의 탄젠트 를 취 하면 극단적 인 값을 "평평하게"(아래 참조) 최종 추정값에 미치는 영향이 적고 분포를 정규에 가깝게 만듭니다. 이 절차는 Bushman and Wang (1995)과 Corey, Dunlap and Burke (1998)에 의해 설명되었다.

여기에 이미지 설명을 입력하십시오

r=cor(X,Y)r=cor(X,Y)=cor(X,Y) 와 음악적 취향, 그래서 상관 관계 어떤 정치적 지향은 그러한 정치적 지향에 대한 음악적 혐오의 부정적인 상관 관계와 동일하며, 다른 방향입니다.

rjjxijijxij=1xij=1

r¯i=tanh1(j=1Ktanh(rjxij)K)

11 .

그러나...

이 모든 것이 기본적으로 다중 회귀 문제인 무언가에 대한 과도한 것이라고 생각하지 않습니까? 대신 가중치가 하위 샘플의 크기를 기반으로하는 모든 가중치 및 평균화를 사용하면 가중치가 적용된 다중 회귀 (이진 기본 설정 또는 어느 방향으로 선호도를 선호하는지에 따라 선형 또는 로지스틱)를 사용할 수 있습니다. 각 아티스트의 음악 선호도를 예측 자로 사용합니다. 결국 사용자의 선호도를 사용하여 예측을합니다. 이 방법은 더 간단하고 통계적으로 우아합니다. 그것은 또한 상대적으로 적용됩니다AB


Bushman, BJ, & Wang, MC (1995). 모집단 상관 계수에 대한 추정치 및 신뢰 구간을 얻기 위해 표본 상관 계수와 투표 수를 결합하는 절차입니다. 심리 게시판, 117 (3), 530.

Corey, DM, Dunlap, WP 및 Burke, MJ (1998). 평균화 상관 관계 : 결합 된 Pearson 및 Fisher의 z 변환에서 예상 값과 편차, The Journal of General Psychology, 125 (3), 245-261.


감사합니다! 이것은 엄청나게 도움이됩니다. 오늘 나중에 사용할 수있게되면 현상금을 수여합니다.
Chris Wilson

엑스나는와이나는

1
@Kagaratsch 나는 그런 공식을 본 적이 없다. 이것은 좋은 질문입니다.
Tim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.