가중 상관과 같은 것?

가장 인기있는 음악가들에 대한 흥미로운 데이터가 위치별로 나누어 약 200 개의 의회 구역으로 나뉘어 있습니다. 나는 음악적 취향에 따라 사람을 조사 할 수 있고 "민주당처럼 들리는 지"또는 "공화당처럼 들리는 지"를 결정할 수 있는지 알고 싶다. (당연히 이것은 가벼운 마음이지만 데이터에는 실제 엔트로피가 있습니다!)

지난 3 번의 선거주기 동안 각 지구에서 약 100 명의 예술가와 공화당 및 민주당 평균 투표율에 대한 데이터가 있습니다. 그래서 저는 각 예술가들과 상관 관계를 맺어 어느 예술가가 민주당의 투표 분배의 함수로 가장 불균형 적으로 들리는 지 알아 냈습니다. 이러한 상관 관계는 주어진 아티스트에 대해 약 -0.3에서 0.3 사이로 실행되며 중간에 예측력이 거의 또는 전혀없는 많은 부분이 있습니다.

두 가지 질문이 있습니다. 첫째, 지구당 전체 스트림 수는 크게 다릅니다. 지금, 나는 비욘세에 속하는 지구당 모든 스트림의 비율을 민주당에 대한 투표율과 상관 관계가 있습니다. 그러나 한 지역의 전체 스트림은 수백만에 달할 수 있지만 다른 지역은 10 만에 이릅니다. 어떻게 든 상관 관계를 설명하기 위해 상관 관계에 가중치를 부여해야합니까?

둘째, 이러한 상관 관계를 사용자의 정치와 관련하여 복합적인 추측으로 결합하는 방법이 궁금합니다. 각 방향으로 10 개의 절대 상관 값 (양수 및 음수)이 가장 높은 20 명의 아티스트를 가져 와서 각 아티스트가 얼마나 좋아하는지 사용자에게 설문 조사를한다고 가정하겠습니다. 그래서 저는 각 아티스트에 대해 위 또는 아래로 투표하고 20 개 값 모두에 대한 정치와의 상관 관계를가집니다. 이러한 상관 관계를 단일 추정값으로 결합하는 표준 방법이 있습니까? (나는 NYTimes의 유명한 방언 퀴즈 와 같은 것을 생각하고 있는데 25 질문에 대한 지역 확률을 히트 맵으로 결합했습니다. 그러나이 경우에는 민주주의 또는 공화당의 음악 취향이 얼마나 단일 한 가치가 필요합니다.

감사합니다!

— 크리스 윌슨
소스

가중치 Pearson 상관 관계 공식 은 웹 , StackOverflow 및 Wikipedia 에서 쉽게 찾을 수 있으며 psych 또는 weights와 같은 여러 R 패키지로 구현됩니다. 및 Python의 statsmodels 패키지 와 됩니다. 이것은 일정한 상관 싶지만 이용하여 계산되는 가중치 수단 ,

m_{X} = \frac{\sum_{i} w_{i} x_{i}}{\sum_{i} w_{i}}, m_{Y} = \frac{\sum_{i} w_{i} y_{i}}{\sum_{i} w_{i}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

가중 분산 ,

s_{X} = \frac{\sum_{i} w_{i} (x_{i} - m_{X})^{2}}{\sum_{i} w_{i}}, s_{Y} = \frac{\sum_{i} w_{i} (y_{i} - m_{Y})^{2}}{\sum_{i} w_{i}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

가중 공분산

s_{X Y} = \frac{\sum_{i} w_{i} (x_{i} - m_{X}) (y_{i} - m_{Y})}{\sum_{i} w_{i}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

이 모든 것을 가지고 가중 상관을 쉽게 계산할 수 있습니다

ρ_{X Y} = \frac{s_{X Y}}{\sqrt{s_{X} s_{Y}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

두 번째 질문에 관해서는, 내가 이해하는 것처럼, 당신은 20 명의 예술가에 대한 정치적 지향과 선호 사이의 상관 관계에 대한 데이터를 가지고 있으며 사용자는 자신의 선호에 대한 이진 답변을 얻을 수 있으며 어떤 종류의 집계 측정을 원합니다.

$z$

\bar{ρ} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (ρ_{j})}{K})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

기본적으로 상관 계수의 탄젠트 를 취 하면 극단적 인 값을 "평평하게"(아래 참조) 최종 추정값에 미치는 영향이 적고 분포를 정규에 가깝게 만듭니다. 이 절차는 Bushman and Wang (1995)과 Corey, Dunlap and Burke (1998)에 의해 설명되었다.

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$ 와 음악적 취향, 그래서 상관 관계 어떤 정치적 지향은 그러한 정치적 지향에 대한 음악적 혐오의 부정적인 상관 관계와 동일하며, 다른 방향입니다.

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{r}}_{i} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (r_{j} x_{i j})}{K})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

$-1$ $1$ .

그러나...

이 모든 것이 기본적으로 다중 회귀 문제인 무언가에 대한 과도한 것이라고 생각하지 않습니까? 대신 가중치가 하위 샘플의 크기를 기반으로하는 모든 가중치 및 평균화를 사용하면 가중치가 적용된 다중 회귀 (이진 기본 설정 또는 어느 방향으로 선호도를 선호하는지에 따라 선형 또는 로지스틱)를 사용할 수 있습니다. 각 아티스트의 음악 선호도를 예측 자로 사용합니다. 결국 사용자의 선호도를 사용하여 예측을합니다. 이 방법은 더 간단하고 통계적으로 우아합니다. 그것은 또한 상대적으로 적용됩니다 $A$ $B$

Bushman, BJ, & Wang, MC (1995). 모집단 상관 계수에 대한 추정치 및 신뢰 구간을 얻기 위해 표본 상관 계수와 투표 수를 결합하는 절차입니다. 심리 게시판, 117 (3), 530.

Corey, DM, Dunlap, WP 및 Burke, MJ (1998). 평균화 상관 관계 : 결합 된 Pearson 및 Fisher의 z 변환에서 예상 값과 편차, The Journal of General Psychology, 125 (3), 245-261.

— 팀
소스

감사합니다! 이것은 엄청나게 도움이됩니다. 오늘 나중에 사용할 수있게되면 현상금을 수여합니다.

— Chris Wilson

x_{i}

$x_i$

y_{i}

$y_i$

@Kagaratsch 나는 그런 공식을 본 적이 없다. 이것은 좋은 질문입니다.

— Tim