가장 인기있는 음악가들에 대한 흥미로운 데이터가 위치별로 나누어 약 200 개의 의회 구역으로 나뉘어 있습니다. 나는 음악적 취향에 따라 사람을 조사 할 수 있고 "민주당처럼 들리는 지"또는 "공화당처럼 들리는 지"를 결정할 수 있는지 알고 싶다. (당연히 이것은 가벼운 마음이지만 데이터에는 실제 엔트로피가 있습니다!)
지난 3 번의 선거주기 동안 각 지구에서 약 100 명의 예술가와 공화당 및 민주당 평균 투표율에 대한 데이터가 있습니다. 그래서 저는 각 예술가들과 상관 관계를 맺어 어느 예술가가 민주당의 투표 분배의 함수로 가장 불균형 적으로 들리는 지 알아 냈습니다. 이러한 상관 관계는 주어진 아티스트에 대해 약 -0.3에서 0.3 사이로 실행되며 중간에 예측력이 거의 또는 전혀없는 많은 부분이 있습니다.
두 가지 질문이 있습니다. 첫째, 지구당 전체 스트림 수는 크게 다릅니다. 지금, 나는 비욘세에 속하는 지구당 모든 스트림의 비율을 민주당에 대한 투표율과 상관 관계가 있습니다. 그러나 한 지역의 전체 스트림은 수백만에 달할 수 있지만 다른 지역은 10 만에 이릅니다. 어떻게 든 상관 관계를 설명하기 위해 상관 관계에 가중치를 부여해야합니까?
둘째, 이러한 상관 관계를 사용자의 정치와 관련하여 복합적인 추측으로 결합하는 방법이 궁금합니다. 각 방향으로 10 개의 절대 상관 값 (양수 및 음수)이 가장 높은 20 명의 아티스트를 가져 와서 각 아티스트가 얼마나 좋아하는지 사용자에게 설문 조사를한다고 가정하겠습니다. 그래서 저는 각 아티스트에 대해 위 또는 아래로 투표하고 20 개 값 모두에 대한 정치와의 상관 관계를가집니다. 이러한 상관 관계를 단일 추정값으로 결합하는 표준 방법이 있습니까? (나는 NYTimes의 유명한 방언 퀴즈 와 같은 것을 생각하고 있는데 25 질문에 대한 지역 확률을 히트 맵으로 결합했습니다. 그러나이 경우에는 민주주의 또는 공화당의 음악 취향이 얼마나 단일 한 가치가 필요합니다.
감사합니다!