R에서 정렬 된 범주 형 데이터 간의 상관 관계를 시각적으로 신속하게 평가합니까?


11

설문 조사에서 다른 질문에 대한 답변 사이의 상관 관계를 찾고 있습니다 ( "음, 11 번 질문에 대한 답변이 78 번 질문에 대한 답변과 관련이 있는지 살펴 보겠습니다"). 모든 답변은 범주 형 (대부분 "매우 불행"에서 "매우 행복"까지)이지만 일부 답변에는 다른 답변이 있습니다. 대부분은 서수로 간주 될 수 있으므로이 경우를 고려해 보겠습니다.

상용 통계 프로그램에 액세스 할 수 없으므로 R을 사용해야합니다.

나는 시도 래틀 (매우 멋진 R위한 프리웨어 데이터 마이닝 패키지를,)하지만 불행히도 그것은 범주 데이터를 지원하지 않습니다. 내가 사용할 수있는 한 가지 해킹은 R에서 "매우 불행"... "행복"대신 숫자 (1..5)가있는 설문 조사의 코딩 된 버전을 가져 와서 Rattle이 숫자 데이터라고 믿게하는 것입니다.

나는 산점도를하고 점 크기가 각 쌍의 수에 비례하도록 생각하고있었습니다. 인터넷 검색 후 http://www.r-statistics.com/2010/04/correlation-scatter-plot-matrix-for-order-categorical-data/를 발견 했지만 매우 복잡해 보입니다.

나는 통계 학자 (그러나 프로그래머)는 아니지만 문제에 대해 약간의 독서를했으며 올바르게 이해한다면 Spearman의 rho 가 여기에 적합 할 것입니다.

그래서 서두르는 사람들을위한 짧은 질문 버전 : R에 Spearman의 rho를 빠르게 그릴 수있는 방법이 있습니까? 눈에 띄기 쉽고 재료에 포함될 수 있기 때문에 플롯은 숫자 매트릭스보다 선호됩니다.

미리 감사드립니다.

추신 : 나는 이것을 SO 사이트 또는 여기에 게시할지 여부를 잠시 고민했다. 두 사이트에서 R 상관 관계를 검색 한 후이 사이트가 질문에 더 적합하다고 생각했습니다.


2
R이 독점 소프트웨어보다 열등한 것처럼 들립니다. :)
Roman Luštrik

필자의 경우 pearson product-moment-correlation (연속 데이터 가정)을 사용하는 것이 전적으로 합리적이라고 생각합니다 (스케일에서 충분한 점을 알고 중간 점을 모르는 경우). 심리학 (예를 들어, 성격 또는 사회 심리학) 내의 전체 필드는 매우 un-X에서 매우 X에 이르는 5 점 (또는 7 점) 척도에서 단일 항목에 대한 답변이 연속으로 취급됩니다. 이 글타래 참고 : stats.stackexchange.com/questions/539/…
Henrik

@romunov : R이 다른 소프트웨어보다 열등하다고 생각하는 인상을 받았는지 확실하지 않습니다. 그러나 전혀 그렇지 않습니다.
wishihadabettername

나는 단지 똑똑한 엉덩이였습니다. 나는 어려운 감정이 없기를 바랍니다. :)
Roman Luštrik

답변:


19

corrplot 패키지 는 또 다른 좋은 상관 관계 시각화를 제공하여 다음 과 같은 것을 제공합니다. 대체 텍스트

훌륭한 패키지입니다.

또한 여기 에 대한 답변을 살펴보십시오 . 아는 것이 좋습니다.

마지막으로, 귀하가 언급 한 게시물의 코드가 더 단순 할 수있는 방법에 대한 제안이있는 경우 알려주십시오.


1
Tal에게 감사합니다. 지금 corrplot을 사용해 보겠습니다. 또한 솔루션을 단순화하는 방법을 알고 싶습니다 (질문에서 링크 됨). 나는 R의 초보자 일 뿐이므로 나보다 더 많이 알 수 있습니다. 솔루션이 나에게
wishihadabettername

corrplot은 좋아 보인다. 크기와 상관 방향을 시각적으로 보여줍니다. 5 점으로 분류 된 범주 형 변수의 경우 Pearson의 상관 관계 외에 다른 연결 측정법 (예 : 다항식 상관 관계)을 제공하는 것이 유용 할 수 있습니다. 정렬 된 범주 형 변수의 표준 Pearson 상관 관계의 크기는 두 변수의 평균에 의해 다소 영향을받습니다.
Jeromy Anglim

3

몇 가지 추가 플로팅 아이디어는 다음과 같습니다.


해바라기는 재미있는 해결책입니다. 지터를 사용하는 것은 처음 주제를 보았을 때 시도한 것이지만 상관 행렬의 플로팅에는 효과가 충분하지 않다는 것을 알았습니다 ...
Tal Galili

예, 지터는 많은 변수를 가진 산란 행렬로 꽤 지저분해질 수 있습니다. 지터와 해바라기의 이점은 원시 데이터를 볼 수 있다는 것입니다 (지터의 경우 혼란 스럽지만).
Jeromy Anglim

합의 (지터를 좋아하지만 단순히 이것을 위해 :))
Tal Galili
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.