변수 간의 관계를 식별하기위한 R 패키지


13

변수 사이에 관계가 있는지 여부를 탐색하는 데 사용할 수있는 R 패키지가 있습니까?

일반적으로 패턴을 찾을 때 상관 관계를보고 패싯 플롯을 봅니다. 그런 다음 데이터의 변수에 일부 변환을 수동으로 적용합니다. R 패키지를 통해이 프로세스를 가속화 할 수 있는지 궁금합니다.


자체 프로세스가있는 경우 언제든지 자체 패키지를 롤백 할 수 있습니다. 또는 스크립트 시작 부분에로드 된 일부 파일의 재사용 가능한 함수입니다.
Brandon Bertelsen

답변:


9

AFAIK, 아니요 더 정확하게 말하면, 단일 함수 호출을 통해 EDA ( 탐사 데이터 분석)의 일부를 수행하는 단일 R 패키지에 대해 잘 모르겠습니다. 나는 표현계시 측면을 생각하고 있습니다. Hoaglin, Mosteller 및 Tukey, 견고하고 탐색적인 데이터 분석 이해 에서 논의되었습니다 . 특히 1983 년 Wiley-Interscience.

그러나 R에는 특히 대화식 데이터 탐색과 관련하여 몇 가지 멋진 대안이 있습니다 (흥미로운 토론은 다음을 참조하십시오. 대화 형 데이터 시각화는 언제 유용합니까? ). 나는 생각할 수있다

  • iplots , 또는 그 후속 Acinonyx 인터랙티브 시각화를위한은 (칫솔질, 링크 된 플롯을 허용하고, 같은)을 (이러한 기능 중 일부는에서 찾을 수 있습니다 latticist 패키지, 마지막으로, RGL은 . 3D 대화 형 시각화에 좋은 곳입니다)
  • 데이터 축소 (다차원 스케일링) 및 프로젝션 추적을 포함한 대화식 및 동적 디스플레이를위한 ggobi

이것은 대화식 데이터 탐색만을위한 것이지만 이것이 EDA의 본질이라고 말할 것입니다. 어쨌든, 위의 기술은 숫자 변수 사이의 이변 량 또는 고차 관계를 탐색 할 때 도움이 될 수 있습니다. 범주 형 데이터의 경우 vcd 패키지가 좋은 옵션입니다 (시각화 및 요약표). 그런 다음 혼합 데이터 유형의 변수 사이의 관계를 탐색하기 위해 비건 채식 패키지 와 ade4 패키지가 먼저 나온다고 말하고 싶습니다 .

마지막으로 R의 데이터 마이닝 은 어떻습니까? (이 키워드는 Rseek 에서 시도하십시오 )


(+1) 다시 질문에 답하는 것을 보게되어 반갑습니다!
whuber

+1 Btw : 작은 오타-Acinonyx (i & y가 바뀝니다).
반복자

@Iterator 오타를 잡아 주셔서 감사합니다. (나는 이미 귀하의 답변을 +1했습니다. Wilkinson의 논문을 인용 한 것이 좋습니다).
chl

2
이제 waddella.github.io/loonloon있습니다. Credit은 이것을 지적하기 위해 @hadleywickham으로갑니다.
Ari B. Friedman

11

데이터 세트의 변수가 어떻게 상호 연관되어 있는지 간단히 보려면 ​​psych 패키지의 pairs () 함수 또는 pairs.panels () 함수를 살펴보십시오. 나는 여기 pair 함수에 대해 조금 썼다 .

pairs () 또는 psych :: pairs.panels () 함수를 사용하면 산점도 행렬을 만드는 것이 매우 쉽습니다.

pairs.panels(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21,lm=TRUE)

여기에 이미지 설명을 입력하십시오


7

scagnostics패키지와 원본 연구 논문을 확인하십시오 . 이변 량 관계에 매우 흥미 롭습니다. 다변량 관계의 경우 프로젝션 추적은 매우 좋은 첫 단계입니다.

그러나 일반적으로 도메인 및 데이터 전문 지식은 관계를 신속하게 조사하기위한 방법을 좁히고 개선합니다.


7

chart.Correlation의 함수 PerformanceAnalytics는 plot.pairs가 @Stephen 터너 한 함수에이 황토 함수보다는 선형 모델과의 상관 관계에 대한 중요성에 부드럽게 제외하고 유사한 기능을 제공한다.

library(PerformanceAnalytics)
chart.Correlation(iris[-5], bg=c("blue","red","yellow")[iris$Species], pch=21)

차트


5

상관 관계에 대해 작동 할 수있는 변환을 찾고 있다면 아직 언급되지 않은 유용한 도구가 패키지 (및 다른 패키지)에서도 ace찾을 수 있습니다 acepack. 이것은 x 변수 세트와 ay 변수 사이의 상관 관계를 최대화하기 위해 변환을 찾기 위해 여러 가지 다른 변환 (더 부드럽게 사용)을 시도하는 상호 작용 과정을 수행합니다. 변환을 플로팅하면 의미있는 변환이 제안 될 수 있습니다.


2

'에너지'패키지에서 DCOR 함수를 사용하여 위와 같이 거리 상관 및 플롯이라는 비선형 종속성 측정 값을 계산할 수 있습니다. Pearson의 상관 관계 문제는 변수 간의 선형 관계 만 감지 할 수 있다는 것입니다. 언급 한 DCOR 기능에서 인덱스의 쓰기 매개 변수를 선택해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.