변수 사이의 관계를 탐색하는 것은 매우 모호하지만, 이와 같이 산점도를 검사하는 더 일반적인 두 가지 목표는 다음과 같습니다.
- 기본 잠재 그룹 (변수 또는 사례)을 식별하십시오.
- 특이 값 (단 변량, 이변 량 또는 다변량 공간)을 식별합니다.
둘 다 데이터를보다 관리하기 쉬운 요약으로 줄이지 만 목표는 다릅니다. 잠재 그룹을 식별하면 일반적으로 데이터의 차원이 감소하고 (예 : PCA를 통해)이 축소 된 공간에서 변수 또는 사례가 함께 모여 있는지 여부를 탐색합니다. 예를 들어, Friendly (2002) 또는 Cook et al. (1995).
특이 치를 식별한다는 것은 모형을 적합시키고 모형과의 편차를 플로팅 (예 : 회귀 모형의 잔차를 플로팅)하거나 데이터를 주요 구성 요소로 줄이고 모델이나 데이터 본문에서 벗어난 강조점 만 의미 할 수 있습니다. 예를 들어 1 차원 또는 2 차원의 상자 그림은 일반적으로 힌지 외부의 개별 점만 표시합니다 (Wickham & Stryjewski, 2013). 플로팅 잔차는 플롯을 평탄화해야한다는 좋은 특성을 가지고 있으므로 (Tukey, 1977) 나머지 점 구름의 관계에 대한 증거는 "흥미로운"것입니다. 이력서에 관한이 질문 에는 다변량 특이 치를 식별하는 훌륭한 제안이 있습니다.
이러한 대규모 SPLOMS를 탐색하는 일반적인 방법은 모든 개별 점 을 도표화하지 않고 단순화 된 요약 유형과이 요약에서 크게 벗어난 점, 예를 들어 신뢰 타원, 산포 요약 (Wilkinson & Wills, 2008), 이변 량 상자 그림, 등고선 그림. 아래는 공분산을 정의하고 선형 연관을 설명하기 위해 황토를 더 부드럽게 중첩시키는 타원을 그리는 예입니다.
(출처 : statmethods.net )
어느 쪽이든, 너무 많은 변수를 가진 실질적이고 성공적인 대화식 그림은 지능적인 정렬 (Wilkinson, 2005)과 변수를 걸러내는 간단한 방법 (브러싱 / 링크 기능)이 필요할 것입니다. 또한 실제 데이터 세트에는 축을 변환하는 기능이 있어야합니다 (예 : 데이터를 로그 스케일로 플로팅하고 근을 취하여 데이터를 변환하는 등). 행운을 빕니다. 단 하나의 음모 만 고집하지 마십시오!
인용
- 쿡, 다이앤, 안드레아스 부자, 하비에르 카브레라, 캐서린 헐리 1995. 그랜드 투어 및 프로젝션 추구. 전산 및 그래픽 통계 저널 4 (3) : 155-172.
- 친절한, 마이클 Corrgrams : 상관 행렬에 대한 탐색 디스플레이. 미국 통계 학자 56 (4) : 316-324. PDF 프리 프린트 .
- 터키, 존 1977. 탐색 적 데이터 분석. 애디슨 웨슬리 독서, 질량.
- Wickham, Hadley & Lisa Stryjewski. 2013 상자 그림 40 년 .
- Wilkinson, Leland & Graham Wills. 2008. 산포 분포. 전산 및 그래픽 통계 저널 17 (2) : 473-491.
- 윌킨슨, 리 랜드 2005. 그래픽의 문법 . 봄 병아리. 뉴욕, 뉴욕.