비교를 위해 바이올린 플롯을 스케일링하는 방법은 무엇입니까?


14

나는 바이올린 음모를 그리려고 노력하고 있으며 그룹별로 스케일링을위한 모범 사례가 있는지 궁금합니다. 다음은 R mtcars데이터 세트를 사용하여 시도한 세 가지 옵션 입니다 (1973의 모터 트렌드 자동차, 여기 참조 ).

동일한 폭

원래 종이 * 가하는 것과 R 이하 vioplot는 것 ( :) 인 것 같습니다 . 모양을 비교하는 데 좋습니다.

평등 바이올린 플롯

동등한 지역

각 그림은 확률도이므로 각 좌표 영역의 좌표 공간은 1.0이어야합니다. 각 그룹 내에서 밀도를 비교하는 데는 좋지만 플롯이 겹쳐져 있으면 더 적합 해 보입니다.

동일한 폭의 바이올린 플롯

가중 영역

동일한 면적과 같지만 관측치 수에 따라 가중치가 적용됩니다. 6- 실은 차가 적기 때문에 상대적으로 얇아집니다. 그룹 간 밀도를 비교하는 데 좋습니다.

가중 영역 바이올린 플롯

* 바이올린 플롯 : 박스 플롯 밀도 추적 시너지 효과 (DOI : 10.2307 / 2685478)


1
음모의 목적에 따라 어떤 솔루션이 적합한 지 결정할 것입니다. 그렇다면 무엇을 보여 주려고합니까?
whuber

@ whuber 좋은 질문이지만 직접 답변이 없습니다. 나는 EDA에 대한 그래픽을 제공하려고 노력하고 있으며 좋은 일반 기본값을 찾고 있습니다 (다른 옵션이 충분히 유용 할 수 있는지 여부).
xan

기본값을 사용하지 않고 목적에 맞게 플롯을 제어 하는 것이 좋습니다 .
whuber

"가중 영역"버전은 "인구의 하위 그룹을 비교하는 데 적합"했음을 제안합니다. 전체 인구의 모양을 얻기 위해 너비를 추가하는 것이 합리적 일 수 있습니다.
Henry

분포 모양의 시각적 영향을 유지하기 위해 동일한 영역을 선호합니다. 그런 다음 샘플 크기를 보여주는 온도계로 그래프를 보충하거나 바이올린 옆에 샘플 크기의 텍스트 표현을 사용하십시오.
Frank Harrell

답변:


4

상자 그림은 분포의 도식 요약에 사용됩니다. 바이올린 플롯은 Q1, Q2 및 Q3 박스가 광범위한 Quantile로 대체되는 박스 플롯입니다. 이런 이유로, 나는 수용된 관행이 그룹 전체에 균일 한 너비를 사용하는 것이라고 생각합니다.

그러나 그룹 전체의 밀도를 어떻게 비교해야합니까? 답은 각 그룹을 자신의 인구 또는 하위 인구로보고 있는지에 따라 다릅니다.

Σ나는나는=1


바이올린 플롯은 원래 하이브리드 박스 플롯 및 밀도 트레이스로 도입되어 정의되었습니다. 빠른 Google은 실제로 바이올린 플롯으로 공개 된 많은 음모가 상자를 생략하고 많은 음모를 표시하지 않음을 보여줍니다. 그래서 여기에 정의가 널리 열려 있습니다.
Nick Cox

5

솔직히, 당신이 잘못된 방향으로 접근하고 있다고 생각합니다. 세 플롯 모두 가치가있는 정보를 명확하게 알려줍니다. 그렇지 않으면 사용할 플롯을 고려하지 않을 것입니다. 탐색 적 데이터 분석은 데이터를 이해하는 것입니다. 기대에 부합하는 곳. 그렇지 않은 곳. 여러 변수에 어떻게 적용됩니까?

EDA를 수행하는 모든 요점 은 우리의 불이행, 분포 또는 공선 성 가정인지, 사용될 통계 모델 등이 적절한 지 평가하는 것입니다. 따라서 "기본"EDA의 개념에는 다소 결함이 있습니다.

그들 모두 또는 적어도 질문하려는 질문과 관련된 모든 줄거리를 살펴보십시오. EDA 단계에서 "흥미로운 일"과 "무엇을 무시할 것인가"에 빠져 들어갈 이유가 없습니다. 우리가 기본값을 통해 데이터를 제공하는 경우 실제로는 EDA가 아닙니다.


OP가 EDA 이후인지 아닌지는 아직 명확하지 않지만 EDA에 대한 계몽적인 견해 +1.
chl

@chl OP의 의견 중 일부는 이것이 그가 추구하는 것입니다. 그것이 "이들 중 어느 것이 더 유용한가"라면, 내가 두려워하는 대답이 더욱 모호한 "음, 무엇을 보여주고 싶습니까?"
Fomite

아, 나는 그 의견을 놓쳤다 ... 그래서 당신의 응답은 다시 +1의 가치가 있지만, 나는 할 수 없습니다 :(
chl

4

대역폭은 어떻습니까? 당신은 그것에 대해 생각 했습니까?

pdf를 얻기 위해 소프트웨어의 기본 설정을 사용하는 경우 가우시안 커널의 최적 대역폭을 위해 경험 법칙을 사용하는 것 같습니다. 이 '최적 대역폭'은 각 서브 세트마다 다를 수 있습니다. 이제 자신에게 물어보십시오, 모양이 여전히 비슷한가? 이중 표준으로 동일한 변수 (커널 밀도 추정)를 측정 할 수 있습니다.

커널 밀도 추정을 위해 올바른 대역폭 (일부 교차 검증)을 얻기위한 명확한 규칙이 개발되었지만 바이올린 플롯의 경우 대부분 무시됩니다. 표본 크기가 많이 다를 때 중요 할 수 있습니다.

지금이 문제가 있습니다. 당신이 그것에 대해 어떻게 생각하십니까? 어떻게 해결합니까? 모든 의견을 높이 평가합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.