이산 변수와 연속 변수 간의 관계를 시각화하는 가장 좋은 방법은 무엇입니까?


19

다음 사이의 관계를 표시하는 가장 좋은 방법은 무엇입니까?

  • 연속적이고 이산적인 변수
  • 두 개의 이산 변수?

지금까지 산포도를 사용하여 연속 변수 간의 관계를 살펴 보았습니다. 그러나 불연속 변수의 경우 데이터 포인트가 특정 간격으로 누적됩니다. 따라서 최적의 선이 편향 될 수 있습니다.


4
이산 이산 경우를 들어, 다소 관련 질문이 대답 여기에 음모를 꾸미고 주문 범주 데이터에 대해는 (귀하의 경우 상자없이 가능하지만) 도움이 될 수 있습니다. 나는 당신이 어떻게이 '바이어스'가 발생한다고 생각하는지 잘 모르겠습니다. 실제 데이터 자체가 아닌 데이터 포인트의 시각적 인상에 영향을 미치게됩니다 (라인이 원하는 위치가 아닌 다른 곳으로 갈 것으로 예상합니다). 여기서 추론을 설명 할 수 있습니까?
Glen_b-복귀 모니카

답변:


26

아래 : 변수의 불연속적인 특성으로 인해 점이 겹치므로 원래 그림이 잘못 될 수 있습니다.

여기에 이미지 설명을 입력하십시오

이를 해결하는 한 가지 방법은 데이터 심볼에 투명성을 도입하는 것입니다.

여기에 이미지 설명을 입력하십시오

다른 방법은 기호의 위치를 ​​약간 바꾸어 번짐을 만드는 것입니다. 이 기술을 "지 터링"이라고합니다.

여기에 이미지 설명을 입력하십시오

두 솔루션 모두 선형성을 평가하기 위해 직선을 맞출 수 있습니다.

참조를위한 R 코드 :

x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)

1
좋은 대답입니다. 가변 인스턴스 수를 가진 버블 스 캐터 플롯은 어떻습니까? 방대한 데이터 세트에서 이러한 기술을 사용하려고 시도했으며 알파를 렌더링하는 데 너무 오래 걸렸습니다.
josh

14

상자 그림을 사용하여 불연속 변수와 연속 변수 간의 관계를 표시합니다. 표준 통계 소프트웨어를 사용하여 상자 그림을 세로 또는 가로로 만들 수 있으므로 IV 또는 DV로 쉽게 시각화 할 수 있습니다. 단지 이산 변수 (예를 들어, 1, 2), 지터 (오른쪽 참고 위쪽 플롯 그 값들을 할당하고, 이산 및 연속 변수 산점도를 사용할 수 여기 ).

가장 적합한 선이 편향 될 수 있다는 귀하의 의견과 관련하여, 내용에 따라 다릅니다. 예를 들어, IV로 두 수준이 있고 DV로 연속 변수가있는 이산 변수가있는 경우 두 방법을 통해 선을 그릴 수 있으며 이는 편향되지 않습니다. (우리는 일반적으로이 상황을 t- 검정에 적합한 것으로 생각하지만 실제로는 단순한 회귀의 한 형태 입니다. 여기에서 내 대답을 참조 하십시오 .) DV, 표준 (OLS) 회귀는 부적절하고 (로지스틱 회귀가 요구됨 ) 가장 적합한 선이 바이어스되지만 초기의 일부로 lowess 선 을 적합 (& 플로팅) 할 수 있습니다. 데이터 탐색.

두 개의 이산 변수 간의 관계를 시각화하기 위해 mosaic plot을 사용합니다 . 당신은 또한 사용할 수있는 체 플롯 , 협회 플롯 또는 동적 압력 플롯 일부 프로그래밍을.


8

이진 결과 변수와 연속 예측 변수 간의 관계를 고려할 때 황토를 더 부드럽게 사용합니다 (예 : R에서 이상치 감지 기능이 꺼진 상태) lowess(x, y, iter=0).

R Hmisc패키지 의 다음 릴리스 lattice에서는 이러한 곡선을 여러 예측 변수의 다중 패널 디스플레이에 넣는 단일 그래픽을 쉽게 만들 수 있습니다.

summaryRc(heart.attack ~ age + blood.pressure + weight, data=mydata)

1

단순 산점도에 만족하지 않으면 이산 변수의 각 값에 데이터 요소의 빈도를 추가 할 수 있습니다. 이 작업을 수행하는 방법은 사용중인 통계 프로그램에 따라 다릅니다. 다음은 Stata 의 입니다. 이를 두 범주 형 변수의 산점도에 적용 할 수도 있습니다. 그렇지 않으면 상자 그림이나 중첩 막 대형 차트가 적합 할 수 있지만 실제로 이러한 변수를 표시하려는 방법에 따라 다릅니다.


1

http://www.boekboek.com/xb130929113026 에서 두 이진 변수 간의 연관에 적용되는 논문을 찾았습니다. 여기에서이 기사에서 두 이진 변수 간의 연관 강도가 분수의 일부로 표현 될 수 있음을 보여주었습니다. 완벽한 협회. 따라서 변수 A와 변수 B의 연관성은 예를 들어 OR = 9 (해석하기 쉽지 않음) 또는 실제 위험 = 2 (현대적으로 상대적 위험이 고려 됨) 대신에 예를 들어 50 %가됩니다. 비록 그것이 연관성, 유병률 또는 발병률 및 양성의 함수 임에도 불구하고 연관성 척도가되기도한다).

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.