다음 사이의 관계를 표시하는 가장 좋은 방법은 무엇입니까?
- 연속적이고 이산적인 변수
- 두 개의 이산 변수?
지금까지 산포도를 사용하여 연속 변수 간의 관계를 살펴 보았습니다. 그러나 불연속 변수의 경우 데이터 포인트가 특정 간격으로 누적됩니다. 따라서 최적의 선이 편향 될 수 있습니다.
다음 사이의 관계를 표시하는 가장 좋은 방법은 무엇입니까?
지금까지 산포도를 사용하여 연속 변수 간의 관계를 살펴 보았습니다. 그러나 불연속 변수의 경우 데이터 포인트가 특정 간격으로 누적됩니다. 따라서 최적의 선이 편향 될 수 있습니다.
답변:
아래 : 변수의 불연속적인 특성으로 인해 점이 겹치므로 원래 그림이 잘못 될 수 있습니다.
이를 해결하는 한 가지 방법은 데이터 심볼에 투명성을 도입하는 것입니다.
다른 방법은 기호의 위치를 약간 바꾸어 번짐을 만드는 것입니다. 이 기술을 "지 터링"이라고합니다.
두 솔루션 모두 선형성을 평가하기 위해 직선을 맞출 수 있습니다.
참조를위한 R 코드 :
x <- trunc(runif(200)*10)
y <- x * 2 + trunc(runif(200)*10)
plot(x,y,pch=16)
plot(x,y,col="#00000020",pch=16)
plot(jitter(x),jitter(y),col="#000000",pch=16)
상자 그림을 사용하여 불연속 변수와 연속 변수 간의 관계를 표시합니다. 표준 통계 소프트웨어를 사용하여 상자 그림을 세로 또는 가로로 만들 수 있으므로 IV 또는 DV로 쉽게 시각화 할 수 있습니다. 인 단지 이산 변수 (예를 들어, 1, 2), 지터 (오른쪽 참고 위쪽 플롯 그 값들을 할당하고, 이산 및 연속 변수 산점도를 사용할 수 여기 ).
가장 적합한 선이 편향 될 수 있다는 귀하의 의견과 관련하여, 내용에 따라 다릅니다. 예를 들어, IV로 두 수준이 있고 DV로 연속 변수가있는 이산 변수가있는 경우 두 방법을 통해 선을 그릴 수 있으며 이는 편향되지 않습니다. (우리는 일반적으로이 상황을 t- 검정에 적합한 것으로 생각하지만 실제로는 단순한 회귀의 한 형태 입니다. 여기에서 내 대답을 참조 하십시오 .) DV, 표준 (OLS) 회귀는 부적절하고 (로지스틱 회귀가 요구됨 ) 가장 적합한 선이 바이어스되지만 초기의 일부로 lowess 선 을 적합 (& 플로팅) 할 수 있습니다. 데이터 탐색.
두 개의 이산 변수 간의 관계를 시각화하기 위해 mosaic plot을 사용합니다 . 당신은 또한 사용할 수있는 체 플롯 , 협회 플롯 또는 동적 압력 플롯 일부 프로그래밍을.
http://www.boekboek.com/xb130929113026 에서 두 이진 변수 간의 연관에 적용되는 논문을 찾았습니다. 여기에서이 기사에서 두 이진 변수 간의 연관 강도가 분수의 일부로 표현 될 수 있음을 보여주었습니다. 완벽한 협회. 따라서 변수 A와 변수 B의 연관성은 예를 들어 OR = 9 (해석하기 쉽지 않음) 또는 실제 위험 = 2 (현대적으로 상대적 위험이 고려 됨) 대신에 예를 들어 50 %가됩니다. 비록 그것이 연관성, 유병률 또는 발병률 및 양성의 함수 임에도 불구하고 연관성 척도가되기도한다).