Y와 X의 상관 관계 덕분에 설명 된 분산에서 이득을 나타내는 방법은 무엇입니까?


11

첫해 학생들과 간단한 선형 상관 관계를 (시각적으로) 설명하는 방법을 찾고 있습니다.

시각화하는 고전적인 방법은 직선 회귀선이있는 Y ~ X 산점도를 제공하는 것입니다.

최근에, 나는 플롯 3에 더 많은 이미지를 추가 하여이 유형의 그래픽을 확장한다는 아이디어를 얻었습니다 .y ~ 1, y ~ x, resid (y ~ x) ~ x의 마지막 잔차 (y ~ x) ~ 1 (평균을 중심으로)

이러한 시각화의 예는 다음과 같습니다. 대체 텍스트

그리고 R 코드는 그것을 생성합니다 :

set.seed(345)
x <- runif(50) * 10
y <- x +rnorm(50)


layout(matrix(c(1,2,2,2,2,3 ,3,3,3,4), 1,10))
plot(y~rep(1, length(y)), axes = F, xlab = "", ylim = range(y))
points(1,mean(y), col = 2, pch = 19, cex = 2)
plot(y~x, ylab = "", )
abline(lm(y~x), col = 2, lwd = 2)

plot(c(residuals(lm(y~x)) + mean(y))~x, ylab = "", ylim = range(y))
abline(h =mean(y), col = 2, lwd = 2)

plot(c(residuals(lm(y~x)) + mean(y))~rep(1, length(y)), axes = F, xlab = "", ylab = "", ylim = range(y))
points(1,mean(y), col = 2, pch = 19, cex = 2)

내 질문으로 연결됩니다. 이 그래프를 향상시킬 수있는 방법 (텍스트, 마크 또는 기타 유형의 관련 시각화) 에 대한 제안에 감사드립니다 . 관련 R 코드를 추가하는 것도 좋습니다.

한 가지 방향은 R ^ 2에 대한 정보를 추가하는 것입니다 (텍스트 또는 x를 도입하기 전후에 분산의 크기를 나타내는 선을 추가하는 방법으로). 또 다른 옵션은 한 점을 강조 표시하고 그것이 어떻게 더 나은지 보여주는 것입니다 "회귀 라인 덕분에"설명했다. 모든 의견을 부탁드립니다.


1
동시에 선형 회귀가 얼마나 좋은지를 보여주는 동시에 관계가 직선으로 잘 설명되지 않은 상황에서 청중이 실패하는 방법을 보여주십시오.require(mlbench) ; cor( mlbench.smiley()$x ); plot(mlbench.smiley()$x)
DWin

Dwin을 할 것인가 ... :-)
Tal Galili

답변:


4

다음은 몇 가지 제안 사항입니다 (상호 관계에 대한 설명이 아니라 플롯에 대한 것입니다).

  • 오른쪽 및 왼쪽 여백에 표시되는 두 개의 일 변량 도표는 다음을 호출하여 단순화 할 수 있습니다 rug().
  • XY
  • 회귀선 외에도 황토와 같이 추세에 대한 비모수 적 추정치를 표시하는 것이 좋습니다 (이것은 좋은 관행이며 가능한 지역 비선형성에 대해 매우 유익합니다).
  • 레버리지 효과 또는 조리 거리에 따라 점이 강조 표시 될 수 있습니다 (예 : 색상 또는 크기가 다름). 추정 회귀선에서 영향력있는 개별 값이 얼마나 영향을 미치는지를 나타내는 측정 값입니다. @DWin의 의견에 이어 두 번째로 개별 포인트가 어떻게 적합도를 "저하"하는지 또는 선형성 가정에서 벗어나는지를 강조하는 것이 낫다고 생각합니다.

(XY)(X+Y)/2


1

정확한 질문에 대답하지는 않지만 stackoveflow답변 을 기반으로 선형 상관 관계의 가능한 함정을 시각화하면 다음이 흥미로울 수 있습니다 .

par(mfrow=c(2,1))

set.seed(1)
x <- rnorm(1000)
y <- rnorm(1000)
plot(y~x, ylab = "", main=paste('1000 random values (r=', round(cor(x,y), 4), ')',  sep=''))
abline(lm(y~x), col = 2, lwd = 2)

x <- c(x, 500)
y <- c(y, 500)
cor(x,y)
plot(y~x, ylab = "", main=paste('1000 random values and (500, 500) (r=', round(cor(x,y), 4), ')',  sep=''))
abline(lm(y~x), col = 2, lwd = 2)

대체 텍스트

@Gavin Simpson@ bill_080의 대답 에는 동일한 주제에 대한 훌륭한 상관 관계가 포함되어 있습니다.


1

두 개의 두 개의 패널 플롯이 있습니다. 둘 다 왼쪽에 xy 플롯이 있고 오른쪽에 막대 그래프가 있습니다. 첫 번째 그림에서 수평선은 y의 평균에 배치되고 선은이 점에서 각 점까지 연장되어 평균에서 y 값의 잔차를 나타냅니다. 이 히스토그램은 이러한 잔차를 간단히 보여줍니다. 다음 쌍에서 xy 그림은 선형 적합을 나타내는 선과 잔차를 나타내는 수직선을 포함하며, 오른쪽의 막대 그래프로 표시됩니다. 히스토그램의 x 축을 일정하게 유지하여 평균 "적합"을 기준으로 선형 적합에서 낮은 값으로의 이동을 강조 표시합니다.


1

나는 당신이 제안하는 것이 좋다고 생각하지만 세 가지 다른 예에서 그것을 할 것입니다.

1) X와 Y는 완전히 관련이 없습니다. y를 생성하는 r 코드에서 "x"를 제거하기 만하면됩니다 (y1 <-rnorm (50))

2) 게시 한 예 (y2 <-x + rnorm (50))

3) X는 Y가 동일한 변수이다. y를 생성하는 r 코드에서 "rnorm (50)"을 제거하기 만하면됩니다 (y3 <-x)

이것은 상관 관계를 높이면 잔차의 변동성이 어떻게 감소하는지보다 명확하게 보여줍니다. 기본 축척을 사용하는 경우 발생할 수있는 각 플롯마다 세로 축이 변경되지 않도록해야합니다.

따라서 세 개의 플롯 r1 vs x, r2 vs x 및 r3 vs x를 비교할 수 있습니다. 나는 "r"을 사용하여 각각 y1, y2 및 y3을 사용하여 적합치의 잔차를 나타냅니다.

음모를 꾸미는 나의 R 기술은 절망적이므로 여기서 많은 도움을 줄 수는 없습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.