간단한 버전은 시간이 지남에 따라 한 방향으로 변하는 경향이있는 두 변수가 서로 연결되어 있는지 여부와 상관없이 상관 관계가있는 것으로 보입니다. 다음 변수를 고려하십시오.
set.seed(1)
time = seq(from=1, to=100, by=1)
x = .5 + .3*time + rnorm(100)
y1 = 3 + .3*time + rnorm(100)
y2 = 7 + .1*time + .8*x + rnorm(100)
y 1 y 2 x x y 2 x y 1엑스 는 과 마찬가지로 시간의 함수일뿐 입니다. 는 시간과 의 함수입니다 . 요점은 코드에서 와 사이에는 관계가 있고 와 사이에는 관계가 없음 을 인식 하는 것입니다 . 이제 다음 그림을보십시오. 세 줄 모두 끔찍하게 비슷합니까?와이1와이2엑스엑스y2xy1
실제로, 와 의 관계에 대한 값 은 98 %이고 와 대한 는 99 %입니다. 그러나 와 사이에는 실제 관계가 없지만 와 사이에는 관계가 없다는 것을 알고 있습니다 x y 1 R 2 x y 2 x y 1 x y 2R2xy1R2xy2xy1xy2그렇다면 현실과 단순한 외모를 어떻게 구별 할 수 있습니까? 그것이 차이점이되는 곳입니다. 두 변수 중 두 변수 모두 시간이 지남에 따라 올라가는 경향이 있기 때문에 그다지 유익하지는 않지만, 특정 양만큼 증가하면 다른 변수가 얼마나 증가하는지 알려줍니다. 차이점을 통해 우리는 그 질문에 대답 할 수 있습니다. 다음 두 그림을 참고하십시오. 세 변수를 모두 다르게 한 후 산점도를 만들었습니다.
여기서 우리 는 가 얼마나 많이 올라 갔는지 에 대해 아는 것이 가 얼마나 많이 올라 갔는지에 대해 알려주는 것을 알 수 있지만 ( ) 와 대해서는 그렇지 않습니다 ( ). 따라서 귀하의 질문에 대한 답은 원래 변수 사이의 상관 관계를 무시하고 차이가있는 변수를 봐야한다는 것입니다. 당신의 점을 감안 0.004, 나는 실제 관계가 없습니다 말할 것입니다. y 2 R 2 = .43 x y 1 R 2 = .07 R 2xy2R2=.43xy1R2=.07R2
다른 점들 : 그림에서, 나는 이것이 동시 변경이라는 점을 지적합니다. 그것에 아무런 문제가 없으며, 문제를 설정 한 방식에 따르지만 일반적으로 사람들은 약간의 지연 효과에 관심이 있습니다. (즉, 한 시점에서 한 가지를 변경하면 나중에 다른 것이 변경 될 수 있습니다.) 둘째, 시리즈 중 하나의 로그를 취하는 것을 언급합니다. 로그를 취하면 단순히 데이터를 레벨에서 속도로 전환 할 수 있습니다. 따라서 차이가있을 때 수준의 변화보다는 속도의 변화를보고 있습니다. 매우 흔하지 만 데모에 해당 요소를 포함시키지 않았습니다. 내가 논의한 문제와 직교합니다. 마지막으로 시계열 데이터가 데모에서 허용하는 것보다 더 복잡하다는 점을 인정하고 싶습니다.