변수가 다른 경우 일반적인 회귀 분석 vs. 회귀 분석


13

변수가 다를 때 정상적인 다중 / 단순 회귀와 다중 / 단순 회귀 사이의 관계가 무엇인지 이해하려고합니다.

예를 들어, 예금 잔고 ( )와 시장 요율 ( ) 사이의 관계를 분석하고 있습니다. 간단한 선형 회귀 분석을 실행하면 상관 관계가 음수이고 상당히 중요합니다 (-.74 정도). 그러나 로그를 가져 오면 종속 변수의 차이와 독립 변수의 차이, 그래서 내 방정식은 이제 로 회귀되고 내 상관 관계와 R ^ 2는 전혀 중요하지 않습니다 ( ).R T dYTRTDdln(YT)R 2 = .004dR(T)R2=.004

이 낮은 도 의미가 있는지 궁금합니다 . 모델이 적합하지 않다는 것을 의미합니까, 아니면 차이가 나는 데이터를 볼 때 무시 합니까? 데이터에서 원래 두 변수 사이에 중요한 상관 관계가 있음을 알고 있지만 모델의 경우 차이가있는 변수를 살펴 봐야하므로 어떻게 해야하는지 궁금합니다.R 2R2R2

답변:


16

간단한 버전은 시간이 지남에 따라 한 방향으로 변하는 경향이있는 두 변수가 서로 연결되어 있는지 여부와 상관없이 상관 관계가있는 것으로 보입니다. 다음 변수를 고려하십시오.

set.seed(1)
time = seq(from=1, to=100, by=1)
x  = .5 + .3*time +        rnorm(100)
y1 =  3 + .3*time +        rnorm(100)
y2 =  7 + .1*time + .8*x + rnorm(100)

y 1 y 2 x x y 2 x y 1x 는 과 마찬가지로 시간의 함수일뿐 입니다. 는 시간과 의 함수입니다 . 요점은 코드에서 와 사이에는 관계가 있고 와 사이에는 관계가 없음 을 인식 하는 것입니다 . 이제 다음 그림을보십시오. 세 줄 모두 끔찍하게 비슷합니까?y1y2xxy2xy1

여기에 이미지 설명을 입력하십시오

실제로, 와 의 관계에 대한 값 은 98 %이고 와 대한 는 99 %입니다. 그러나 와 사이에는 실제 관계가 없지만 와 사이에는 관계가 없다는 것을 알고 있습니다 x y 1 R 2 x y 2 x y 1 x y 2R2xy1R2xy2xy1xy2그렇다면 현실과 단순한 외모를 어떻게 구별 할 수 있습니까? 그것이 차이점이되는 곳입니다. 두 변수 중 두 변수 모두 시간이 지남에 따라 올라가는 경향이 있기 때문에 그다지 유익하지는 않지만, 특정 양만큼 증가하면 다른 변수가 얼마나 증가하는지 알려줍니다. 차이점을 통해 우리는 그 질문에 대답 할 수 있습니다. 다음 두 그림을 참고하십시오. 세 변수를 모두 다르게 한 후 산점도를 만들었습니다.

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오

여기서 우리 는 가 얼마나 많이 올라 갔는지 에 대해 아는 것이 가 얼마나 많이 올라 갔는지에 대해 알려주는 것을 알 수 있지만 ( ) 와 대해서는 그렇지 않습니다 ( ). 따라서 귀하의 질문에 대한 답은 원래 변수 사이의 상관 관계를 무시하고 차이가있는 변수를 봐야한다는 것입니다. 당신의 점을 감안 0.004, 나는 실제 관계가 없습니다 말할 것입니다. y 2 R 2 = .43 x y 1 R 2 = .07 R 2xy2R2=.43xy1R2=.07R2

다른 점들 : 그림에서, 나는 이것이 동시 변경이라는 점을 지적합니다. 그것에 아무런 문제가 없으며, 문제를 설정 한 방식에 따르지만 일반적으로 사람들은 약간의 지연 효과에 관심이 있습니다. (즉, 한 시점에서 한 가지를 변경하면 나중에 다른 것이 변경 될 수 있습니다.) 둘째, 시리즈 중 하나의 로그를 취하는 것을 언급합니다. 로그를 취하면 단순히 데이터를 레벨에서 속도로 전환 할 수 있습니다. 따라서 차이가있을 때 수준의 변화보다는 속도의 변화를보고 있습니다. 매우 흔하지 만 데모에 해당 요소를 포함시키지 않았습니다. 내가 논의한 문제와 직교합니다. 마지막으로 시계열 데이터가 데모에서 허용하는 것보다 더 복잡하다는 점을 인정하고 싶습니다.


10

@gung은 좋은 답변을 제공하지만 제안하는 내용에 몇 가지주의 사항을 제공하고 싶습니다.

예를 들어, 프로세스가 상관 계수가 1 인 AR (1) 인 경우와 같이 차이는 단위 근본 문제를 해결하는 데 주로 사용됩니다. @gung이 위에서 보여 주듯이 직렬 상관 관계가 없음). 그러나 오차항에 절대 값이 1보다 작은 상관 계수와의 직렬 상관 관계가있는 경우 선형 시간 추세를 제거하기 위해 차이를 사용하면 매우 복잡한 구조의 오류가 발생합니다. 이 경우 정확한 표준 오류를 얻고 유효한 추론을하기가 어렵습니다.

결과적으로 단위 루트를 먼저 테스트하고 감지 된 경우 차이를 통해이를 수정하는 것이 가장 좋습니다. 그런 다음 선형 시간 추세를 확인하십시오. 비추 세로이 문제를 해결하십시오. 후자를 수행하지 않으면 @gung이 잘 보여주는 생략 된 변수 유형 문제에 개방됩니다.


1
+1 이것은 내 대답을 훌륭하게 보완합니다. 나는 대답을 간단하고 직관적으로 유지하려고 노력했다. 그러나 내가 논의한 것보다 더 많은 복잡성이 있으며, 그것이 매우 중요 할 수 있다는 것은 확실합니다. 나는 나의 마지막 단락에서 그것을 인정해야했다. 정직하게 해주셔서 감사합니다.
gung-Monica Monica 복원

1

목표가 둘 이상의 계열 간의 관계를 형성 / 식별하는 경우 고정 X 변수를 필터링하여 노이즈로 변환해야 할 수 있습니다. 이것은 2 단계 프로세스로, 차이 요구와 ARMA 구조입니다. 객관성을 유지하고 모델 사양 바이어스를 피하려면 필터를 가정하지 말고 고정 X 시리즈의 자기 상관 특성을 사용하여 해당 필터를 구성해야합니다. 그런 다음 Y 시리즈를 가져 와서 정지시키기 위해 필요한 차별화 연산자를 적용한 다음 이전에 개발 한 필터를 고정 Y에 적용합니다. 이 절차는 단 하나의 목표를 가지고 있으며 Y와 X 사이의 관계를 식별하는 것입니다. 필요한 차이 연산자에 대한 결론으로 ​​넘어 가지 않아야합니다. 데이터를 관찰하기 전에 모형을 알고 있거나 전능자와 직접 대화하는 경우 계량 경제학자가 아닌 한 ARMA 필터와 변수 간의 관계. 계산할 수있는 통계 테스트를 믿기 위해서는 오류 요구 사항의 정규성에 대한 신중한 분석이 필요합니다. F 테스트 / T 테스트의 계산이 필요하지만 충분하지 않습니다. 요약하면 나는 "전달 함수 모델을 식별하는 방법"주제를 추구 할 것을 제안한다. 다른 사람들과 나는이 주제를 여러 번 언급했다. 원하는 경우 "시계열"태그가 첨부 된 질문에 대한 답변 중 일부를 살펴볼 수 있습니다. Yogi가 말했듯이 "간단히 읽고 /보고 있으면 많은 것을 관찰 할 수 있습니다". 때로는 훌륭하고 간단한 답변으로 인해 길을 잃을 수 있으며, 잠재적으로 지나치게 복잡하고 보수적 인 답변을 얻으려면 시계열 데이터 모델링에 대한 이해를 높여야 할 수 있습니다. 한때 말했듯이 "토토, 우리는 더 이상 캔사스에 있지 않습니다 (즉, 단면 데이터)!"

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.