회귀에 날짜 변수를 사용하는 것이 합리적입니까?


17

R에서 날짜 형식의 변수를 사용하는 데 익숙하지 않습니다. 선형 회귀 모델에서 날짜 변수를 설명 변수로 추가 할 수 있는지 궁금합니다. 가능하다면 계수를 어떻게 해석 할 수 있습니까? 결과 변수에 대한 하루의 영향입니까?

내가하려는 일을 예로 들어 요점 을 참조하십시오 .


3
날짜를 숫자로 변환 할 수 있습니다.

제 인상은 R이 자동으로하는 것입니다
PAC

3
그러나 결과 숫자가 많을 경우 문제가 발생할 수 있습니다. 측정 시작 이후 시간 단계 (시간 또는 일 또는 ...)로 자신을 변환하는 것이 좋습니다. 또한 인터셉트를보다 쉽게 ​​해석 할 수 있습니다.
Roland

3
요인으로 변환 (일 고정 효과를 얻기 위해)하거나 숫자로 변환하고 크기를 조정하여 첫날의 값이 0이되어 원점 이후 일의 선형 효과를 얻습니다.
Thomas

1
정말 좋은 질문입니다. 통계 질문과 프로그래밍 질문 둘 다라고 생각합니다. 프로그래밍 문제는 회귀 모델에서 설명 변수로 날짜를 넣을 때 R이 날짜를 처리하는 방법이며 통계 문제는 계수의 정확한 해석에 관한 것입니다.
PAC

답변:


17

스택 오버플로에 대한 이전 의견을 바탕으로 :

그렇습니다. 여기서 나는 일반적인 질문을 다루고 R 전문가가 중요한 세부 사항을 작성하게되어 기쁩니다. 내 생각에 이것은 현재 Cross-Validated에 있기 때문에 같은 생각을 가진 사람들에게는 중요하지만 포스터가 좋아하는 소프트웨어에 너무 좁게 집중해서는 안됩니다.

숫자가 아닌 소프트웨어의 날짜는 숫자 변수로 변환 할 수 있으며, 연도, 일, 밀리 초 등으로 표현 될 수 있습니다. 각 날짜와 관련된 계수에는 날짜 단위가 무엇이든 분모 단위가 있습니다. 분자 단위는 반응 또는 종속 변수에 따라 다릅니다. 비 식별 링크 기능은이를 자연스럽게 복잡하게 만듭니다.

그러나 일반적으로 날짜가 연구에 적합한 원점으로 이동하면 가장 의미가 있습니다. 일반적으로, 반드시 그런 것은 아니지만 원산지는 연구 기간 내에 있거나 그와 매우 가까운 날짜 여야합니다.

아마도 가장 간단한 경우는 연도의 날짜 변수에 대한 선형 회귀입니다. 다음은 몇 가지의 회귀 responsedate2000이나 2010과 같은 날짜로 표시가의 값입니다 절편을 의미한다 response그런 해가 없다고 옆 역법 세부 설정 년 0, 이러한 차단은 터무니없이 많은 양 또는 음이되는, 자주 논리적이면서도 해석과 표현에 방해가됩니다 (잘 알고있는 청중에게도).

학부 학생들과 함께 일한 실제 사례에서 특정 지역의 연간 사이클론 수는 날짜와 함께 약간 증가했으며 선형 추세는 합리적인 첫 찌르기로 보입니다. 회귀의 절편은 음수가 크므로 이것이 항상 0 년으로 추정 된 것임을 깨달을 때까지 많은 수수께끼를 일으켰습니다. 원점을 2000으로 이동하면 더 나은 결과를 얻을 수있었습니다. (실제로, 긍정적 예측을 보장하는 포아송 회귀는 훨씬 나 았지만 다른 이야기입니다.)

회귀 date - 2000또는 무엇이든 좋은 아이디어입니다. 연구의 실질적인 세부 사항은 종종 좋은 기본 날짜, 즉 새로운 기원을 나타냅니다.

다른 모델 및 / 또는 다른 예측 변수를 사용한다고해서이 원칙이 손상되지는 않습니다. 그냥 모호하게합니다.

생각하기 가장 쉬운 날짜를 사용하여 결과를 그래프로 표시하는 것도 좋습니다. 이들은 원래 날짜 일 수 있습니다. 생각하기 가장 쉬운 것을 사용하는 것과 동일한 원칙이기 때문에 모순이 아닙니다.

약간의 생각은 원칙이 훨씬 더 일반적이라는 것을 보여줍니다. 우리는 종종 0 세에 논리적이지만 어색한 예측을 피하기 위해 (만 20 세) 또는 그와 비슷한 것을 선호합니다.

2019 년 3 월 21 일 수정 (원본 2013 년 7 월 29 일) :이 주장은 2015 년 NJ 콕스의 Stata 맥락에서 논의되었습니다. 원산지. Stata Journal 15 : 574-587 여기를 참조하십시오

의견에 @ whuber는 숫자 정밀도의 중요한 문제도 제기합니다. 종종 시간 단위가 양호하고 결과 날짜 또는 날짜-시간이 매우 클 수 있으므로, 제곱합 등에 중요한 문제가 발생합니다. 그는 R에서 예를 들었습니다. Stata의 날짜-시간은 1960 년 초부터 밀리 초라는 점을 추가 할 수 있습니다.이 문제는 일반적으로 매우 큰 숫자에서 발생할 수 있으므로 날짜와 관련이 없습니다. 또는 매우 작지만 플래그를 지정할 가치가 있습니다.


1
계량 적으로 말하면 날짜는 측정 할 수없는 변수의 프록시 또는 쉽게 얻을 수없는 데이터로 종종 사용됩니다. 브랜드 인지도가 높아짐에 따라 새로운 회사의 특정 제품의 판매율이 증가한 것을 알 수 있습니다. 브랜드 인식에 대한 측정 항목이 없을 가능성이 높으므로 날짜를 프록시로 사용할 수 있습니다. 이렇게하면 다른 회귀 분석자에 "보다 현실적인"계수를 제공 할 수 있습니다. ** TL : DR ** 독립 변수에 영향을 줄 수있는 측정되지 않은 요소와 상관 관계가없는 요소에 대해 생각하지 않고 회귀에 날짜를 사용하는 데주의를 기울여야합니다
scott

1
좋은 조언. 나는 달력 날짜의 기능이 일반적으로 다른 프로세스를 포착하기 어려운 일부 프로세스의 프록시라고 생각합니다. 그래서 요점은 계량 경제학을 넘어 확장됩니다.
닉 콕스

1
나는 다른 사람과 같이 죄와 코사인을 좋아하지만, 여러 분야에 걸친 문제의 표본은 그 판결로 이어지는 것입니까?
닉 콕스

1
관심이 있으시 다면 stata-journal.com/sjsearch.html?choice=keyword&q=season 을 참조 하여 계절성 관련 작업에 대한 링크를 확인하십시오 .
닉 콕스

3
R1

5

위에서 언급했듯이 적절한 스케일링으로 날짜는 훌륭한 회귀 변수입니다. 시간 효과는 일반적인 공변량보다 선형 일 가능성이 적으므로 거의 항상 시간에 회귀 스플라인을 사용합니다. 일부 복잡한 시간 추세에는 많은 매듭 (예 : 7 개 이상)이 필요합니다. 제한된 입방 스플라인 (자연 스플라인)은 외삽이 거의 안전하지 않지만 관측 된 시간의 끝을 넘어선 더 안전한 선형 외삽을 제공합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.