R에서 날짜 형식의 변수를 사용하는 데 익숙하지 않습니다. 선형 회귀 모델에서 날짜 변수를 설명 변수로 추가 할 수 있는지 궁금합니다. 가능하다면 계수를 어떻게 해석 할 수 있습니까? 결과 변수에 대한 하루의 영향입니까?
내가하려는 일을 예로 들어 요점 을 참조하십시오 .
R에서 날짜 형식의 변수를 사용하는 데 익숙하지 않습니다. 선형 회귀 모델에서 날짜 변수를 설명 변수로 추가 할 수 있는지 궁금합니다. 가능하다면 계수를 어떻게 해석 할 수 있습니까? 결과 변수에 대한 하루의 영향입니까?
내가하려는 일을 예로 들어 요점 을 참조하십시오 .
답변:
스택 오버플로에 대한 이전 의견을 바탕으로 :
그렇습니다. 여기서 나는 일반적인 질문을 다루고 R 전문가가 중요한 세부 사항을 작성하게되어 기쁩니다. 내 생각에 이것은 현재 Cross-Validated에 있기 때문에 같은 생각을 가진 사람들에게는 중요하지만 포스터가 좋아하는 소프트웨어에 너무 좁게 집중해서는 안됩니다.
숫자가 아닌 소프트웨어의 날짜는 숫자 변수로 변환 할 수 있으며, 연도, 일, 밀리 초 등으로 표현 될 수 있습니다. 각 날짜와 관련된 계수에는 날짜 단위가 무엇이든 분모 단위가 있습니다. 분자 단위는 반응 또는 종속 변수에 따라 다릅니다. 비 식별 링크 기능은이를 자연스럽게 복잡하게 만듭니다.
그러나 일반적으로 날짜가 연구에 적합한 원점으로 이동하면 가장 의미가 있습니다. 일반적으로, 반드시 그런 것은 아니지만 원산지는 연구 기간 내에 있거나 그와 매우 가까운 날짜 여야합니다.
아마도 가장 간단한 경우는 연도의 날짜 변수에 대한 선형 회귀입니다. 다음은 몇 가지의 회귀 response
에 date
2000이나 2010과 같은 날짜로 표시가의 값입니다 절편을 의미한다 response
그런 해가 없다고 옆 역법 세부 설정 년 0, 이러한 차단은 터무니없이 많은 양 또는 음이되는, 자주 논리적이면서도 해석과 표현에 방해가됩니다 (잘 알고있는 청중에게도).
학부 학생들과 함께 일한 실제 사례에서 특정 지역의 연간 사이클론 수는 날짜와 함께 약간 증가했으며 선형 추세는 합리적인 첫 찌르기로 보입니다. 회귀의 절편은 음수가 크므로 이것이 항상 0 년으로 추정 된 것임을 깨달을 때까지 많은 수수께끼를 일으켰습니다. 원점을 2000으로 이동하면 더 나은 결과를 얻을 수있었습니다. (실제로, 긍정적 예측을 보장하는 포아송 회귀는 훨씬 나 았지만 다른 이야기입니다.)
회귀 date - 2000
또는 무엇이든 좋은 아이디어입니다. 연구의 실질적인 세부 사항은 종종 좋은 기본 날짜, 즉 새로운 기원을 나타냅니다.
다른 모델 및 / 또는 다른 예측 변수를 사용한다고해서이 원칙이 손상되지는 않습니다. 그냥 모호하게합니다.
생각하기 가장 쉬운 날짜를 사용하여 결과를 그래프로 표시하는 것도 좋습니다. 이들은 원래 날짜 일 수 있습니다. 생각하기 가장 쉬운 것을 사용하는 것과 동일한 원칙이기 때문에 모순이 아닙니다.
약간의 생각은 원칙이 훨씬 더 일반적이라는 것을 보여줍니다. 우리는 종종 0 세에 논리적이지만 어색한 예측을 피하기 위해 (만 20 세) 또는 그와 비슷한 것을 선호합니다.
2019 년 3 월 21 일 수정 (원본 2013 년 7 월 29 일) :이 주장은 2015 년 NJ 콕스의 Stata 맥락에서 논의되었습니다. 원산지. Stata Journal 15 : 574-587 여기를 참조하십시오
의견에 @ whuber는 숫자 정밀도의 중요한 문제도 제기합니다. 종종 시간 단위가 양호하고 결과 날짜 또는 날짜-시간이 매우 클 수 있으므로, 제곱합 등에 중요한 문제가 발생합니다. 그는 R에서 예를 들었습니다. Stata의 날짜-시간은 1960 년 초부터 밀리 초라는 점을 추가 할 수 있습니다.이 문제는 일반적으로 매우 큰 숫자에서 발생할 수 있으므로 날짜와 관련이 없습니다. 또는 매우 작지만 플래그를 지정할 가치가 있습니다.