반응 변수가 연간 이벤트 (일반적으로)가 발생하는 연도의 회귀 모델


13

이 특별한 경우에 나는 호수가 얼어 붙은 날을 언급하고 있습니다. 이 "아이스 온"날짜는 1 년에 한 번만 발생하지만 때로는 겨울이 따뜻한 경우 전혀 발생하지 않습니다. 따라서 1 년에 호수는 20 일 (1 월 20 일)에 얼어 붙을 수 있고, 다른 해에는 전혀 얼지 않을 수 있습니다.

목표는 시작 날짜의 동인을 파악하는 것입니다.

예측자는 매년 가을 / 겨울 기온과 같은 것들입니다. 연도는 장기 선형 추세를 예측할 수 있습니다.

1) 정수 "일"은 합리적인 반응 변수입니까 (그렇지 않은 경우, 무엇입니까?)?

2) 호수가 얼지 않는 해를 어떻게 다루어야합니까?

편집하다:

나는 에티켓이 무엇인지 모르지만 내가받은 제안의 결과를 게시 할 것이라고 생각했습니다. 다음은 논문, 공개 액세스 입니다. @pedrofigueira 및 @cboettig 덕분에 사용 된 접근 방식에 대한 좋은 피드백을 받았습니다. 물론 오류는 내 자신의 것입니다.


어떤 종류의 데이터 집합이 있습니까? 일년 내내 측정합니까?
Donbeo

@Donbeo, ice-on은 1 년에 한 번 발생하므로 반응 변수는 연간 해상도입니다. 다른 데이터도 연간 빈도로 제공되지만 경우에 따라 더 높은 빈도의 데이터로 변환 될 수도 있습니다.
rbatt

결빙 일을 어떤 목적으로 고려하고 싶습니까? 통계 모델링이 결코 참 또는 거짓이 아니라 유용하거나 쓸모가 없기 때문에 이것을 묻습니다. 따라서 통계 결과의 사용과 대상 변수가 전혀 사용되지 않는 경우의 통찰력도 중요합니다. 예를 들어 호수가 이미 10 월에 얇은 얼음 보호막으로 얼어 붙었지만 같은 주에 녹고 이번 겨울에 다시 얼지 않으면 어떻게 될까요? 스노 타이어와 같은 것을 언제 사용할 것인지 예측하기 위해 분석을했을까요? 이것은 당신의 두 번째 질문에 대한 유용한 답변에 힌트를 줄 수 있습니다.
Horst Grünbusch

귀하의 의견에 감사드립니다, @ HorstGrünbusch. 수생 시스템의 뚜껑을 덮는 것이 많은 것들 (가스 교환, 빛 등)에 영향을 미치기 때문에 기후 변화가 얼음에 어떤 영향을 미쳤는지 알고 싶습니다. 사용 가능한 유일한 얼음 데이터는 이러한 얼음 날짜 (두께 등이 아님)입니다.
rbatt

답변:


4

"일년"을 다변량 회귀에 대한 반응 변수로 생각할 수 있다고 생각합니다. 호수가 얼지 않는 연도를 처리하기 위해 얼어 붙은 날이 예를 들어 얼음 함량이 녹기 시작하는 날 (또는 매우 보수적입니다). 이론적으로 그것은 그 후에 얼어 붙거나 그 후에 얼어 붙을 수 있지만 우리는 모른다. 이 방법을 사용하면 다른 관측치에서 수집 한 데이터를 사용하여 얼어 붙은 날 이 가장 최근의 관측 가능한 날짜보다 늦게 허용 된 경우 얼어 붙는 날이 어떻게 의존하는지 이해할 수 있습니다. 그런 다음 Tobit 모델 을 사용할 수 있습니다동시에 동결 날짜 ( "정상"데이터 포인트에 해당) 및 하한 (한계에 해당하고 검열 된 회귀에 해당)을 처리합니다.

분석에 측정 된 하한값을 올바르게 포함시키기 위해 종속 변수에 하한값의 컷오프가있는 검열 회귀 모형을 사용할 수 있습니다. 위에서 언급 한 Tobit 모델이이 경우에 적합합니다. 그것은 우리가 겨울이 무기한으로 연장되면 동결 날짜에 해당 하는 관찰 할 수없는 (잠재적) 종속 변수 의 존재를 가정합니다 . 관측 가능한 종속 변수 (즉, 동결 날짜에 측정 된 하한)는 하한 이없는 경우 잠복 변수 와 같고 그렇지 않으면 하한과 같습니다.yiyiLi

yi={yiif¯Li(i.e.yi<Li)LiifyiLi

관측 별 관측 검열을 처리하기 위해 Tobit 모델을 적용하면 다음과 같은 형태의 로그 우도 함수가 생성됩니다.

L=iyi<Liln[ϕ(yiXijβjσ)/σ]+iyiLiln[Φ(LiXijβjσ)]

여기서 및 는 각각 표준 정규 분포의 확률 및 누적 밀도 함수를 나타냅니다. 인덱스 는 관측치에서 실행되고 는 독립 변수에서 실행됩니다 . 선형 회귀에 대한 해결 방법 은 로그 우도 함수를 최대화하는 매개 변수 (절편 포함) 세트입니다 .Φ ( . ) i j β jϕ(.)Φ(.)ijβj


3
"day of year"의 큰 문제는 인코딩 방법과 관련이 있습니다. 일반적으로 그것은 사이 율리우스 일로서 표현 될 것이다 및 또는로부터 소수 년로서 행 , 그러나 이것은 때문에 둘 이러한 것은 적절하지 원형 변수 :의 줄리안 일 바로 일 다음 , 예를 들면. 따라서 "상한"및 "하한"한계는 의미가 없습니다. 윤년을 처리하는 방법에는 사소한 문제가 있습니다.이 문제는 다양한 간단한 방법으로 해결 될 수 있습니다. 다른 큰 문제는 결빙이 발생하지 않는 해를 처리하는 것과 관련이 있습니다. 데이터가 누락되거나 검열 되지 않습니다 . 365 0 1 1 3651365011365
우버

1
매년 독립적 인 실험으로 간주 될 수있는 경우, 즉 실험에 기억력이없고 1 년의 동결 날짜가 해당 날짜와 완전히 독립된 것으로 가정 할 수있는 경우 하한 개념은 그 의미를 유지한다고 주장합니다. 이전; 그런 다음 해당 연도의 매개 변수에만 의존해야합니다. 그렇다면 내가 이해하는 한 변수가 원형이 아닙니다.
pedrofigueira

1
그렇습니다. 어떤 상황에서는 그러한 임시 기술이 효과가있을 수 있습니다. (가) 이벤트가 때 항상 매년 발생 (b)는 이벤트가 긴밀하게 예측 가능한 날짜 주위에 분산되어, 당신은 적절 올해의 기원을 선택하여 벌금을 것입니다. 그러나 더 많은 양의 분산 (여기서는 가능할 수 있음) 또는 이벤트가 전혀 없을 수있는 가장 과감한 경우에는 순환 ( "방향") 통계 방법을 적용해야합니다. BTW, 직렬 상관 관계 또는 독립성은 모두 별개의 문제입니다.
whuber

2
상한선은 가능한 한 정확하게 정의 된 연도 여야한다고 생각합니다. 그렇게 할 수 있다면 Tobit 분석이 더 통찰력있게됩니다. 나는 당신이 더 이상 녹는 것을 감지 할 수 없다고 생각하는 DoY를 하한 (동결이 전에 일어날 수는 있지만 관찰 / 관찰 할 수는 없음)으로 제안 할 것입니다. 물이 얼어 붙는 데 필요한 (P, T)를 살펴보고 일정한 압력을 가정하고 연중 마지막 최소값을 선택하는 등의 방법 으로이 작업을 수행 할 수 있습니다. 나는이 시점의 질문이 통계적 질문보다 더 물리적 인 것이된다고 생각한다 (그러나 어쨌든 매우 흥미 롭다).
pedrofigueira 2016 년

2
@rbatt 나는이 대답이 합리적이라고 생각합니다. 시작 날짜는 임의적입니다. 다른 날짜에서 시작하거나 음수를 사용할 수 있습니다. 문제가 보이지 않습니다. 순환 성은 일별 번호 매기기를 통해 자체적으로 처리됩니다.
cboettig 2016 년

1

연중 하나는 현명한 예측 변수 중 하나이므로 @pedrofigueira가 제안한대로 처리하는 것이 합리적이라고 생각합니다.

다른 예측 변수의 경우 시간을 나타내는 방식에주의해야합니다. 예를 들어, 매일 기온이 있다고 상상해보십시오. 매일 기온을 예측하는 기온으로 기온을 모델링하는 방법은 무엇입니까? 같은 일 샘플을 비교하는 것만으로는 충분하지 않다고 생각합니다.

그러한 분석에서 데이터의 가능한 생성 모델 (또는 일부 물리학을 가이드로 사용할 수 있음)이 무엇이라고 생각하는지 적어 두는 것이 도움이된다고 생각합니다. 예를 들어, 적당한 모델은 얼어 붙은 날 수를 적분하는 것이 될 수 있으며, 적분이 임계 값 (예 : 호수의 열 질량과 관련된)을 통과하면 결빙이 발생합니다. 그런 모델에서 합리적인 근사값과 그렇지 않은 것을 요청할 수 있습니다.

예를 들어, 예측 변수 인 연도는 온도 예측이 좋은 경우에만 해당 모델에 중요합니다. 따라서 일년 중 하루 만 알면, 얼음 임계 값에 해당하는 연중 평균 일수를 가질 것입니다. 연간 온도 변화로 인해 그것에 대한 정상적인 분포가있을 수 있습니다. 올해는 완전히 정당화되었습니다.

그러나 매일 공기 온도와 같은 다른 변수를 알고 있다면 다소 복잡한 모델을 더 직접 처리해야 할 것입니다. ice-on day의 예측 변수로 변수보다 연간 값 (최소?의 의미?) 만 사용하는 경우에도 위와 동일한 인수로 합리적으로 보입니다.


물리를 가리킬 때 +1 통계적 결과를 이유별로 설명 할 수없는 경우 통계 결과가 유의하게 표시 되더라도 의심 될 수 있습니다.
Horst Grünbusch

명확하게 말하면, ice-on의 일 년은 반응 변수입니다 ... 그것은 내가 "예측"하려고하는 것입니다 (당신의 대답에서 당신은 그것을 몇 곳에서 '예측 자'라고 말합니다). 얼지 않고 연도를 처리하기위한 제안이 있습니까 (아래의 Tobit 제안)?
rbatt

1
@rbatt, 혼란을 드려 죄송합니다. 가장 간단한 모델은 과거에 ice-on이 발생한 날을 예측 자로 사용하여 1D입니다. 그러나 시작 날짜의 경향을 감지하려는 경우 예측하려는 날짜로 전체 날짜가 표시됩니다. 예를 들어 2020 년의 예측은 2050 년의 예측과 다를 수 있기 때문입니다.
cboettig

0

이 문제에는 두 개의 응답 변수가 필요합니다. 호수가 얼어 붙었는지 여부를 나타내는 하나의 부울 응답과 지표가 참인지에 따라 연중 일을주는 하나의 정수 응답. 호수가 얼어 붙은 해에는 부울과 정수가 모두 관찰됩니다. 호수가 얼지 않은 해에는 부울이 관찰되고 정수는 그렇지 않습니다. 부울에 대해 로지스틱 회귀를 사용할 수 있습니다. 일의 회귀는 일반적인 선형 회귀가 될 수 있습니다.

주어진 기간 내에 가능한 결빙 일을 연속으로 번호를 매기 만하면 일의 순환 특성은 문제가되지 않습니다. 번호 매기기를 시작할 위치가 궁금하다면 예측 변수를 측정 한 날을 제안합니다. 모형이 원인 효과를 나타내도록하려면 가능한 모든 동결이 발생하기 전에 모든 예측 변수를 측정해야합니다.

일의 정수 및 경계 특성을 처리하기 위해 이산화 모델을 사용할 수 있습니다. 즉, 다음과 같은 방식으로 관측 값을 생성하는 실제 잠재 값이 있습니다. 값이 범위 내에 있으면 관측 값이 가장 가까운 정수로 반올림 된 잠재 값과 같고, 그렇지 않으면 값이 경계로 잘립니다. 잠복 값 자체는 예측 변수와 잡음의 선형 함수로 모델링 될 수 있습니다.


접근 방식의 전제를 이해하지만 구현 방법을 잘 모르겠습니다. 데이터를 정렬하고 부울 / 날짜 후보 드라이버의 영향을 어떻게 추정합니까? R.에서 I 일
rbatt

한 열은 부울이고 다른 열은 날짜 인 데이터 프레임에 데이터를 넣습니다. 다음을 사용하십시오 : fit1 = glm (froze ~ x, frame, family = "binomial") fit2 = lm (date ~ x, frame)
Tom Minka

죄송합니다, "fit2 = lm (date ~ x, frame, subset = Boolean == TRUE)"를 이해할 수 있습니까?
Sergio

그것들은 두 개의 별도 모델입니다. "날짜"가 반응 인 모델에서, 물이 결코 얼지 않는 년으로 어떻게해야합니까? 내가 단순히 그 연도를 제거한다면, 나는 가장 극심한 반응의 관찰을 선택적으로 제거하기 때문에 결과를 편향시키고있다 (또는 관측 된 반응 범위를 심각하게 감소시킨다). 따라서 물이 얼지 않는 몇 년 동안은 운전 기사가 결빙 날짜에 미치는 영향에 대해 알려 주어야합니다. 두 모델의 정보를 결합해야합니다.
rbatt

기본 프로세스가 의심 할 여지없이 고정되어 있기 때문에 동결을 부울 변수로 처리하는 것이 불편합니다.
cboettig 2016 년

0

당신이 가진 것은 이벤트 시간 데이터이며 생존 분석이라고도합니다. 그것은 실제로 내 영역이 아니므로 여기에 자세한 대답을하지 않습니다. "이벤트 시간"또는 "생존 분석"에 대한 인터넷 검색을 통해 많은 인기를 얻을 수 있습니다!

좋은 출발점은 Venables / Ripley : MASS의 생존 분석에 관한 장 (13) 또는 John D. Kalbfleisch, Ross L. Prentice (auth.)의 고전적인 "실패 시간 데이터의 통계 분석, 2 판"이 될 수 있습니다.

편집, 확장 된 답변

생존 분석의 대안으로 서수 로지스틱 회귀로 근사 할 수 있습니다. 예를 들어, 첫 번째 고정 날짜의 경우, "정지 또는 그 이전에 정지 중"상태를 제공하는 일부 날짜를 0 (동결 없음), 1 (동결)으로 정의하십시오. 그것은 동결없이 수년을 잘 수용하며, 당신은 단순히 제로 반응 벡터를 갖습니다. 선택한 날짜가 다음과 같다면

1:08   15:08 1:09 15:09 1:10 15:10 1:11 15:11 1:12  15:12  1:01  15:01
and the actual date of first freezing was  17:11, then your observed vector will be
0       0    0    0     0    0     0    0      1     1     1      1

일반적으로 모든 응답 벡터는 0의 초기 블록과 그 뒤에 1의 블록을 갖습니다. 그런 다음이 값을 순서 형 로지스틱 회귀 분석과 함께 사용하여 각 날짜의 예상 고정 확률을 얻을 수 있습니다. 이 곡선을 플로팅하면 생존 곡선에 대한 근사값이 표시됩니다 (이 상황에서 생존은 "아직 정지되지 않음").

EDIT

강이 매년 (거의) 얼기 때문에 데이터가 반복되는 사건으로 볼 수도 있습니다. 내 대답은 여기 : 정신 재 입원의 중요한 예측 자 찾기

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.