시계열에 대한 로지스틱 회귀

과거 관측치에 따라 방금 도착한 데이터의 종속 변수 (예 : 행)의 값을 예측하기 위해 스트리밍 데이터 (다차원 시계열) 컨텍스트에서 이진 로지스틱 회귀 모델을 사용하고 싶습니다. 내가 아는 한, 로지스틱 회귀 분석은 전통적으로 사후 분석에 사용되며, 각 종속 변수는 이미 검사 또는 연구의 특성에 의해 설정되었습니다.

그러나 시계열의 경우 어떻게됩니까? 우리는 과거 데이터 (예를 들어 마지막 초의 시간 창에서 )와 이전의 데이터 측면에서 종속 변수에 대한 예측 (즉석에서)을 만들고 싶습니다. 종속 변수의 추정치는? $t$

그리고 시간이 지남에 따라 위의 시스템을 보면 회귀가 작동하려면 어떻게 구성해야합니까? 데이터의 처음 50 개 행 (즉, 종속 변수를 0 또는 1로 설정)을 레이블링하여 먼저 훈련 한 다음 현재 추정 벡터 를 사용하여 새로운 확률을 추정해야합니까? 방금 도착한 데이터 (즉, 시스템에 방금 추가 된 새 행)에 대해 종속 변수가 0 또는 1입니까? ${\beta}$

내 문제를보다 명확하게하기 위해 행별로 데이터 세트를 구문 분석하고 이전의 모든 종속 또는 설명에 대한 지식 (관찰 또는 추정)을 고려하여 이진 결과 (종속 변수)를 예측하려고하는 시스템을 구축하려고합니다. 고정 시간 창에 도착한 변수. 내 시스템은 Rerl에 있으며 추론에 R을 사용합니다.

r time-series logistic

— 회귀
소스

데이터에서 상관 관계 구조를 가정 할 수 있습니까? 사례는 로짓 링크가있는 GLMM의 특별한 경우이지만 시계열 데이터의 상관 관계 구조를 올바르게 모델링하여 합리적인 답변을 얻을 수 있습니다.

— suncoolsu

시계열을 말할 때,

는

과 어떤 관계가있을 것 입니다. 아니면 독립적이라고 가정 할 수 있습니까?

y_{t}

$y_t$

y_{t - 1}

$y_{t-1}$

— suncoolsu

구체적인 솔루션을 제공하기 위해 데이터에 대한 간결한 설명을 제공해 주시겠습니까? 이 stat.ethz.ch/pipermail/r-sig-mixed-models/2010q4/004530.html

— suncoolsu

프로토콜, SrcIP SrcPort, DestIP, DestPort, TimeSec, Timeusec, PackLength TCP, 200.80.199.105,3523,207.216.233.144,9658,11223344,941818,62 UDP, 142.144.155.120 형식의 네트워크 트래픽 시계열이 있습니다. , 1751,244.72.151.2,1935, 11223344,941843,60 레이블이있는 데이터 세트의 지식을 사용하여 자체 학습 모델을 작성하여 패킷 (또는 패킷 그룹)이 악성인지 추정하고 싶습니다. 내가 말했던 평균화는 위의 메트릭에 적용되어 집계 수준을 높이고 시스템을 대량의 트래픽에보다 실용적으로 만듭니다.

— 회귀 자

이것은 실제로 서포트 벡터 머신의 작업처럼 들립니다. 뭔가 빠졌습니까? 자기 상관 또는 데이터의 시계열 구조에 대해 정말로 우려하는 경우 ARIMA 및 / 또는 다중 레벨 종단 모델을 사용해 볼 수 있습니다. 종단 모델에서는 UCLA ATS 사이트 에 R 코드 예제가 있는 Willet and Singer 's Applied Longitudinal Data Analysis가 권장 됩니다.

— ashaw

고려해야 할 두 가지 방법이 있습니다.

마지막 N 개의 입력 샘플 만 사용하십시오. 입력 신호의 크기가 D라고 가정하면 접지 진실 레이블 당 N * D 샘플이 있습니다. 이 방법을 사용하면 로지스틱 회귀를 포함하여 원하는 분류기를 사용하여 훈련 할 수 있습니다. 이러한 방식으로 각 출력은 다른 모든 출력과 독립적으로 간주됩니다.
마지막 N 입력 샘플과 생성 한 마지막 N 출력을 사용하십시오. 문제는 viterbi 디코딩 과 유사합니다 . 입력 샘플을 기반으로 비 이진 점수를 생성하고 viterbi 디코더를 사용하여 여러 샘플의 점수를 결합 할 수 있습니다. 이것은 출력 1 사이의 시간적 관계에 대해 무언가 있다면 방법 1보다 낫습니다.

— 미스터 화이트
소스