종 데이터 : 시계열, 반복 측정 또는 다른 것?


10

평범한 영어로 : 나는 다중 회귀 또는 ANOVA 모델을 가지고 있지만 각 개인에 대한 반응 변수는 시간의 곡선 함수입니다.

  • 커브의 모양 또는 수직 오프셋의 중요한 차이를 담당하는 오른쪽 변수를 어떻게 알 수 있습니까?
  • 이것은 시계열 문제, 반복 측정 문제 또는 다른 것입니까?
  • 이러한 데이터를 분석하는 가장 좋은 방법은 무엇입니까 (가급적 R이지만 다른 소프트웨어를 사용하는 것이 좋습니다 )

더 정확한 용어로 : 하자 말 나는 모델이 하지만 Y_ {IJK는} 실제로에서 수집 된 데이터 포인트의 연속이다 많은 시점 t 에서 동일한 개별 k 로, 숫자 변수로 기록되었습니다. 데이터를 플로팅하면 각 개별 y_ {ijkt} 에 대해 수직 오프셋, 모양 또는 빈도 (순환 적 경우)가 공변량에 크게 의존 할 수있는 2 차 또는 주기적 함수가 있음을 알 수 있습니다. 공변량은 시간이 지남에 따라 변하지 않는다. 즉, 개체는 데이터 수집 기간 동안 일정한 체중 또는 치료 그룹을 갖는다.와이나는제이케이=β0+β1엑스나는+β2엑스제이+β엑스나는엑스제이+ϵ케이와이나는제이케이케이와이나는제이케이

지금까지 나는 다음과 같은 R접근법 을 시도했다 .

  1. 마 노바

    Anova(lm(YT~A*B,mydata),idata=data.frame(TIME=factor(c(1:10))),idesign=~TIME); 
    

    ... 여기서는 YT열이 시점이고이 예에서는 열이 10이지만 실제 데이터에서는 훨씬 더 많은 행렬이 있습니다.

    문제 : 이것은 시간을 요인으로 취급하지만 시점이 각 개인에 정확히 일치하지는 않습니다. 또한 표본 크기와 관련하여 많은 수가 있으므로 모델이 포화됩니다. 시간이 지남에 따라 응답 변수의 모양이 무시되는 것처럼 보입니다.

  2. 혼합 모델 (Pinheiro 및 Bates와 동일, S 및 S-Plus의 혼합 효과 모델 )

    lme(fixed=Y~ A*B*TIME + sin(2*pi*TIME) + cos(2*pi*TIME), data=mydata, 
        random=~(TIME + sin(2*pi*TIME) + cos(2*pi*TIME))|ID), method='ML')
    

    ... 여기서는 ID개인별로 데이터를 그룹화하는 요소입니다. 이 예에서 응답은 시간에 따라 주기적이지만, 2 차 항 또는 다른 시간 함수가있을 수 있습니다.

    문제 : 각 시간 항이 필요한지 (특히 2 차 항의 경우) 어떤 공변량에 의해 영향을 받는지 확실하지 않습니다.

    • 인가 stepAIC()를 선택하는 좋은 방법은?
    • 시간 종속 용어를 제거하면 random인수 에서도 제거 됩니까?
    • 어떤 I는 자기 상관 함수 (예를 사용하는 경우 corEXP()에서 화학식 소요) correlation인 공방을 위해 해당 I는 수식해야 corEXP()에서와 동일한 random막 또는 ~1|ID?
    • nlme패키지는 Pinheiro 및 Bates 외부의 시계열과 관련하여 거의 언급되지 않습니다.이 문제에 적합하지 않은 것으로 간주됩니까?
  3. 이차 또는 삼각법 모델을 각 개인에 적합시킨 다음 각 계수를 다중 회귀 또는 분산 분석에 대한 반응 변수로 사용합니다.

    문제 : 다중 비교 수정이 필요합니다. 내가 간과하고있는 것을 의심하게 만드는 다른 문제는 생각할 수 없다.

  4. 이 사이트에서 이전에 제안한대로 ( 예측자가 둘 이상인 시계열 회귀의 용어는 무엇입니까? ) ARIMAX 및 전달 함수 / 동적 회귀 모델이 있습니다.

    문제점 : ARMA 기반 모델은 불연속적인 시간을 가정합니까? 역동적 인 회귀에 관해서는, 나는 오늘 처음으로 그것에 대해 들었지만, 결국 펼쳐지지 않을 또 다른 새로운 방법을 탐구하기 전에, 전에 이것을 한 사람들에게 조언을 구하는 것이 현명하다고 생각했습니다.


5
데이터가 정확히 무엇인지에 대한 세부 정보를 추가하면 도움이 될 수 있습니까? 즉, 몇 개의 시점에서 몇 개의 사례가 측정 되었습니까? 사례가 다른 조건에 있습니까? 아니면 다른 것?
Jeromy Anglim 2016 년

계정을 잃어 버렸습니까? 그렇다면 귀하의 Gmail 주소로 새 것을 등록하여 병합 할 대상을 쉽게 찾으십시오.

1
@ f-tussel 및 @ jeromy-anglim : 데이터는 자연 수명 기간 동안 실험실 동물에서 수집 한 다양한 비 침습적 측정이며, 종종 유전자형, 성별 또는 먹이 유형과 같은 정적 정보와 결합됩니다. '많은'포인트는 20에서 수백을 의미합니다. 분석하려는 하나의 데이터 세트가 아니라 그룹에서 매우 일반적인 데이터 유형을 분석하는 방법을 배우는 것입니다. 그룹 내 요인이있는 혼합 모형이 더 작은 표본 크기에만 권장됩니까?
f1r3br4nd

답변:


5

Jeromy Anglim이 말했듯이, 그것은 당신이 각 개인에 대해 가지고있는 시점의 수를 아는 데 도움이 될 것입니다. "다수"라고 말했듯이 기능 분석 이 실행 가능한 대안이 될 수 있습니다. R 패키지 fda 를 확인하고 Ramsay와 Silverman저술 한 책을 볼 수 있습니다 .


기능 분석은 장기적으로 유망한 것으로 들리지만 의미가 없거나 편향된 결과를 얻지 못한다는 확신을 갖기 전에는 상당한 학습 곡선이있을 것 같습니다. 따라서이 문제를 해결하는 동안 더 친숙한 nlme접근 방식 (OP의 항목 2 및 3)이 당분간 데이터에 사용하기에 적어도 유효합니까?
f1r3br4nd

2

원래이 질문을 제기 한 이래로 랜덤 차단 요인으로 피험자가있는 혼합 효과 모델이이 문제에 대한 실질적인 해결책, 즉 원래 게시물의 옵션 # 2라는 결론에 도달했습니다. 경우 random인수하기 lme로 설정됩니다 ~1|ID(여기서 ID동일한 테스트 대상에서 오는 식별 관측은) 다음 임의의 절편 모델이 장착되어 있습니다. 이 값을 설정 ~TIME|ID하면 임의 경사 및 절편 모델이 적합합니다. 동일한 개체 내에서 변하는 변수를 포함하는 오른쪽 수식은 ~과와 사이에 배치 될 수 |ID있지만 지나치게 복잡한 수식은 포화 된 모델 및 / 또는 다양한 수치 오류가 발생합니다. 따라서 우도 비 검정 (anova(myModel, update(myModel,random=~TIME|ID)))를 사용하여 랜덤 인터셉트 모델을 랜덤 슬로프 및 인터셉트 모델 또는 기타 후보 랜덤 효과 모델과 비교합니다. 적합치 차이가 크지 않은 경우 더 간단한 모델을 사용하십시오. 원래 게시물에서 임의의 삼각 함수에 들어가는 것은 과잉이었습니다.

내가 제기 한 다른 문제는 모델 선택 중 하나였습니다. 사람들이 어떤 종류의 모델 선택도 좋아하지 않는 것처럼 보이지만 실용적인 대안은 없습니다. 설명 변수가 무엇이며 관련이 없는지에 대한 데이터를 수집 한 연구원을 맹목적으로 믿는 경우 테스트되지 않은 가정을 맹목적으로 받아 들일 것입니다. 가능한 모든 정보를 고려하면 종종 포화 된 모델이됩니다. 쉽게 특정 모델과 변수를 임의로 선택하면 이번에는 테스트하지 않은 가정을 다시 받아 들일 수 있습니다.

그래서, 요약, 반복 측정을 위해 그것의 lme모델을 통해 트리밍 다음 MASS:::stepAIC또는 MuMIn:::dredge및 / 또는 nlme:::anova.lme때까지 사람이 더 나은 아이디어를 가지고 있지 않는.

나는 누군가가 어떤 반박을 가지고 있는지 확인하기 위해이 자기 대답을 잠시 동안 그대로 두겠습니다. 시간 내 주셔서 감사합니다.이 질문을 읽고 계시다면 제가 반문의 영역에 오신 것을 환영합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.