컴퓨터 기반 실험 / 시뮬레이션에서 잔차의 독립성?


17

나는 palaeo sciences에 사용 된 특정 유형의 모델을 맞추는 다른 방법에 대한 컴퓨터 기반 평가를 수행했습니다. 나는 큰 훈련 세트를 가지고 있었기 때문에 무작위로 (층화 된 무작위 샘플링) 테스트 세트를 따로 설정했습니다. 나는 훈련 세트 샘플에 m 개의 다른 방법을 적용하고 m 결과 모델을 사용하여 테스트 세트 샘플에 대한 응답을 예측하고 테스트 세트의 샘플에 대한 RMSEP를 계산했습니다. 이것은 단일 실행 입니다.

그런 다음 새로운 테스트 세트를 무작위로 샘플링하여 다른 훈련 세트를 선택할 때마다이 과정을 여러 번 반복했습니다.

이 작업을 수행 한 후 방법 중 하나가 RMSEP 성능이 더 나은지 또는 더 나쁜지 조사하고 싶습니다 . 또한 쌍별 방법을 여러 번 비교하고 싶습니다.미디엄

내 접근 방식은 Run에 대한 단일 임의 효과와 함께 선형 혼합 효과 (LME) 모델을 맞추는 것 입니다. 내가 사용 lmer()으로부터 lme4의 으로부터 내 모델과 기능에 맞게 패키지 multcomp의 다중 비교를 수행하는 패키지. 내 모델은 본질적으로

lmer(RMSEP ~ method + (1 | Run), data = FOO)

어디 method테스트 세트에 대한 모델 예측을 생성하는 데 사용 된 방법을 나타내는 요소 이며 내 "실험"의 Run각 특정 실행 에 대한 지표입니다 .

내 질문은 LME의 잔차에 관한 것입니다. Run에 대한 단일 무작위 효과를 감안할 때 해당 실행 에 대한 RMSEP 값은 어느 정도 상관 관계가 있지만 무작위 효과가 제공하는 유도 된 상관 관계에 따라 실행간에 상관 관계가 없다고 가정합니다.

달리기 간의 독립성에 대한 가정이 유효합니까? LME 모델에서이를 설명 할 방법이 없거나 다른 유형의 정적 분석을 사용하여 내 질문에 대답해야합니까?


잔차는 예측 된 랜덤 효과에 조건부이거나 무조건적이고 시뮬레이션에서 예측 된 랜덤 효과는 일정하거나 변합니다. LME4의 기본 시뮬레이션 방법에 대해 이해하고 시도 할 수 없다는 것을 기억하십시오 (그러나 프로젝트를 정렬하기 전에 취소되었습니다).
phaneron

확실하게 알지 못하지만 다양한 그리기 훈련 세트-> 적합 모델-> RMSEP 계산은 모두 LME 이전에 수행됩니다. 무작위 효과는 테스트 세트 샘플의 다른 조합이 선택 될 때 각 실행마다 다른 인터셉트 (RMSEP)를 가지므로 실행에 대한 것이지만 실행 내에서는 일정합니다. 조건부 / 무조건 부 비트에 관해서는, 당신이 무엇을 의미하는지 확실하지 않습니다. 의견 주셔서 감사합니다.
복원 Monica Monica-G. Simpson

답변:


4

본질적으로 각 m 방법 에 대해 어떤 형태의 교차 유효성 검사를 수행 한 다음 어떤 방법이 더 잘 수행되는지 확인하고 싶습니다. 달리기 사이의 결과는 동일한 데이터를 기반으로하고 기차 / 테스트 세트간에 겹치기 때문에 확실히 달라집니다. 문제는 방법을 비교할 때 이것이 중요한지 여부입니다.

한 번만 실행하면 한 방법이 다른 방법보다 낫다는 것을 알 수 있습니다. 그런 다음 스스로에게 물어보십시오. 이것은 단순히 테스트 세트의 특정 선택 때문입니까? 많은 기차 / 테스트 세트에 대해 테스트를 반복하는 이유입니다. 따라서 방법이 다른 방법보다 낫다는 것을 확인하기 위해 여러 번 실행하고 각 실행에서 다른 방법과 비교합니다 (오류 / 순위 / 등을 보는 다른 옵션이 있습니다). 이제 대부분의 실행에서 분석법이 더 우수하다는 것을 알게되면 결과는 그 결과입니다. p- 값을 제공하는 것이 도움이 될지 확실하지 않습니다. 또는 p- 값을 제공하려면 여기에서 배경 모델이 무엇인지 스스로에게 물어보십시오.


당신의 생각에 감사드립니다. 나는 당신의 마지막 줄이 내가 지금있는 곳에서 거의 요약한다고 생각합니다. 이것을 다소 기대 하면서 , 나는 이런 유형의 데이터를 분석하는 적절한 방법에 대해 묻는 후속 조치를 취 합니다. 나는 또한 "그것은 무엇인가"에 대한 당신의 요점을 좋아합니다; 그것은 내 생각 과정의 가장자리에서 최근 소용돌이 쳤습니다.
복원 Monica Monica-G. Simpson

"결과는 무엇인가"부분에서 내가 가진 한 가지 문제는 RMSEP가 실행마다 상당히 가변적이라는 것입니다. 평균적으로 한두 가지 방법이 더 좋지만 RMSEP의 변동성을 고려하면 더 좋습니까? 따라서 Run에 무작위 효과를 가진 LME를 시도합니다. 이 접근 방식을 수정하려면 각 데이터 세트의 상관 관계를 알아야합니다. 내가하는 통계 테스트는 그렇게 수정해야 할 것 같습니다. 따라서 나는 여전히 각 방법에 대해 50 런의 평균을 해석하는 방법과 결론을 도출 할 수 있는지에 어려움을 겪고 있습니다.
복원 Monica Monica-G. Simpson

1
내가 보는 방식으로 데이터의 가능한 모든 기차 / 테스트 세트 파티션에 대한 분석법을 평가하는 것이 가장 포괄적 인 평가 일 것입니다. 이것은 불가능하기 때문에 랜덤 런으로 추정하고 있습니다. 모든 열차 / 테스트 파티션을 평가할 수 있다고 가정 해 봅시다. 어떤 방법이 더 좋은지 결정하는 방법에 대한 질문이 남아 있습니다. 따라서 이것은 "좋은 것"이 무엇인지 정의하는 방법에 관한 문제입니다. 높은 평균 점수를 의미합니까? 아니면 많은 실행에서 한 방법이 다른 방법보다 높은 점수를 얻습니다 (개인적으로 이것이 더 나은 버전이라고 생각합니다)?
Bitwise

1

당신이 한 일을 실제로 이해하지 못하지만

실행을 위해 해당 실행의 RMSEP 값이 어느 정도 상관되어 있다고 가정합니다.

예, 해당 테스트에서 테스트 세트가 얼마나 어려운지 반영합니다.

달리기 사이에는 상관이 없습니다

테스트 세트를 샘플링 한 방식을 고려할 때 일부는 다른 것보다 더 겹칩니다 (대부분 독립적 인 복제는 아닙니다)

런이 독립적이되도록 오버랩을 기반으로 종속성을 모델링하거나 평가를 설계해야합니다. 교차 검증에 대한 통계 자료를 읽을 것입니다 ;-)


+1 답변 감사합니다. 흠, 무슨 말인지 알 겠어. 테스트 세트가 비슷할수록 RMSEP 값이 더 유사합니다. 데이터가 공간적으로 또는 일시적으로 상관 된 것과 같은 방식으로 입력하십시오. 훈련 세트 / 테스트 세트를 생성하는 방식은 평균적으로 서로 비슷하지 않다는 것을 의미합니다. 나는 CV가 나를 여기로 데려다 줄지 확신하지 못합니다. 어쨌든 리샘플링 접근법을 통해 그 일을하고 있습니다. 아마도 다른 Q에게 실제 문제를 해결하는 방법을 물어볼 것입니다.
복원 Monica Monica-G. Simpson

나는 현상금 기간이 끝날 때까지 이것을 열어두고 다른 사람이 물지 않았는지 확인하지만 여기에 당신의 생각을 높이 평가하고 다른 답변이 나오지 않으면 현상금을 수락하고 수여 할 것입니다.
복원 Monica Monica-G. Simpson
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.