각 주제마다 여러 데이터 포인트를 올바르게 처리하는 방법


10

나는 현재 각 주제에 대해 여러 번 측정하여 데이터를 올바르게 처리하는 방법에 대해 someoe와 논쟁 중입니다. 이 경우 각 주제 내에서 다른 조건에 대해 짧은 시간 내에 각 주제에 대한 데이터가 수집되었습니다. 모든 측정은 정확히 같은 변수를 여러 개 수집합니다.

하나의 옵션은 이제 조건별로 데이터를 그룹화하고 여러 데이터 포인트가 한 주제에서 오는 것을 신경 쓰지 않는 것입니다. 그러나 각 주제의 데이터 요소는 완전히 독립적이지 않을 수 있습니다.

다른 대안은 먼저 각 주제에서 각 조건에 대한 모든 측정의 평균을 취한 다음 평균을 비교하는 것입니다. 그러나 최종 분석에서 평균이 적은 오류를 고려하지 않기 때문에 이는 아마도 유의성에 영향을 미칩니다.

그러한 데이터를 어떻게 정확하게 분석 할 수 있습니까? 이것이 어떻게 SPSS에서 처리됩니까? 원칙적으로 평균을 계산할 때 최종 분석에서이를 고려하는 것보다 오차 한계를 계산할 수 있어야하지만 SPSS가 어떻게 든이 계산을 내 뒤에서 수행하고 있다고 생각하지 않습니다.


1
각 대상이 모든 조건에서 실행되도록 반복 측정 설계입니까? 또는 각 과목이 하나의 조건에있는 독립적 인 그룹 또는 측정, 디자인입니까?
John

이 디자인에서 각 주제는 모든 조건에서 실행됩니다. 그러나 피험자가 과제에 실패했기 때문에 거부해야 할 일부 데이터 포인트가 있습니다. 단일 조건 (조건 당 약 40 회 반복)에 대해 모든 하위 작업에서 주제가 실패 할 가능성은 거의 없으므로 각 주제에 모든 조건에 대한 데이터 포인트가있을 가능성이 높습니다.
LiKao

답변:


9

"조건에 따라 데이터를 그룹화하고 하나의 주제에서 여러 데이터 포인트가 오는 것을 신경 쓰지 않는"것은 독립 위반입니다. 그래서 그것은 갈 수 없습니다. 한 가지 접근법은 "각 주제에서 각 상태에 대한 모든 측정의 평균을 취한 다음 평균을 비교하는 것"입니다. 당신은 그렇게 할 수 있습니다, 당신은 독립을 위반하지 않을 것이지만, 당신은 주제 수준 수단에 대한 집계에서 일부 정보를 잃고 있습니다.

그것의 얼굴에, 이것은 피사체와 피사체 내에서 측정 된 여러 시간 사이의 조건을 가진 혼합 디자인처럼 들립니다. 그러나 이로 인해 여러 시점에서 데이터를 수집 한 이유는 무엇입니까? 시간의 영향 또는 시간에 따른 변수의 진행은 조건에 따라 다를 것으로 예상됩니까? 이러한 질문 중 하나에 대한 대답이 예라면 데이터의 구조를 고려할 때 관심있는 것은 혼합 분산 분석 일 것으로 예상됩니다. 혼합 분산 분석은 SSTotal에서 "뒤로"주제 편차를 그대로 분산시킵니다. 그러나 이러한 분할이 피험자 간 상태 테스트에 도움이되는지 여부는 몇 가지 다른 요인에 따라 달라집니다.

어쨌든 SPSS / PASW 18에서 분석-> 일반 선형 모형-> 반복 측정. 각 주제에 대해 하나의 행과 각 시점에 대해 하나의 열과 조건 식별자가 있습니다. 조건 식별자는 "사이"섹션으로 이동하고 반복 측정 계수를 정의 할 때 반복 측정이 처리됩니다.


좋아, 이것이 내가 생각한 것입니다. 조건 당 여러 데이터 포인트는 두 가지 이유로 수집됩니다. 하나는 데이터가 이런 식으로 더 안정적이어야한다는 것입니다. 다른 이유는 일부 데이터 포인트를 버려야한다는 것입니다 (피험자는 항상 지시를 올바르게 따르지 않았습니다). 조건은 주제 내에서 완전하게 이루어 지므로이 경우에는 혼합 된 결과가 전혀 없습니다. 불행히도 반복 된 측정은 의문의 여지가 없다. 왜냐하면 우리는 각 주제에서 조건 당 약 40 개의 반복이 있기 때문이다. 그러나 반복 횟수가 많으면 평균을 사용할 때 많은 정보를 잃게됩니다.
LiKao

그런 다음 John의 답변을 추천합니다. 혼합 모델이 바람직 할 것입니다. 이는 각 주제 내에서 평균과 변동성을 모두 모델링하고 중첩을 존중할 수 있습니다. 이러한 분석의 한 가지 문제는 '올바른'자유도는 명확하지 않으므로 통계적 유의성에 대한 임계 값도 명확하지 않다는 것입니다. John이 제공 한 코드와 달리 조건 효과에 임의의 기울기를 맞추는 것이 좋습니다 (다른 피사체는 다른 효과를 나타냄). 그렇게하지 않으면 제 1 종 오류율이 높아질 수있는 시뮬레이션이 있습니다.
russellpierce

4

drknexus가 언급했듯이 반복 측정 설계는이를 처리하는 전통적인 방법입니다. 이러한 종류의 분석을 수행 할 때 하나의 점수 / 조건 / 대상으로 집계해야합니다. 구형 및 기타 문제에 대한 가정 위반에 민감합니다. 그러나보다 현대적인 기술은 다단계 모델링 또는 선형 혼합 효과를 사용하는 것입니다. 이 기술을 사용 하면 데이터를 집계 하지 않습니다 . 이것에 대한 몇 가지 치료법이 있지만 현재 가장 좋은 기본 자습서를 모르겠습니다. Baayen (2008) 7 장은 좋다. Pinheiro & Bates (2000)는 매우 좋지만 사물의 소리에서 소개에 나오는 조언을 따르고 초보자에게 권장되는 비트를 읽습니다.

모든 데이터가 긴 형식 (한 줄 / 데이터 포인트)이고 주제, 응답 (y) 및 조건 변수 (x)를 나타내는 열이 있다고 가정하면 분산 분석 스타일 결과를 얻으려면 시도 할 수 있습니다 R에서 이와 비슷한 것을 살펴보십시오 (lme4 패키지가 설치되어 있는지 확인하십시오).

library(lme4)
dat <- read.table('myGreatData.txt', header = TRUE)
m <- lmer( y ~ x + (1|subject), data = dat)
summary(m)
anova(m)

물론 더 많은 조건 변수 열을 가질 수 있습니다. 그런 다음 lmer 명령을 다음과 같이 변경할 수 있습니다.

m <- lmer( y ~ x1 * x2 + (1|subject), data = dat)

(BTW, 나는 권력을 높이기 위해 반복적 인 조치를 취하지 않는 것이 공식적인 오류라고 믿는다. 누구나 그 이름을 기억 하는가?)


나는 피험자 수가 아니라 응답 수에서 df를 집계하고 사용하지 않는 것은 독립성을 위반한다고 생각합니다. 또는 (제 생각에는) 고정 된 주제 집합에 대한 개별 항목 반응 수준에서 추론하는 것으로 생각 될 수 있습니다.
russellpierce
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.