이 질문 에서 다음과 같이 : 5 점 리 커트 항목 (예 : 삶의 만족도 : 불만족 함)에서 두 그룹 (예 : 남성과 여성)의 중심 경향의 차이를 테스트하려고한다고 상상해보십시오. 나는 t- 검정이 대부분의 목적에 대해 충분히 정확할 것이라고 생각하지만, 그룹 평균 간의 차이에 대한 부트 스트랩 테스트는 종종 더 정확한 신뢰 구간 추정치를 제공 할 것이라고 생각합니다. 어떤 통계 테스트를 사용 하시겠습니까?
이 질문 에서 다음과 같이 : 5 점 리 커트 항목 (예 : 삶의 만족도 : 불만족 함)에서 두 그룹 (예 : 남성과 여성)의 중심 경향의 차이를 테스트하려고한다고 상상해보십시오. 나는 t- 검정이 대부분의 목적에 대해 충분히 정확할 것이라고 생각하지만, 그룹 평균 간의 차이에 대한 부트 스트랩 테스트는 종종 더 정확한 신뢰 구간 추정치를 제공 할 것이라고 생각합니다. 어떤 통계 테스트를 사용 하시겠습니까?
답변:
Clason & Dormody는 Likert 품목에 대한 통계 테스트 문제 ( 개별 Likert 유형 품목에 의해 측정 된 데이터 분석)에 대해 논의했습니다 . 두 분포가 비슷해 보일 때 (종 모양과 같은 분산) 부트 스트랩 테스트가 정상이라고 생각합니다. 이 항목 범주에서 응답 분포 확인에 Agresti의 책을 볼 수 있기 때문에, 범주 형 데이터 (예를 들면 추세 또는 피셔 테스트 또는 순서 로지스틱 회귀)에 대한 테스트가 너무 재미있을 것 범주 형 데이터 분석 에 (제 7 장을 위한 로짓 모델 다항식 반응 ).
이 외에도 두 그룹간에 반응 분포가 크게 불균형 인 경우 t- 검정 또는 기타 비모수 적 테스트가 실패하는 상황을 상상할 수 있습니다. 예를 들어, 그룹 A의 모든 사람들이 1 또는 5 (동일한 비율로)에 대답하는 반면 그룹 B의 모든 사람들은 3에 응답하면 그룹 내 평균이 동일하게되고 테스트는 전혀 의미가 없습니다. 동질성 가정은 크게 위반된다.
IMHO 리 커트 척도에는 t- 검정을 사용할 수 없습니다. 리 커트 척도는 순서이며 변수 값의 관계에 대해서만 "인식"합니다. 예를 들어 "완전히 불만족"은 "어떻게 불만족"보다 나쁩니다. 반면에 t- 검정은 평균 등을 계산해야하므로 구간 데이터가 필요합니다. 리 커트 척도 점수를 구간 데이터에 매핑 할 수 있지만 ( "완전히 불만족"은 1 등임) "누군가 불만족"이 "어떻게 불만족"이 "어느 쪽도"에서 "어떻게 불만족"과 동일한 거리를 보장하지는 않습니다. 그런데 : "완전히 불만족"과 "어떻게 불만족"의 차이점은 무엇입니까? 결국, 서수 데이터의 코딩 된 값에 대해 t- 검정을 수행하지만 의미가 없습니다.
설문지의 각 단일 항목이 서수이고 "강하게 동의"와 "동의"사이의 양적 차이가 "중도"와 동일한 지 여부를 알 수있는 방법이없는 경우이 점에 대해 이의를 제기 할 수 없다고 생각합니다. 강하게 동의하지 않음 "과"동의하지 않음 ", 왜 모든 서수 레벨 스케일의 합산이 실제 구간 레벨 데이터의 속성을 공유하는 값을 생성합니까?
예를 들어, 우울증 인벤토리의 결과를 해석하는 경우 점수가 "20"인 사람이 "점수가"인 사람보다 두 배나 우울하다고 말하는 것은 (적어도) 의미가 없습니다. 10 ". 설문지의 각 항목은 우울증 수준의 실제 차이를 측정하지 않고 (우울증이 안정적이고, 내적이며 유기적 인 장애라고 가정 할 때) 특정 진술에 대한 개인의 주관적인 평가 등급이기 때문입니다. "여러분의 기분이 1-4의 척도로, 1이 매우 우울하고, 4가 전혀 사용되지 않는다고 어떻게 말하겠습니까?" ? 또는 4와 3의 차이가 사람과 관련하여 3과 4의 차이와 같은지 어떻게 알 수 있습니까? s 현재 우울증 수준.이 중 어느 것도 알 수 없다면, 모든 서수 항목의 합을 구간 수준 데이터로 취급하는 것은 의미가 없습니다. 데이터가 정규 분포를 형성하더라도 모든 반응을 likert-item에 합산하여 계산 한 경우 점수 간의 차이를 구간 수준 데이터로 처리하는 것이 적절하지 않다고 생각합니다. 데이터의 정상적인 분포는 응답이 아마도 더 많은 인구를 대표한다는 것을 의미합니다. 재고로부터 얻은 값이 구간 수준 데이터의 중요한 특성을 공유한다는 것을 의미하지는 않습니다. t 모든 반응을 likert-item에 합산하여 계산 된 경우 점수 간의 차이를 구간 수준 데이터로 취급하는 것이 적절하다고 생각합니다. 데이터의 정상적인 분포는 응답이 아마도 더 많은 인구를 대표한다는 것을 의미합니다. 재고로부터 얻은 값이 구간 수준 데이터의 중요한 특성을 공유한다는 것을 의미하지는 않습니다. t 모든 반응을 likert-item에 합산하여 계산 된 경우 점수 간의 차이를 구간 수준 데이터로 취급하는 것이 적절하다고 생각합니다. 데이터의 정상적인 분포는 응답이 아마도 더 많은 인구를 대표한다는 것을 의미합니다. 재고로부터 얻은 값이 구간 수준 데이터의 중요한 특성을 공유한다는 것을 의미하지는 않습니다.
우리는 통계학을 사용하여 우리가 연구하고있는 잠재 변수에 대해 이야기하는 방법에 대해 행동 과학에서 조심해야합니다. 왜냐하면 이러한 가상의 구성을 측정하는 직접적인 방법이 없기 때문에, 그것들을 주제로 정량화하려고 할 때 중요한 문제가있을 것입니다. 파라 메트릭 테스트에. 다시 한 번, 일련의 응답에 값을 할당했다고해서 이러한 값 간의 차이가 의미가있는 것은 아닙니다.
비례 배당률 모델은 리 커트 항목 척도에 대해 t- 검정보다 낫습니다.
비례 배당률 모델을 제시하고이 질문에 대한 답변이 2 개 이상 표시되어 있으므로이 맥락에서 비례 배당률 모델을 설명하려고합니다.
비례 배당 모델의 점수 테스트는 Wilcoxon 순위 합계 테스트와 같습니다.
보다 정확하게 말하면, 순서 결과에 대한 비례 배당 누적 로지스틱 회귀 모델 (McCullagh 1980)에서 단일이 분성 공변량의 영향에 대한 점수 검정 통계량은 Wilcoxon 순위 합계 검정 통계량과 같았습니다. ( 복잡한 샘플 조사 데이터에 대한 Wilcoxon Rank-Sum 테스트의 확장 에 대한 증거 )
Wilcoxon 순위 합계 테스트와 마찬가지로이 테스트는 예상 값에 관계없이 두 개의 샘플이 다른 분포에서 추출되었는지 여부를 감지합니다.
Wilcoxon 순위 합계 테스트와 같이 예상 값이 다른 분포에서 두 표본을 추출했는지 여부 만 탐지하려는 경우에는이 검정이 유효하지 않습니다.