5 점 리 커트 항목의 그룹 차이


22

이 질문 에서 다음과 같이 : 5 점 리 커트 항목 (예 : 삶의 만족도 : 불만족 함)에서 두 그룹 (예 : 남성과 여성)의 중심 경향의 차이를 테스트하려고한다고 상상해보십시오. 나는 t- 검정이 대부분의 목적에 대해 충분히 정확할 것이라고 생각하지만, 그룹 평균 간의 차이에 대한 부트 스트랩 테스트는 종종 더 정확한 신뢰 구간 추정치를 제공 할 것이라고 생각합니다. 어떤 통계 테스트를 사용 하시겠습니까?


2
관련 질문 : 사람들은 종종 이런 종류의 데이터에 대해 비모수 적 Mann-Whitney 테스트를 사용합니다. 가능한 값은 5 개뿐이므로 많은 순위가 있습니다. Mann-Whitney 테스트는 동점 순위를 조정하지만 많은 조정이있을 때이 조정이 작동합니까?
Harvey Motulsky

5
PARE, Five-Point Likert Items : t test vs Mann-Whitney-Wilcoxon , j.mp/biLWrA에 발표 된이 최신 기사에 관심이있을 것 입니다.
chl

카이-제곱 검정도 적절한 지 확실하지 않으며 그룹과 항목간에 종속성이 있는지 여부를 테스트합니다 (그룹간에 다른 분포).
pe-pe-rry

답변:


12

Clason & Dormody는 Likert 품목에 대한 통계 테스트 문제 ( 개별 Likert 유형 품목에 의해 측정 된 데이터 분석)에 대해 논의했습니다 . 두 분포가 비슷해 보일 때 (종 모양과 같은 분산) 부트 스트랩 테스트가 정상이라고 생각합니다. 이 항목 범주에서 응답 분포 확인에 Agresti의 책을 볼 수 있기 때문에, 범주 형 데이터 (예를 들면 추세 또는 피셔 테스트 또는 순서 로지스틱 회귀)에 대한 테스트가 너무 재미있을 것 범주 형 데이터 분석 에 (제 7 장을 위한 로짓 모델 다항식 반응 ).

이 외에도 두 그룹간에 반응 분포가 크게 불균형 인 경우 t- 검정 또는 기타 비모수 적 테스트가 실패하는 상황을 상상할 수 있습니다. 예를 들어, 그룹 A의 모든 사람들이 1 또는 5 (동일한 비율로)에 대답하는 반면 그룹 B의 모든 사람들은 3에 응답하면 그룹 내 평균이 동일하게되고 테스트는 전혀 의미가 없습니다. 동질성 가정은 크게 위반된다.


Clason and Dormody 기사가 좋아 보입니다. 귀하의 답변 배포 의견은 흥미로울 것입니다. 분포 차이에 관심이있을 수 있음에 동의합니다. 그러나 모집단 그룹 평균이 다른지 여부에만 관심이 있다면, 어떤 분포가 그러한 평등을 초래했는지는 중요하지 않습니다.
Jeromy Anglim

이 경우, 귀하는 귀하의 리 커트 척도 (즉, 만족도가 높고 "정확한"만족 된 차이)가 이상적으로 행동하고 두 모집단에서 동일한 의미를 갖는 것으로 인식된다고 가정합니다. 따라서 당신은 암시 적으로 이것이 숫자 척도라고 가정하고 있지만, 나는 이것이 특히 참가자가 같은 나라에서 온 경우 응용 연구에서 종종 고려된다는 것에 동의합니다. 제 요점은 질문 # 10에 대한 답과 같이 요인 분석 전통에서 일반적으로 발견되는 범주 형 데이터 분석 관점을 강조하는 것이 었습니다.
chl

리 커트 항목에 응답하는 샘플의 평균은 일반적으로 기본 차원에서의 그룹 위치의 의미있는 요약이라고 가정합니다. 리 커트 아이템의 의미가 그룹간에 체계적으로 변할 때를 생각하는 것은 흥미 롭습니다. 물론이 문제는 Likert 항목을 넘어 주관적 측정 절차로 확장 될 수 있습니다.
Jeromy Anglim

8

해당 데이터 세트의 크기에 따라 가설 (및 정확한 CI)의 정확한 테스트를 제공 할 수 있다는 점에서 순열 테스트가 부트 스트랩보다 선호 될 수 있습니다.


4

IMHO 리 커트 척도에는 t- 검정을 사용할 수 없습니다. 리 커트 척도는 순서이며 변수 값의 관계에 대해서만 "인식"합니다. 예를 들어 "완전히 불만족"은 "어떻게 불만족"보다 나쁩니다. 반면에 t- 검정은 평균 등을 계산해야하므로 구간 데이터가 필요합니다. 리 커트 척도 점수를 구간 데이터에 매핑 할 수 있지만 ( "완전히 불만족"은 1 등임) "누군가 불만족"이 "어떻게 불만족"이 "어느 쪽도"에서 "어떻게 불만족"과 동일한 거리를 보장하지는 않습니다. 그런데 : "완전히 불만족"과 "어떻게 불만족"의 차이점은 무엇입니까? 결국, 서수 데이터의 코딩 된 값에 대해 t- 검정을 수행하지만 의미가 없습니다.


9
...하지만 여전히 일반적으로 수행됩니다. 리 커트 척도가 아닌 단일 리 커트 유형 항목을 사용하는 경우 지적해야 할 한 가지 사항입니다. 그 차이는 의미가 있습니다 (질문은 질문자가 리 커트 항목에 대해 이야기하고 있고 서수는 문제입니다). 리 커트 척도는 여러 리 커트 항목을 합산하거나 평균화 한 결과입니다. 이 방법은 서수 데이터가 실제로 서수 인 범위를 상쇄하고 구간 척도에있는 것으로 취급하는 것이 더 합리적으로 이루어 지도록 특별히 개발되었습니다.
russellpierce

3

설문지의 각 단일 항목이 서수이고 "강하게 동의"와 "동의"사이의 양적 차이가 "중도"와 동일한 지 여부를 알 수있는 방법이없는 경우이 점에 대해 이의를 제기 할 수 없다고 생각합니다. 강하게 동의하지 않음 "과"동의하지 않음 ", 왜 모든 서수 레벨 스케일의 합산이 실제 구간 레벨 데이터의 속성을 공유하는 값을 생성합니까?

예를 들어, 우울증 인벤토리의 결과를 해석하는 경우 점수가 "20"인 사람이 "점수가"인 사람보다 두 배나 우울하다고 말하는 것은 (적어도) 의미가 없습니다. 10 ". 설문지의 각 항목은 우울증 수준의 실제 차이를 측정하지 않고 (우울증이 안정적이고, 내적이며 유기적 인 장애라고 가정 할 때) 특정 진술에 대한 개인의 주관적인 평가 등급이기 때문입니다. "여러분의 기분이 1-4의 척도로, 1이 매우 우울하고, 4가 전혀 사용되지 않는다고 어떻게 말하겠습니까?" ? 또는 4와 3의 차이가 사람과 관련하여 3과 4의 차이와 같은지 어떻게 알 수 있습니까? s 현재 우울증 수준.이 중 어느 것도 알 수 없다면, 모든 서수 항목의 합을 구간 수준 데이터로 취급하는 것은 의미가 없습니다. 데이터가 정규 분포를 형성하더라도 모든 반응을 likert-item에 합산하여 계산 한 경우 점수 간의 차이를 구간 수준 데이터로 처리하는 것이 적절하지 않다고 생각합니다. 데이터의 정상적인 분포는 응답이 아마도 더 많은 인구를 대표한다는 것을 의미합니다. 재고로부터 얻은 값이 구간 수준 데이터의 중요한 특성을 공유한다는 것을 의미하지는 않습니다. t 모든 반응을 likert-item에 합산하여 계산 된 경우 점수 간의 차이를 구간 수준 데이터로 취급하는 것이 적절하다고 생각합니다. 데이터의 정상적인 분포는 응답이 아마도 더 많은 인구를 대표한다는 것을 의미합니다. 재고로부터 얻은 값이 구간 수준 데이터의 중요한 특성을 공유한다는 것을 의미하지는 않습니다. t 모든 반응을 likert-item에 합산하여 계산 된 경우 점수 간의 차이를 구간 수준 데이터로 취급하는 것이 적절하다고 생각합니다. 데이터의 정상적인 분포는 응답이 아마도 더 많은 인구를 대표한다는 것을 의미합니다. 재고로부터 얻은 값이 구간 수준 데이터의 중요한 특성을 공유한다는 것을 의미하지는 않습니다.

우리는 통계학을 사용하여 우리가 연구하고있는 잠재 변수에 대해 이야기하는 방법에 대해 행동 과학에서 조심해야합니다. 왜냐하면 이러한 가상의 구성을 측정하는 직접적인 방법이 없기 때문에, 그것들을 주제로 정량화하려고 할 때 중요한 문제가있을 것입니다. 파라 메트릭 테스트에. 다시 한 번, 일련의 응답에 값을 할당했다고해서 이러한 값 간의 차이가 의미가있는 것은 아닙니다.


1
항목 점수를 합산하는 것이 행복하다면 이미 서수 측정 수준 이상을 가정 한 것입니다. 엄밀히 말하면, 서수 측정법은 의미있게 추가되거나 평균화 될 수 없습니다 (우연히, Stevens는 그것에 대해 분명합니다). 일단 그렇게하면 결과 점수를 구간 수준 데이터로 취급하는 것이 완벽합니다.
갈라

0

비례 배당률 모델은 리 커트 항목 척도에 대해 t- 검정보다 낫습니다.


1
당신의 이유를 설명 하시겠습니까? 그러한 모델이 어떻게보다 정확한 관측 응답 모델을 제공하는지 알 수 있습니다. 그러나 내가 본 전형적인 실제 연구 상황에서, 연구원들은 두 그룹이 평균의 관점에서 다른지에 관심이 있습니다 (예를 들어, 훈련 그룹이 통제보다 더 높은 성과를 보였습니까; 학생 만족도는 1 년에서 다음 해까지 더 높았습니다) ). 비례 승산 비 모델은 내가 아는 한이 질문을 정확하게 테스트하지 않습니다.
Jeromy Anglim

0

비례 배당률 모델을 제시하고이 질문에 대한 답변이 2 개 이상 표시되어 있으므로이 맥락에서 비례 배당률 모델을 설명하려고합니다.

비례 배당 모델의 점수 테스트는 Wilcoxon 순위 합계 테스트와 같습니다.

보다 정확하게 말하면, 순서 결과에 대한 비례 배당 누적 로지스틱 회귀 모델 (McCullagh 1980)에서 단일이 분성 공변량의 영향에 대한 점수 검정 통계량은 Wilcoxon 순위 합계 검정 통계량과 같았습니다. ( 복잡한 샘플 조사 데이터에 대한 Wilcoxon Rank-Sum 테스트의 확장대한 증거 )

Wilcoxon 순위 합계 테스트와 마찬가지로이 테스트는 예상 값에 관계없이 두 개의 샘플이 다른 분포에서 추출되었는지 여부를 감지합니다.

Wilcoxon 순위 합계 테스트와 같이 예상 값이 다른 분포에서 두 표본을 추출했는지 여부 만 탐지하려는 경우에는이 검정이 유효하지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.