설문지에서 서수 데이터를 적절한 간격 데이터로 변환하는 방법은 무엇입니까?


13

서수 레벨 데이터를 간격 레벨로 변환 하는 간단한 방법이 있습니까 (다른 방법으로 수행하는 것처럼)? 그리고 Excel 또는 SPSS에서 수행 할 수 있습니까?

서수 수준에 대한 10 가지 질문 (예 : 0-5 척도, 0 = 전혀 아님), 5 = 항상 그렇습니다)을 가지고 데이터를 적절하게 취급 할 수 있도록 변환하고 싶습니다. 모수 테스트 목적을위한 구간 수준 데이터 (정규 분포, 문제가 아닌 비모수 테스트).

답변에 대단히 감사하겠습니다!


0-5 스케일에서 6, 7, 8, 9, 10의 값을 어떻게 가질 수 있습니까?
ttnphns

3
직접적으로 무엇을 의미합니까? 범주 형 변수를 미터법 척도로 변환하는 것은 간단한 작업이 아닙니다. IRT 모델과 같은 잠재적 변수 모델이 있으며, 특정 가정에 따라이를 수행 할 수 있습니다. 다른 방법은 최적의 스케일링입니다. 그러나이를 위해 R을 사용하여 기꺼이 가변 모델 또는 비선형 PCA와 같은 고급 통계를 탐구해야한다고 가정합니다. 괜찮습니까?
Momo

답변:


25

이 응답은 측정 관점 에서 가능한 모델에 대해 논의 할 것입니다 . 여기서 우리는 관찰 된 (매니페스트) 상호 관련 변수 또는 측정 값이 주어집니다. 공유 분산은 잘 식별되지만 직접 관찰 할 수없는 구조 (일반적으로, 잠복 변수 로 간주됩니다 . 잠재적 특성 측정 모델에 익숙하지 않은 경우 다음 두 기사를 추천합니다. Denny Borsbooom 의 심리학자의 공격Latent 변수 모델링 : 설문 조사 , Anders Skrondal 및 Sophia Rabe-Hesketh. 먼저 여러 반응 범주가있는 항목을 처리하기 전에 이진 표시기를 약간 살펴 봅니다.

서수 레벨 데이터를 구간 스케일로 변환하는 한 가지 방법은 일종의 항목 응답 모델 을 사용하는 것입니다 . 잘 알려진 예는 Rasch 모델입니다 .이 테스트는 병렬 테스트 모델의 아이디어를 고전 테스트 이론 에서 이진 점수 항목에 대처하기 위해 확장 합니다.주어진 항목을 보증 할 확률이 '항목 난이도'와 '개인 능력'의 함수 인 일반화 된 (로짓 링크가있는) 혼합 효과 선형 모델 (일부 '현대'소프트웨어 구현) 측정되는 잠복 형질에서의 위치와 동일한 로짓 척도에서의 아이템 위치 간의 상호 작용-추가 품목 식별 매개 변수 또는 개별 특성과의 상호 작용을 통해 포착 될 수 있음- 차등 항목 기능 이라고 함 ). 기본 구조는 일차원적인 것으로 가정되며, Rasch 모델의 논리는 응답자가 특정 '구조의 양'을 가지고 있다는 것입니다. 즉 피험자의 책임에 대한 이야기를하겠습니다.θθ

=766α=0.971[0.967;0.975]). 처음에는 각 항목에 대해 5 개의 응답 범주가 제안되었습니다 (1 = 'Never', 2 = 'Rarely', 3 = 'Sometimes', 4 = 'Often'및 5 = 'Always'). 여기서는 이진 점수 응답 만 고려할 것입니다.

여기에 이미지 설명을 입력하십시오
(여기서 리 커트 유형 항목에 대한 응답은 이진 응답 (1 / 2 = 0, 3-5 = 1)으로 코딩되었으며, 각 항목은 개인마다 똑같이 차별적이므로 항목 곡선 기울기 사이의 평행도 (Rasch 모델).)

엑스

들어 polytomous 항목 : 주문 범주, 몇 가지 선택이 있습니다 부분 신용 모델평가 척도 모델 , 또는 등급 응답 모델 , 이름을 할 수 있지만, 대부분의 응용 연구에 사용되는 몇 가지. 처음 두 가지는 IRT 모델의 소위 "Rasch 계열"에 속하며 다음과 같은 특성을 공유합니다. (a) 반응 확률 함수의 단 조성 (항목 / 범주 반응 곡선), (b) 총 개별 점수의 충분 성 (잠재적) (c) 고정 된 것으로 간주되는 매개 변수, (c) 지역 독립성 의미 항목에 대한 반응이 독립적이며, 잠복 특성에 따라 조건이 있으며, (d) 미분 항목 기능이 없음 잠복 특성에 따라 반응이 외부 개인별 변수 (예 : 성별, 연령, 민족성, SES)와 무관하다는 것을 의미합니다.

5 가지 반응 범주가 효과적으로 설명되는 경우로 이전 예를 확장하면, 환자는 불안 관련 장애에 대한 선행 요인없이 일반 모집단에서 샘플링 된 누군가에 비해 반응 범주 3 ~ 5를 선택할 확률이 더 높습니다. 위에서 설명한 이분법 항목의 모델링과 비교하여,이 모델은 누적 (예 : 응답 3 대 2 이하) 또는 인접 범주 임계 값 (응답 3 대 2의 확률)을 고려하며, 이는 또한 Agresti의 범주 에서 설명합니다. 데이터 분석(12 장). 앞서 언급 한 모델들 사이의 주요 차이점은 하나의 응답 범주에서 다른 응답 범주로의 전환이 처리되는 방식에 있습니다. 등급 척도 모델과 달리 품목 전체에 균일합니다. 이 모델들 사이의 또 다른 미묘한 차이점은 일부 모델 (제한되지 않은 채점 응답 또는 부분 신용 모델과 같은)이 품목간에 불균등 한 차별 매개 변수를 허용한다는 것입니다. 자세한 내용 은 Reeve and Fayers에 의한 설문 항목 및 스케일 속성 평가를위한 항목 응답 이론 모델링 적용 또는 Frank B. Baker 의 항목 응답 이론의 기초 를 참조하십시오.

앞의 경우에서 이분법으로 점수가 매겨진 항목에 대한 반응 확률 곡선의 해석에 대해 논의 했으므로 동일한 대상 항목을 강조 표시하여 등급이 지정된 응답 모델에서 파생 된 항목 반응 곡선을 살펴 보겠습니다.

여기에 이미지 설명을 입력하십시오
(제한되지 않은 채점 된 반응 모델로, 항목간에 불평등 한 차별이 가능합니다.)

여기서는 다음 사항을 고려해야합니다.

  • [2;2.5]
  • 수면 장애는 드문 일이 아니지만 수면의 질을 평가하는 항목과 더 심각한 상태를 평가하는 항목 사이에서 왼쪽에서 오른쪽으로 전체적으로 이동합니다. 결국, 일반 인구의 사람들조차도 건강 상태와 상관없이 잠들기가 어려울 수 있으며 심하게 우울하거나 불안한 사람들은 그러한 문제를 일으킬 가능성이 있습니다. 그러나 '정상적인 사람들'(이것이 의미가 있다면)은 공황 장애의 징후를 보이지 않을 것입니다 (중간 범위 이상 또는 잠복 한 특성에있는 사람들의 경우 가장 높은 반응 범주를 선택할 확률은 0입니다, [ 0; 1]).

θ

진정한 측정 모델 로 생각되는 것 외에도 Rasch 모델을 매력적으로 만드는 것은 충분한 점수로 합 점수를 잠복 점수의 대리자로 사용할 수 있다는 것입니다. 또한, 충분 성 속성은 모델 (사람 및 항목) 매개 변수의 분리 가능성을 쉽게 암시합니다 (다항 항목의 경우 모든 항목 응답 범주 수준에서 모든 항목이 적용됨을 잊어서는 안 됨).

R 구현을 통한 IRT 모델 계층 구조에 대한 좋은 검토는 Journal of Statistical Software : Publication Rasch Modeling : R에서 IRT 모델 적용을위한 eRm 패키지에 실린 Mair and Hatzinger의 기사에서 볼 수 있습니다 . 다른 모델에는 로그 선형 모델 , Mokken 모델 과 같은 비모수 적 모델 또는 그래픽 모델이 포함 됩니다.

R 외에도 Excel 구현에 대해서는 잘 모르지만 몇 가지 통계 패키지가이 스레드에서 제안되었습니다. 항목 응답 이론을 적용하는 방법과 사용할 소프트웨어는 무엇입니까?

마지막으로, 측정 모델에 의존하지 않고 항목 세트와 응답 변수 간의 관계를 연구하려는 경우 최적 스케일링을 통한 일부 형태의 가변 양자화 도 흥미로울 수 있습니다. 이러한 스레드에서 논의 된 R 구현 외에도 SPSS 솔루션도 관련 스레드에서 제안되었습니다 .

참고 문헌

  1. Pilkonis, P., Choi, S., Reise, S., Stover, A. and Riley, W. et al. (2011). 환자보고 결과 측정 정보 시스템 (PROMIS)에서 감정적 고통을 측정하기위한 품목 은행 : 우울증, 불안 및 분노 . 평가 , 18 (3), 263–283.
  2. Choi, S., Gibbons, L. and Crane, P. (2011). lordif : 반복 하이브리드 서수 로지스틱 회귀 / 항목 응답 이론 및 몬테 카를로 시뮬레이션을 사용하여 미분 항목 기능을 탐지하기위한 R 패키지 . 통계 소프트웨어 저널 , 39 (8).

@Momo 감사합니다. 궁금합니다. 답변을하면서 (그리고 오늘이 답장을 수정하는 동안), 나는 당신의 의견을 알아 차리지 못했습니다. 제발, 당신이 맞는 곳에서 제 답변을 자유롭게 편집하십시오.
chl

3

Alan Agresti는 자신의 저서 서수 범주 데이터 분석에서 몇 가지를 다룹니다. 그중 하나는 탈퇴입니다 . 블로그에서 토론합니다 .


1
좀 더 설명해 주시겠습니까? 처음에는 서수 데이터를 간격 데이터로 객관적으로 변환한다고 주장하는 방법이 마술처럼 보일 것입니다. 중요한 것. 또한 서수 범주 사이의 거리에 대한 사전 개념 이 필요한 것처럼 보입니다. 어디에서 오는가?
매크로

공식은 블로그 게시물에 있으며 Agresti의 책에서 전체 토론이 이루어 지지만 기본적으로 데이터를 사용하여 "평균 누적 비율"을 만든 다음 점수로 사용합니다. 거리는 범주 자체의 것이 아니라 각 반응의 비율에서 비롯됩니다.
Peter Flom-Monica Monica 복원

2
+1. 릿 트는 분수 이하 + (1/2) 분수 같음으로 쉽게 설명됩니다. 따라서, 1, 2, 3, 4, 5가 0.2, 0.4, 0.2, 0.1, 0.1의 분수 또는 확률을 관찰하면, 1의 제거는 0.1이고; Ridits는 범주를 대칭 적으로 처리하며 결과적으로 분수보다 적거나 분수보다 적거나 0 또는 1을 포함 할 가능성이 적으며, 이는 종종 어색합니다.
Nick Cox

ridit 이라는 이름 자체는 Bross (주 : 참조가 필요함)가 간절히 의도 한 것으로 추정되는 설명은 횡설수설입니다. 더 나은 이름은 중간 분포 함수 (Parzen 1993)와 등급 함수 Haberman (1996)입니다. Haberman, SJ 1996. 고급 통계량 I : 인구 설명 . 뉴욕 : 스프링거. Parzen, E. 1993. PP plot 및 연속 샘플 Quantile 기능 변경. 통계 커뮤니케이션-이론 및 방법 22 : 3287-3304.
Nick Cox

1
Ridits 자체는 예를 들어 normal 또는 Gaussian Quantile 함수를 통해 푸시 될 수 있습니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.