서수 또는 구간 데이터에 대한 평가자 간 신뢰도


25

서수 또는 구간 데이터에 가장 적합한 평가자 간 신뢰도 방법은 무엇입니까?

"공동 계약 가능성"또는 "카파"는 명목 데이터 용으로 설계되었다고 생각합니다. "Pearson"및 "Spearman"을 사용할 수 있지만 주로 두 개의 평가자에 사용됩니다 (두 개 이상의 평가자에 사용할 수 있음).

서수 또는 구간 데이터 (예 : 세 개 이상의 평가자)에 적합한 다른 측정 방법은 무엇입니까?

답변:


29

Kappa ( ) 통계량은 명목 또는 순서 척도에서 두 평가자 간의 관찰 된 동의를 우연히 예상되는 동의 (평가자가 던지는 것처럼)와 비교하는 품질 지수입니다. 여러 평가자에 대한 확장이 존재합니다 (2, pp. 284–291). 서수 데이터 의 경우 가중 사용할 수 있습니다. 가중 는 기본적으로 일치하는 측정에 기여하는 비 대각선 요소를 가진 보통 로 읽습니다 . Fleiss (3)는 값 을 해석하기위한 지침을 제공 했지만 이것들은 단지 엄지 손가락의 규칙 일뿐입니다.κ κ κκ κκκ

통계는 양방향 랜덤 효과 ANOVA에서 추정 한 ICC에 점근 적으로 동일하지만 의미 테스트 및 SE는 보통 ANOVA 프레임 워크에서 오는 바이너리 데이터에 더 이상 유효하지 않습니다. 신뢰 구간 (CI)을 얻으려면 부트 스트랩을 사용하는 것이 좋습니다. Fleiss (8)는 가중 카파와 클래스 내 상관 관계 (ICC) 간의 관련성을 논의했습니다.κ

일부 심리학자들은 예측 값이 고려중인 질병의 유병률에 의해 영향을받는 것과 매우 유사하게 측정 대상의 유병률에 의해 영향을 받기 때문에 별로 좋아하지 않으며 , 이는 역설적 결과를 초래할 수 있습니다.κ

평가자에 대한 평가자 간 신뢰도는 Kendall의 일치 계수 로 추정 할 수 있습니다 . 경우 평가 항목 또는 단위의 수 , . (269-270 페이지). 이 점근 적 근사값은 중간 값 유효합니다.W N > 7 K ( N - 1 ) W ~ χ (2) ( N - 1 ) NkWn>7k(n1)Wχ2(n1)nkFρWW

Polychoric (연산 데이터) 상관 관계는 또한 평가자 간 일치의 척도로 사용될 수 있습니다. 실제로 그들은

  • 등급을 지속적으로 평가 한 경우 상관 관계를 추정 할 수 있습니다.
  • 평가자 간의 한계 균질성을 테스트합니다.

실제로, 이것은 잠복 형질 모델링의 특별한 경우이며, 분포 가정을 완화시킬 수 있음을 보여줍니다 (4).

정보 연속 (또는 그렇게 간주) 측정치 사이 피사체의 변화에 기인하는 편차의 비율을 정량화 ICC 괜찮다. 다시 부트 스트랩 CI를 사용하는 것이 좋습니다. @ars가 말한 것처럼 기본적으로 계약 연구의 경우에 적용 할 수있는 계약과 일관성의 두 가지 버전이 있으며 (5) 주로 제곱합 계산 방식이 다릅니다. "일관성"ICC는 일반적으로 Item × Rater 상호 작용을 고려하지 않고 추정됩니다. ANOVA 프레임 워크는 등급 수 ( BIBD ) 를 최소화하려는 특정 블록 설계에 유용합니다 . 실제로 이것은 Fleiss의 작업의 원래 동기 중 하나였습니다. 또한 여러 평가자 에게가는 가장 좋은 방법입니다. 이 접근법의 자연스런 확장을 일반화 이론 이라고합니다 . 간략한 개요는 Rater Models : Introduction 에 나와 있습니다. 그렇지 않으면 표준 참조는 Brennan의 책이며 Psychometrika 2006 71 (3) 에서 검토됩니다 .

일반적인 참고 자료로 는 Graham Dunn (Hodder Arnold, 2000)의 Psychiatry Statistics 3 장을 추천 한다. 신뢰성 연구의보다 완전한 치료를 위해, 날짜에 대한 가장 좋은 참조는

Dunn, G (2004). 신뢰성 연구의 설계 및 분석 . 아놀드. International Journal of Epidemiology 의 검토를 참조하십시오 .

John Uebersax의 웹 사이트, Intraclass Correlation and Related Methods 에 온라인 소개 자료가 있습니다 . 여기에는 특히 서수 척도와 관련하여 ICC 접근법의 장단점에 대한 논의가 포함됩니다.

양방향 평가 (일반 또는 연속 측정)를위한 관련 R 패키지는 Psychometrics Task View에 있습니다. 나는 일반적으로 psy , psych 또는 irr 패키지를 사용합니다. 거기이기도 콩코드 패키지는하지만 난 그것을 사용하지 않았다. lme4 패키지는 둘 이상의 평가자를 처리 하기 위해 임의의 효과를 쉽게 통합 할 수있는 방법이지만 aov()분산 성분 만 추정 하면 되기 때문에 대부분의 안정성 설계를 사용하여 분석 할 수 있습니다 .

참고 문헌

  1. J 코헨 가중 kappa : 부분 신용의 스케일 불일치에 대한 규정과 명목 스케일 계약. 심리 게시판 , 70 , 213–220, 1968.
  2. S Siegel과 Jr N John Castellan. 행동 과학에 대한 비모수 통계 . 맥그로 힐, 1988 년 제 2 판.
  3. JL Fleiss. 요금 및 비율에 대한 통계적 방법 . 뉴욕 : Wiley, 1981 년 제 2 판.
  4. JS Uebersax. 테트라 코릭 및 폴리 코릭 상관 계수 . Rater Agreement 웹 사이트 2006 년 통계 방법. http://john-uebersax.com/stat/tetra.htm 에서 구할 있습니다. 2010 년 2 월 24 일에 액세스 함.
  5. PE Shrout 및 JL Fleiss. 클래스 내 상관 관계 : 평가자 안정성 평가에 사용합니다 . 심리 게시판 , 86 , 420-428, 1979.
  6. MG Kendall과 B Babington Smith. m 순위의 문제 . 수학 통계 연보 , 10 , 275–287, 1939.
  7. P 레전드. 일치 계수 . NJ Salkind에서 Research Design의 백과 사전 편집자 . 세이지 출판물, 2010.
  8. JL Fleiss. 신뢰도 척도 인 가중 카파와 클래스 내 상관 계수의 동등성 . 교육 및 심리 측정 , 33 , 613-619, 1973.

3
세 가지 추가 참고 자료 : 1. Kappa를 넘어서 : Mousumi Banerjee, Michelle Capozzoli, Laura McSweeney 및 Debajyoti Sinha 의 평가자 평가 조치 검토 2. 평가자의 신뢰도 및 성능 평가 동의 : John W. Fleenor, Julie B. 의 방법 론적 비교 Fleenor & William F. Grossnickle
M. Tibbits

3. 스포츠 의학과 관련된 변수의 측정 오차 (신뢰도)를 평가하기위한 통계적 방법. Atkinson G & Nevill AM. 첫 번째 참조는 서수 데이터에만 해당되며 서수 데이터에 대한 카파 이외의 다른 측정 방법에 대해서도 설명합니다. 두 번째와 세 번째는 간격 데이터에만 해당됩니다.
M. Tibbits

(+1) 대단히 감사합니다. 티비 츠! 나는 일반적으로 당신이 처음 인용 한 것을 포함하여 심리학 강의 중에 많은 참고 문헌과 예를 제공하지만 다른 두 사람은 몰랐습니다.
chl

또한 순서 패키지는 lme4와 같은 다중 레벨 모델링을 허용하지만 순서 회귀 분석을 허용합니다.
John

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.