항목 반응 이론을 적용하는 방법과 사용할 소프트웨어는 무엇입니까?


21

문맥

나는 아이템 반응 이론에 대해 읽었으며, 그것이 매력적이라고 ​​생각합니다. 나는 기본을 이해한다고 믿지만 지역과 관련된 통계적 기법을 적용하는 방법이 궁금합니다. 다음은 ITR을 적용하고자하는 분야와 유사한 두 가지 기사입니다.

두 번째는 실제로이 시점에서 확장하고 싶은 것입니다.

jMetrik이라는 무료 프로그램을 다운로드했는데 제대로 작동하는 것 같습니다. IRT가 진행되는 한 그것이 너무 기본적이라고 생각하지만 확실하지 않습니다.

"가장 좋은"방법은 R을 배우는 것과 관련이있을 것입니다. 그러나 나는 그 학습 곡선을 다루는 데 시간을 할애 할 수 있는지 모른다. 우리는 소프트웨어를 구매할 자금이 있지만, 제가 아는 바로는 훌륭한 IRT 프로그램이없는 것 같습니다.

질문

  • jMetrik의 효과에 대한 당신의 생각은 무엇입니까?
  • IRT 신청을 계속할 것을 어떻게 제안 하시겠습니까?
  • IRT를 적용하기위한 최고의 프로그램은 무엇입니까?
  • IRT를 정기적으로 사용하는 사람이 있습니까? 그렇다면 어떻게?

1
현재 어떤 소프트웨어를 사용하고 있습니까?
StasK

jMetrik을 사용하고 있습니다. 그것은 매우 새롭고 내가 좋아하는 많은 일을하고 있습니다!
Behacad

2
스크립트 모드에서 작동합니까? GUI 만있는 경우 결과를 재현하기가 매우 어려워집니다. 스크립트 모드는 심각한 소프트웨어의 필수 요소입니다.
StasK

답변:


22

IRT를 시작하기에 좋은 출발점으로 항상 아이템 반응 이론에 대한 시각적 가이드를 읽는 것이 좋습니다 .

사용 가능한 소프트웨어에 대한 조사는 www.rasch.org 에서 찾을 수 있습니다 .

내 경험상 Raschtest (및 관련) Stata 명령이 원-파라미터 모델에 관심이있는 대부분의 경우에 매우 편리 하다는 것을 알았습니다 . 보다 복잡한 디자인을 위해 GLLAMM을 사용할 수 있습니다 . De Boeck and Wilson의 저서, 설명 항목 및 응답 모델 (Springer, 2004)을 기반으로 한 좋은 예제가 있습니다.

특히 R에 대해서는 지난 5 년 동안 사용 가능한 많은 패키지가 있습니다 (예 : 관련 CRAN 작업보기 참조) . 그들 대부분은에서 설명 특별한 문제통계 소프트웨어의 저널 (권. 20, 2007). 다른 응답에서 논의 된 바와 같이, ltmeRm 은 광범위한 IRT 모델에 적합합니다. 그들은 서로 다른 추정 방법에 의존 ltm하기 때문에 한계 접근 방식을 eRm사용하고 조건부 접근 방식을 사용합니다. 둘 중 하나를 선택하는 것은 주로 원하는 모형의 문제입니다 (eRm 2- 파라미터 또는 3 파라미터 모델에 적합하지 않음) 및 다음과 같은 측정 목표 : 개인 매개 변수의 조건부 추정에는 몇 가지 훌륭한 심리학 적 특성이 있지만 한계 접근 방식을 사용하면 다음 두 논문에서 논의 된 것처럼 혼합 효과 모델로 쉽게 전환 할 수 있습니다 :

MCMC 방법을 사용하여 Rasch 모델에 적합 할 수도 있습니다 (예 : MCMCpack 패키지 (또는 WinBUGS / JAGS) , BUGS Code for Item Response Theory , JSS (2010) 36 참조).

SAS에 대한 IRT 모델링 경험이 없으므로 SAS 프로그래밍에 정통한 사람에게이를 알려 드리겠습니다.

기타 교육용 소프트웨어 (주로 교육 평가에 사용)에는 RUMM, Conquest, Winsteps, BILOG / MULTILOG, Mplus ( wikipedia에서 이미 사용 가능한 목록을 인용하지 않음 )가 포함됩니다. 무료로 사용할 수는 없지만 시간 제한 데모 버전이 제안됩니다. 내가 발견 jMetrik은 내가 (1 년 전)을 시도 할 때 매우 제한, 모든 기능이, 마찬가지로 R. 이미 사용할 수있는 ConstructMap가 안전하게으로 대체 될 수 lme4 에 도시 된 바와 같이, 유인물 위의 링크. 나는 또한 mdltm본 Davier와 coll.에 의한 혼합 Rasch 모델에 대한 (Multidimensional Discrete Latent Trait Models)을 언급해야한다 .다변량 및 혼합 분포 Rasch 모델 (Springer, 2007).


환상적인! 매우 포괄적 인 답변에 감사드립니다! 이 두 가지 답변 모두 나에게 도움이 될 것입니다. jMetrik을 다시 살펴보고 나에게 당신의 생각을 알려주십시오. 현재 Rasch 모델링, ICC 곡선, 일부 IRT 곡선, IRT 동일화 (1PT, 2PT, 3PT 모델) 등이 있습니다.
Behacad

업데이트 된 버전을 살펴 보겠습니다. 그러나 솔직히 @Stask가 말한 것은 매개 변수 추정 및 시각적보고 이외의 심각한 작업을 계획하고 있다면 기억할 가치가 있습니다. 내가 의미하는 바를 이해하려면 R의 응용 프로그램을 사용한 심리 이론 소개를 참조하십시오 . (이것은 일부 사람들이 "현대적인"심리 측정이라고 부르는 것 이상을 다루고 있습니다.)
chl

@chi-lplus를 사용하여 R에서 IRT 분석을 실행할 때 Mplus와 Multilog에서 동일한 분석을 실행했을 때 (Mplus와 Multilog에서 분석이 동일한 경우)와 비교하여 매우 다른 결과를 얻었습니다. ltm의 저자와 함께 이유를 알아 내려고 시도했지만 아무런 응답도받지 못했습니다. 다른 소프트웨어 패키지의 불일치 결과에 대해 비슷한 경험이 있습니까?
Tormod

ex5.5θβ나는나는=1,,케이=1,,β나는θ그것은 모델링되고, 추정 방법 (marginal vs. conditional likelihood)과 임계 값이 중심인지 아닌지에 대한 2+ 모수 모델에 대한 것입니다.
chl

@chi-답변이 늦어 져 죄송합니다. 귀하의 의견을 찾지 못했습니다. 이것이 여전히 관련이 있는지는 모르지만 차별 매개 변수 (a)의 차이는 0.184-1.429입니다. 예를 들어, Mplus는 a = 5.084를, ltm은 같은 항목에 a = 3.655를 주었다. 전반적으로 ltm은 mplus보다 작은 a를 주었다. (멀티 로그에서 동일한 분석을 실행하면 a가 Mplus의 a에 해당합니다). b는 더 비슷했다.
Tormod

8

첫 번째 질문에는 jMetrick에 대한 정보가 없습니다.

다른 통계 절차와 마찬가지로 IRT를 적용 할 때 첫 번째 단계는 가능한 한 많은 종류의 데이터와 함께 IRT를 사용하는 것입니다. 학습 곡선이 있지만 그만한 가치가 있다고 생각합니다.

IRT의 중요한 특징 중 하나는 Rasch 모델과 IRT 모델의 차이점입니다. 그것들은 다른 목적으로 다른 사람들에 의해 개발되었습니다. IRT 모델은 Rasch 모델의 상위 집합입니다.

Rasch 모델은 하나의 매개 변수 모델입니다. 설문지의 모든 항목이 잠재적 특성을 똑같이 예측한다고 가정합니다.

그러나 IRT 모델은 참가자의 능력에 대한 정보를 제공 할 수있는 능력에있어서 질문이 다를 수있는 두 개의 매개 변수 모델입니다.

또한, IRT 모델과 비슷한 3 가지 매개 변수 모델이 있습니다. 단, 추측 매개 변수가 참가자에게 우연히 정답을 얻을 수있는 능력을 설명 할 수 있다는 점을 제외하고는 (개인성 테스트보다는 능력에 더 큰 관심사입니다).

또한 여러 잠재 능력을 한 번에 추정하는 다차원 IRT가 있습니다. 나는 이것에 대해 많이 알지 못하지만 더 배우려고하는 분야입니다.

이분법과 다원성 IRT 방법에는 차이가 있습니다. 이분법적인 IRT 모델은 옳고 그른 답을 가진 능력 테스트에 사용되는 모델입니다. 다항 IRT 모델은 여러 정답이있는 성격 테스트에 사용됩니다 (정답이 없다는 의미에서 동일).

나는 개인적으로 항목 반응 이론에 R을 사용합니다. 내가 사용한 두 가지 주요 패키지가 있는데,이 패키지는 eRmRasch 모델에만 ltm적합하고 항목 응답 이론 모델에 적합합니다 (2 및 3 개의 매개 변수 모델). 둘 다 비슷한 기능을 가지고 있으며 이분법적인 IRT 모델에 더 많은 루틴을 제공합니다. R이 IRT에 "최고"인지는 모르겠지만, 수많은 IRT 모델을 모두 사용할 수는 없지만 이러한 모델을 비교적 쉽게 프로그래밍 할 수 있다는 점에서 가장 확장 성이 뛰어납니다.

나는 R에서 다항 모델에 거의 독점적으로 IRT를 사용합니다. 나는 일반적으로 비모수 적 IRT 방법 (패키지에 제공 mokken)을 사용하여 가정을 테스트 한 다음 rasch 모델로 진행하여 적합도를 얻는 데 필요한 복잡성을 더합니다.

다차원 IRT의 경우,이 기능을 제공하는`mirt '패키지가 있습니다. 나는 그것을 사용하지 않았으므로 실제로 의견을 말할 수 없습니다.

당신이 경우하면 '네트 ( "패키지 이름")'기능은 다음 (위해 확실히 유용한 네트를 받아야 R에이 패키지를 설치하고 전화 eRmmokken당신을 위해 유용 할 수있는 다른 사람에 대한 가능성을 ()의 수준에 따라 수학적 정교함).

마지막으로 rasch 및 irt 모델에 사용할 수있는 좋은 책이 많이 있습니다. 심리학자를위한 항목 반응 이론 이 자주 사용되며 (스타일은 마음에 들지 않았지만) 기술적 정교함을 더욱 발전시키는 데에는 두 가지 매우 포괄적이고 유용한 교과서 인 현대 항목 반응 이론 핸드북Rasch 모델이 있습니다. 개발 및 응용 .

이게 도움이 되길 바란다.


고맙습니다! 대단히 감사합니다. 또한이 분야에 대한 지식이있는 사람이 있으면 소프트웨어 옵션에 대한 자세한 내용을 듣고 싶습니다.
Behacad

3

jMetrik은 생각보다 강력합니다. 연구원이 단일 통합 프레임 워크에서 여러 절차를 필요로하는 운영 작업을 위해 설계되었습니다. 현재 Rasch, 부분 신용 및 등급 척도 모델에 대한 IRT 매개 변수를 추정 할 수 있습니다. 또한 Stocking-Lord, Haebara 및 기타 방법을 통해 IRT 스케일 연결을 허용합니다. 통합 데이터베이스가 포함되어 있기 때문에 데이터 파일을 재구성 할 필요없이 IRT 추정 결과를 스케일 링크에 사용할 수 있습니다. 또한 모든 출력은 데이터베이스에 저장하여 jMetrik의 다른 방법이나 R과 같은 외부 프로그램과 함께 사용할 수 있습니다.

GUI 대신 스크립트를 사용하여 실행할 수도 있습니다. 예를 들어, 다음 코드는 (a) 데이터베이스로 데이터를 가져오고 (b) 응답 키를 사용하여 항목에 점수를 매기고 (c) Rasch 모델 매개 변수를 추정하고 (d) 데이터를 CSV 파일로 내 보냅니다. 추가 분석을 위해 최종 출력 파일을 R에 입력으로 사용하거나 R을 사용하여 jMetrik 데이터베이스에 직접 연결하여 결과를 처리 할 수 ​​있습니다.

#import data into database
import{
     delimiter(comma);
     header(included);
     options(display);
     description();
     file(C:/exam1-raw-data.txt);
     data(db = testdb1, table = EXAM1);
}

#conduct item scoring with the answer key
scoring{
     data(db = mydb, table = exam1);
     keys(4);
     key1(options=(A,B,C,D), scores=(1,0,0,0), variables=  (item1,item9,item12,item15,item19,item21,item22,item28,item29,item30,item34,item38,item42,item52,item55));
     key2(options=(A,B,C,D), scores=(0,1,0,0), variables=(item4,item6,item16,item18,item24,item26,item32,item33,item35,item43,item44,item47,item50,item54));
     key3(options=(A,B,C,D), scores=(0,0,1,0), variables=(item3,item5,item7,item11,item14,item20,item23,item25,item31,item40,item45,item48,item49,item53));
     key4(options=(A,B,C,D), scores=(0,0,0,1), variables=(item2,item8,item10,item13,item17,item27,item36,item37,item39,item41,item46,item51,item56));
}

#Run a Rasch models analysis.
#Item parameters saved as database table named exam1_rasch_output
#Residuals saved as a databse table named exam1_rasch_resid
#Person estimates saved to original data table. Person estimate in variable called "theta"
rasch{
     center(items);
     missing(ignore);
     person(rsave, pfit, psave);
     item(isave);
     adjust(0.3);
     itemout(EXAM1_RASCH_OUTPUT);
     residout(EXAM1_RASCH_RESID);
     variables(item1, item2, item3, item4, item5, item6, item7, item8, item9, item10, item11, item12, item13, item14, item15, item16, item17, item18, item19, item20, item21, item22, item23, item24, item25, item26, item27, item28, item29, item30, item31, item32, item33, item34, item35, item36, item37, item38, item39, item40, item41, item42, item43, item44, item45, item46, item47, item48, item49, item50, item51, item52, item53, item54, item55, item56);
     transform(scale = 1.0, precision = 4, intercept = 0.0);
     gupdate(maxiter = 150, converge = 0.005);
     data(db = testdb1, table = EXAM1);
}

#Export output table for use in another program like R
export{
     delimiter(comma);
     header(included);
     options();
     file(C:/EXAM1_RASCH_OUTPUT.txt);
     data(db = testdb1, table = EXAM1_RASCH_OUTPUT);
}

이 소프트웨어는 아직 초기 개발 단계에 있습니다. 현재 탐색 요소 분석 및 고급 항목 응답 모델을 추가하고 있습니다. 다른 많은 IRT 프로그램과 달리 jMetrik은 오픈 소스입니다. 모든 측정 절차는 현재 GitHub ( https://github.com/meyerjp3/psychometrics )에서 제공되는 psychometrics 라이브러리를 사용합니다 . 기여에 관심이있는 사람은 누구나 환영합니다.


0

여기에 광범위한 질문 목록이 있지만 많은 연구원들과 관련이 있습니다!

귀하의 상황이 요구 사항을 충족하는 경우에만 IRT로 진행하는 것이 좋습니다. 예를 들어, 사용하는 테스트 유형에 가장 적합하며 필요한 샘플 크기가 가장 중요합니다. 이분법 적 객관식 데이터의 경우 3PL 모델 ( "객관적인 측정"의 Rasch 논증은 놀랍도록 압축 해제되지 않음)을 권장하며 일반적으로 최소 표본 크기는 500-1000입니다. 진술에 대한 Y / N 응답이있는 심리 조사와 같은 추측없이 이분법적인 데이터는 2PL과 잘 작동합니다. 등급 척도 또는 부분 신용 데이터가있는 경우 해당 상황을 위해 특별히 설계된 다원 모델이 있습니다.

IRT를 적용하기위한 최고의 프로그램 인 IMHO는 Xcalibre입니다. 비교적 사용자 친화적이며 (단순한 GUI 및 원하는 경우 일부 명령 행 배치 유형) 읽기 쉬운 출력을 생성합니다 (광범위한 표와 그림이있는 MS Word 보고서). 반대의 이유로 R을 사용하지 않는 것이 좋습니다. 물론 단점은 공짜가 아니라는 점에 따라 비용을 지불하는 경향이 있다는 것입니다. 자세한 설명, 예제 출력 및 무료 평가판은 www.assess.com 에서 볼 수 있습니다 .


"객관적 측정"sensu Rasch (또는보다 정확하게 객관적인 비교 가능성)에 대한 논증이 왜 눈에 띄지 않는 이유인지에 대해 자세히 설명 하시겠습니까?
Momo

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.