의문:
시험 문제에 대한 이진 데이터가 있습니다 (정확한 / 잘못된). 일부 개인은 사전에 일부 질문과 정답에 액세스했을 수 있습니다. 나는 누가, 얼마나, 또는 어느 것을 모른다. 어떤 부정이 없다면, I는 항목에 대한 정답 확률을 모델링하는 것이 생각 대로 L O g I t는 ( ( p는 난 = 1 | Z ) ) = β I + Z , β 나 질문 어려움 나타내고 Z를개인의 잠재 능력입니다. 이 LTM의 RASCH 같은 기능을 추정 할 수있는 매우 간단한 항목 응답 모델 ()는 추정에 R.에서의 추가 Z의 J ( J의 잠재 변수의 인덱스 개인), I는 별도의 추정에 액세스 할 수있는 Q의 J를 부정 행위가 불가능한 다른 데이터 세트에서 파생 된 동일한 잠재 변수의
목표는 부정 행위했을 가능성이있는 개인과 자신이 속인 항목을 식별하는 것입니다. 어떤 접근법을 취할 수 있습니까? 원시 데이터 , Z , J 및 Q의 J 처음 두 의한 부정 행위에 약간의 바이어스를 가질지라도, 모든 가능하다. 이상적으로는 솔루션이 확률 적 군집 / 분류의 형태로 제공되지만 이것이 반드시 필요한 것은 아닙니다. 실용적인 아이디어는 공식적인 접근 방식과 마찬가지로 매우 환영합니다.
지금까지, 나는 더 높은 대 낮은 개인의 쌍에 대한 질문 점수의 상관 관계를 비교 한 Q의 J - Z J의 (점수 Q의 J - Z의 j는 그들이 사기 확률의 거친 인덱스입니다). 예를 들어, 내가 의한 개인 분류 Q의 J - Z J를 하고 개인의 문제 점수의 연속 쌍의 상관 관계를 꾸몄다. 또한 개인 점수의 평균 상관하려 시도 Q J를 - Z J를값이보다 더 컸다 의 분위수 q 개의 J - Z J 의 함수로서, N . 두 가지 접근 방식에 대한 명확한 패턴은 없습니다.
최신 정보:
@SheldonCooper의 아이디어와 @whuber가 지적한 유용한 Freakonomics 논문 을 결합했습니다. 다른 아이디어 / 의견 / 비평은 환영합니다.
하자 대상자의 J 문제에의 진 점수 난을 . 품목 반응 모델 l o g i t ( P r ( X i j = 1 | z j ) = β i + z j를 추정합니다 . 여기서 β i 는 품목의 용이성 매개 변수이고 z j 는 잠재적 능력 변수입니다. 복잡한 모델을 대체 할 수 있습니다. 응용 프로그램에서 2PL을 사용하고 있습니다.) 원래 게시물에서 언급했듯이 추정치가 있습니다.
내가 시도한 추가 단계는 가장 가능성이 낮은 사람 (즉, 정렬 된 p_j 값의 가장 낮은 r %를 가진 사람)의 r %를 가져 와서 관찰 점수 x_j 사이의 평균 거리를 계산하는 것입니다 (r이 낮은 사람과 관련이 있어야합니다. 가능한 사기꾼입니다), r = 0.001, 0.002, ..., 1.000에 대해 플로팅합니다. r = 0.001에서 r = 0.025에 대한 평균 거리가 증가하고 최대 값에 도달 한 다음 r = 1에서 최소값으로 천천히 감소합니다.