질문을 적절하게 구성하고 유용한 점수의 개념적 모델을 채택하는 것이 중요합니다.
질문
잠재적 부정 행위 임계 값 (예 : 55, 65 및 85)은 데이터와는 독립적으로 선험적 으로 알려져 있습니다. 데이터에서 결정할 필요는 없습니다. (이는 이상치 탐지 문제 나 분포 적합 문제가 아닙니다.)이 임계 값보다 작은 점수 (일부는 아님)가 해당 임계 값 (또는 아마도 임계 값 이상)으로 이동했다는 증거를 평가해야합니다.
개념적 모델
개념적 모델의 경우 점수가 정규 분포 (또는 쉽게 매개 변수화 된 다른 분포) 를 가질 가능성이 없다는 것을 이해하는 것이 중요합니다 . 게시 된 예제와 원본 보고서의 다른 모든 예제에서 그 사실을 분명히 알 수 있습니다. 이 점수는 학교의 혼합을 나타냅니다. 학교 내 분포가 정상이더라도 (그렇지 않은 경우), 혼합물은 정상이 아닐 수 있습니다.
간단한 접근 방식은 진정한 점수 분포가 있음 을 인정합니다.이 특정 부정 행위를 제외하고는 보고 됩니다. 따라서 비모수 설정입니다. 너무 광범위 해 보이지만 실제 데이터에서 예상하거나 관찰 할 수있는 점수 분포의 특징이 있습니다.
점수 , i 및 는 와 밀접하게 상관 됩니다.i−1i1 ≤ I ≤ 99i+11≤i≤99
이상적인 점수 매기기 버전의 주위에 이러한 개수에 변화가있을 것입니다. 이러한 변형은 일반적으로 개수의 제곱근과 같은 크기입니다.
임계 값 기준으로 부정 행위 는 점수 의 수에 영향을 미치지 않습니다 . 그 효과는 각 점수의 수 (속임수의 영향을받는 "위험에 처한 학생"수)에 비례합니다. 이 임계 값 미만의 점수 경우, 계수 는 일부만큼 감소 하고이 양은 추가됩니다 .i ≥ t i c ( i ) δ ( t − i ) c ( i ) t ( i )ti≥tic(i)δ(t−i)c(i)t(i)
변화량은 점수와 임계 값 사이의 거리에 따라 감소합니다. 는 의 감소 함수입니다 .i = 1 , 2 , …δ(i)i=1,2,…
임계 값 주어지면 귀무 가설 (속임수 없음)은δ ( 1 ) = 0 이며, δ 가 0 임을 의미합니다. 대안은 δ ( 1 ) > 0 입니다.tδ(1)=0δ0δ(1)>0
테스트 구성
어떤 테스트 통계를 사용해야합니까? 이러한 가정에 따르면, (a) 효과는 카운트에 부가적이고 (b) 임계 값 근처에서 가장 큰 효과가 발생합니다. 이것은 카운트의 1 차 차분을보고 나타내는 . 또한 배려 한 단계가는 제안 : 대립 가설 하에서, 우리는 점수 점차 눌려 카운트 시퀀스 것으로 기대 난 임계 접근 t를 아래를 다음 (ⅰ)에서 많은 양의 변화 t는 (ⅱ)이어서 큰 부정적인 변화c′(i)=c(i+1)−c(i)itt . 검정의 검정력을 최대화하기 위해두 번째 차이점을살펴 보겠습니다.t+1
씨′ ′( i ) = c'( i + 1 ) − c'( I ) = C ( I + 2 ) - (2) (C) ( I + 1 ) + (C) ( I ) ,
에서 때문에 이이 약간 큰 마이너스의 쇠퇴에 결합한다 (C)가 ( t + 1 ) - C ( t ) 와 네거티브 큰 양의 증가의 C ( t ) - C ( t - 1 ) 함으로써 확대 킬레이트 효과 .i=t−1c(t+1)−c(t)c(t)−c(t−1)
임계 값에 가까운 카운트의 직렬 상관이 상당히 작다는 가설을 세울 것입니다. (다른 곳의 직렬 상관 관계는 관련이 없습니다.) 이것은 의 분산 이 대략적으로c′′(t−1)=c(t+1)−2c(t)+c(t−1)
var(c′′(t−1))≈var(c(t+1))+(−2)2var(c(t))+var(c(t−1)).
이전 에 모든 i에 대해 를 제안했습니다 ( 확인 할 수있는 것). 어떻게var(c(i))≈c(i)i
z=c′′(t−1)/c(t+1)+4c(t)+c(t−1)−−−−−−−−−−−−−−−−−−−−√
대략 단위 분산이 있어야합니다. 큰 점수 모집단 (게시 된 인구는 약 20,000 명)의 경우 대략 정규 분포 도 기대할 수 있습니다. 우리가 높은 음의 값은 부정 패턴을 나타내는 기대하기 때문에, 우리는 쉽게 크기의 시험 구 α 작성 : Φ를 , 표준 정규 분포의 CDF를 들어 임계 못한 부정의 가설을 기각 t 때 Φ ( Z ) < α .c′′(t−1)αΦtΦ(z)<α
예
예를 들어, 세 개의 정규 분포를 혼합하여 iid를 추출한 이 실제 테스트 점수 세트를 고려하십시오 .
t=65δ(i)=exp(−2i)
zt
z
z=−4.19Φ(z)=0.0000136
z
이 테스트를 여러 임계 값에 적용 할 때 테스트 크기의 Bonferroni 조정이 현명합니다. 여러 테스트에 동시에 적용 할 때 추가 조정을하는 것도 좋습니다.
평가
zz 시뮬레이션이 매우 간단하고 실행 속도가 빠릅니다.