Spearman-Brown 예언 공식은 다양한 어려움에 대한 질문에 어떻게 영향을 받습니까?


10

Spearman-Brown 예언 공식의 결과는 어려움이 있거나 어려운 채점자 또는 다른 어려움에 대한 시험 문제가 어떻게 영향을 받는가. 존경받는 텍스트 중 하나는 SB가 영향을 받지만 자세한 내용은 밝히지 않았다고 말합니다. (아래 인용문 참조)

Guion, R. M (2011). 인사 결정에 대한 평가, 측정 및 예측, 2 판. 페이지 477

"Spearman-Brown 방정식을 사용하여 평가자를 풀링하여 안정성을 높일 수 있습니다. ... 단일 등급의 신뢰도가 .50 인 경우 2, 4 또는 6 개의 병렬 등급의 신뢰도는 약 .67, .80입니다. , 및 .86 "(Houston, Raymond, & Svec, 1991, p. 409). 나는이 단어가 통계적 추정치가 모든 것이 가정 된대로 예상 될 수있는 것에 대한 "평균"진술임을 대략 인식하기 때문에이 인용을 좋아한다. 그 외에도 작동 단어는 평행합니다. 하나의 평가자가 예를 들어 체계적으로 관대하다면 평균 평가 (또는 Spearman-Brown 사용)는 단순히 가정에 맞지 않습니다. 에세이가 각각 두 개의 평가자에 의해 평가되고, 하나는 다른 평가자보다 관대하다면, 문제는 불평등 난이도 (비평 행 형태)의 두 가지 객관식 시험을 사용하는 것과 같습니다. 서로 다른 (구식이없는) 시험 양식에 근거한 점수는 비교할 수 없습니다. 따라서 관대하고 어려운 평가자를 혼합하는 것입니다. 풀링 된 등급의 신뢰도는 고전적인 시험 이론의 Spearman-Brown 방정식에 의해 잘못 추정됩니다. 각 판사가 구성을 조금 다르게 정의하면 문제가 더 악화됩니다. "


1
믿을만한 출처를 찾는 데있어 문제는 답이 테스트 이론에서 비롯된 것이며, 기본 이론, 특히 신뢰성을 평가할 수있는 능력의 한계를 이해하면 분명합니다. 그렇기 때문에 Guion은이를 설명하지 않습니다. 어쨌든 검색에서 행운을 빕니다. 어쩌면 누군가가 더 나은 설명을 알고있을 것입니다.
Jeremy Miles

답변:


10

비록 다른 CV 사용자뿐만 아니라 "존중 한 텍스트"와 모순되는 약간의 양감이 느껴지지만, Spearman-Brown 공식은 다른 난이도의 아이템으로 인해 영향을받지 않는 것 같습니다 . 확실히, Spearman-Brown 공식은 일반적으로 평행 항목 이 있다고 가정하여 파생되며 , 이는 항목이 동일한 어려움을 가지고 있음을 암시합니다. 그러나이 가정은 필요하지 않다. 불평등 한 어려움을 허용하기 위해 긴장을 풀 수 있으며 Spearman-Brown 공식은 여전히 ​​유효합니다. 나는 이것을 아래에서 설명한다.


고전적 테스트 이론에서 측정 리콜 에 "참 점수"성분의 합으로 간주되는 T 에러 성분 E 이고, X = T + E ,TE가 무상관. 병렬 항목의 가정은 모든 항목이 동일한 분산으로 가정되지만 오류 구성 요소에서만 다른 동일한 실제 점수를 갖는 것으로 가정합니다. 중 어느 쌍의 심볼에서, XX ' , T = T 'X이자형

엑스=+이자형,
이자형엑스엑스' 첫 번째 가정을 완화 할 때 각 항목의 난이도가 달라질 수있는 상황을 살펴본 다음 이러한 새로운 가정 하에서 총 시험 점수의 신뢰성을 도출해 보겠습니다. 특히, 실제 점수는 가산 상수에 따라 다를 수 있지만 오차는 여전히 동일한 분산을 갖습니다. 기호에서, T = T ' + c '
='var(이자형)=var(이자형').
난이도의 차이는 첨가제 상수에 의해 포착됩니다. 예를 들어, C ' > 0 , 다음에 점수 X가 에 점수보다 더 높은 경향이 X ' 그래서, X가 보다 "쉽게"인 X ' . 타우 동등 모델을 유사한 방식으로 완화시키는 "필수 타우 동등성"의 가정과 유사하게,이러한본질적으로 평행 한항목을호출 할 수 있습니다.
='+'var(이자형)=var(이자형').
'>0엑스엑스'엑스엑스'

케이ρ=σ2/(σ2+σ이자형2)σ2σ이자형2

var(나는=1케이나는+이자형나는)=var(나는=1케이+나는+이자형나는)=케이2σ2+케이σ이자형2,
σ2σ이자형2
케이2σ2케이2σ2+케이σ이자형2=케이σ2케이σ2+σ엑스2σ2=케이ρ1+(케이1)ρ,

@JeremyMiles는 "실제 세계에서"테스트 길이를 늘릴 때 발생할 수있는 일에 대해 흥미롭고 중요한 점을 제기하지만, 적어도 고전적인 테스트 이론의 이상적인 가정에 따르면, 아이템 난이도의 변화는 신뢰성에 중요하지 않습니다. 테스트 양식 (현대 항목 응답 이론의 가정과 완전히 대조 됨). 이 동일한 기본 추론은 또한 우리가 일반적 으로 타우 동등성보다는 필수 타우 동등성에 대해 말하는 이유입니다 . 왜냐하면 대부분의 중요한 결과는 항목 난이도 (즉, 수단)가 다를 수있는보다 관대 한 사례를 보유하기 때문입니다.


2
예, 좋은 지적입니다. 내가 쓴 것이 반드시 붙잡을 필요는 없습니다.
Jeremy Miles

5

말하기 쉽지 않습니다.

먼저 Spearman-Brown은 테스트 항목 (또는 평가자)이 테스트 항목 (또는 평가자)에서 무작위로 샘플링된다고 가정합니다. 더 많은 항목을 구성하는 것이 어렵고, 더 나은 항목을 사용하여 시작할 가능성이 높으므로 테스트가 실제로 사실이 아닙니다. 테스트가 더 길어야한다는 것을 알게 될 것입니다. 아이템에 대한 '배럴 스크랩'.

둘째, 항목의 신뢰도는 다양하며 신뢰도는 난이도와 반드시 관련이있는 것은 아닙니다 (도움이되는 경우 항목 응답 이론에서 항목 특성 곡선의 기울기와 절편을 생각하십시오). 그러나 신뢰도 계산 (예 : 클래스 내 상관 관계의 형태 인 Cronbach의 알파)은 신뢰성이 모두 같다고 가정합니다 (즉, 필수 타우 등가 측정 모델, 즉 각 항목의 표준화되지 않은 신뢰성은 모두 같은). 거의 확실합니다. 항목을 추가하면 올라갈 수 있습니다. 항목에 따라 다릅니다.

그것을 생각하는 또 다른 방법이 있습니다. 모집단에서 표본을 무작위로 선택하고 평균의 평균 및 표준 오차를 계산합니다. 그 평균은 인구 평균의 편견이 될 것입니다. 그런 다음 표본의 크기를 늘립니다. 평균의 예상 값이 동일하지만 실제로는 같을 가능성이 거의 없습니다. 거의 확실하게 위 또는 아래로 갈 것입니다. 표준 오류가 작아 질 것으로 예상하지만 축소되는 양은 일정하지 않습니다 (표준 오류가 커지는 것은 불가능하지 않습니다).


SB 공식은 예상되는 신뢰성에 대한 최소값, 최대 값 또는 중간 값을 제공합니까? 또한 신뢰도는 상관 관계 측면에서 계산되므로 easy / hard 항목 또는 평가자가 영향을 미치는 이유는 무엇입니까?
Joel W.

SB 공식은 예상되는 신뢰성을 제공합니다. 그보다 높거나 낮을 수 있습니다. 한 가지 문제는 신뢰성을 계산하는 방법이 여러 가지이며 그 가정이 거의 충족되지 않는다는 것입니다. 모든 것은 고전적인 테스트 이론에 근간을두고 있습니다. 항목 반응 이론은 측정에 대해 더 현대적인 방법이며, 예를 들어, 테스트의 신뢰성은 각각에 대해 동일하지 않습니다. IRT에있는 사람.
Jeremy Miles

질문이 매우 어렵거나 매우 쉬운 경우 상관 관계에 영향을 줄 수 있습니다. 예를 들어 "7 * 11"은 3 학년에게는 신뢰할만한 질문이지만 수학 학부생에게는 그렇지 않습니다.
Jeremy Miles

1
<테스트는 더 길어야하므로 아이템에 대해 '배럴을 스크랩'해야합니다. 분명히 당신은 테스트를 만드는 실제 경험을 가지고 있습니다.
Joel W.
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.