13

600 명 정도의 학생들이 광범위한 평가에서 점수를 받았는데, 이는 신뢰성 / 유효성이 양호하다고 가정 할 수 있습니다. 평가는 100 점 만점에 달하며 컴퓨터가 표시하는 객관식 시험입니다.

이 600 명의 학생들은 또한 2 차 사소한 평가 점수를받습니다. 이 두 번째 평가에서는 11 개의 다른 그레이더로 11 개의 코호트로 구분되며, 마킹에서 '유전성'측면에서 그레이더간에 바람직하지 않은 정도의 차이가 있습니다. 이 두 번째 평가는 100 점 만점에 점수를받습니다.

학생들은 무작위로 코호트에 배정되지 않았으며, 코호트간에 기술 수준의 차이를 기대할만한 이유가 있습니다.

두 번째 과제에서 동질 집단 마커의 차이가 개별 학생에게 실질적으로 유리한 점 / 불이익이되지 않도록하는 임무를 받았습니다.

내 생각은 코호트 내에서 개별적인 차이를 유지하면서 첫 번째 코호트 점수와 일치하도록 두 번째 평가에서 코호트 점수를 얻는 것입니다. 두 작업의 성능이 서로 밀접하게 관련되어 있지만 마커의 관대함이 상당히 다르다고 믿을만한 충분한 이유가 있다고 가정해야합니다.

이것이 최선의 접근입니까? 그렇지 않다면 무엇입니까?

응답자가 R, SPSS 또는 Excel과 같이 좋은 솔루션을 구현하는 방법에 대한 실용적인 팁을 줄 수 있다면 대단히 감사하겠습니다.

agreement-statistics

— user1205901-복원 Monica
소스

3

좋은 질문입니다! 객관식과 에세이 부분의 최종 점수는 비슷해야합니까 (즉, 동일한 숫자 범위)?

— gung-모니 티 복원

2

이 질문을 쓰는 동안 나는 그것이 당신의 골목에 있다고 생각했습니다! 최종 점수는 전반적으로 비슷하지만 약간 다릅니다. 객관식 선택 섹션의 평균은 SD가 15 인 경우 ~ 70입니다. 다른 섹션의 평균은 SD가 6 인 경우 ~ 85입니다.

— user1205901-Reinstate Monica

7

설명 된 데이터만으로이 문제를 해결하려는 노력이 의심됩니다. 두 개의 개별 테스트 기기에서 코호트와 성능간에 상호 작용이 없다는 강력한 (시험 할 수없는) 가정에 기초해야하기 때문입니다. 가능하다면 그레이더를 교정하기 위해 별도의 작은 실험을 수행하는 옵션을 고려하십시오.

— whuber

9

문제가있는 곳을 더 잘 보려면 (1) 두 가지 형태의 평가가 객관식과 에세이이고 (2) 고학년 학생들이 에세이 문제에 대해 상대적으로 더 나은 경향이 있다고 가정합니다. 데이터를 사용하여 점수를 "코어 (cohere)"로 만들면 학년 효과와 학년 효과를 혼동하게되고 조정함으로써 고등학생에 비해 체계적으로 불리하게됩니다. 아무리 정교한 알고리즘을 선택하더라도이 기본 문제에 대해서만 논문을 작성할 수 있습니다. 이 혼란을 해결 하려면 몇 가지 추가 데이터가 필요합니다 .

— whuber

3

고려해야 할 한 가지는 학생이나 다른 이해 관계자들에게 조정 절차를 설명하는 것이 얼마나 편한지입니다. 많은 사람들이 마킹에 잠재적 인 문제가 있다고 생각할 경우 마커의 적절한 보정에 약간의 노력을 기울이면 너무 기대하지 않을 것입니다 시험은 중요한 시험입니다.

— Scortchi-Monica Monica 복원

8

성적이 어떻게 다른지 아는 것은 좋지만 그래도 성적 을 보상 할 대상 을 알려주지는 않습니다 . 단순화를 위해 두 명의 그레이더 만 상상하십시오. 우리가 1 학년이 2 학년보다 일관되게 5 점을 더 많이받는다고하더라도, 각각 70 학년 인 2 명, 1 학년 1 명, 2 학년 2 명에게 어떤 조치를 취해야하는지 말해주지 않습니다. 1 등급으로 표시된 70을 그대로 유지하면서 가혹한 마커 였고 70에서 75까지 상승 했습니까? 아니면 1 학년이 지나치게 관대하다고 가정하고, 학생을 65 점으로 쓰러 뜨리고 2 학년의 70 점을 변경하지 않습니까? 우리는 평균 11 학년을 기준으로 귀하의 사례까지 중간에 타협합니까? 중요한 절대 등급이므로 상대적인 관대함을 아는 것만으로는 충분하지 않습니다.

당신의 결론은 최종 목표가 얼마나 "객관적"이어야하는지에 달려 있습니다. 하나의 정신 모델은 각 학생에게 "정확한"등급 (각 논문을 개별적으로 표시 할 시간이있는 경우 책임 평가자가 수여하는 등급)을 갖도록 제안하는 것입니다. 이는 관찰 된 등급이 근사치입니다. 이 모델에서 관찰 된 성적은 관찰되지 않은 "진정한"등급에 최대한 근접하게하기 위해 해당 학년에 대해 보상되어야합니다. 또 다른 모델은 모든 채점이 주관적 일 수 있으며, 모든 채점자가 동일한 논문을 고려하여 어느 정도의 타협 또는 평균 등급에 도달 한 경우 각 관측 등급을 점수로 전환 할 수 있습니다. 나는 주관성 인정이 더 현실적인 경우에도 두 번째 모델이 해결책으로 덜 설득력이 있음을 발견했습니다. 교육 환경에는 일반적으로 평가에 대한 최종 책임을 가진 사람이 있으며, 학생들이 "학점을받을 자격"을받을 수 있도록 보장하지만이 주요 역할은 우리가 이미 동의하지 않은 학년에 대한 책임을 본질적으로 완전히 없애버 렸습니다. 여기에서 나는 거기에서 가정입니다 우리가 추정하는 것을 목표로하는 것이 하나의 "올바른"등급, 그러나 이것은 경합 제안하고 귀하의 상황에 적합하지 않을 수 있습니다.

같은 코호트에있는 학생 A, B, C 및 D가 모두 각각 75, 80, 85 및 90으로 등급을 매겨 야하지만 그들의 관대 한 학년이 지속적으로 5 점을 너무 높게 표시한다고 가정합니다. 우리는 80, 85, 90 및 95를 관찰하고 5를 빼야하지만 빼는 수치를 찾는 것은 문제가 있습니다. 코호트의 평균 능력이 다를 것으로 예상되므로 코호트 간의 결과를 비교하여 수행 할 수 없습니다. 하나의 가능성은 객관식 시험 결과를 사용하여 두 번째 과제에서 정확한 점수를 예측 한 다음이를 사용하여 각 학년과 정확한 성적 사이의 변동을 평가할 수 있습니다. 그러나이 예측을하는 것은 쉬운 일이 아닙니다. 두 평가간에 서로 다른 평균 및 표준 편차가 예상되는 경우 두 번째 평가 등급이 첫 번째 평가 등급과 일치해야한다고 가정 할 수 없습니다.

또한 학생들은 객관식 및 필기 평가에서 상대적 적성에 차이가 있습니다. 학생의 "관측 된"및 "진정한"등급의 구성 요소를 형성하지만 "예측 된"등급에 의해 포착되지 않는 임의의 효과로 간주 할 수 있습니다. 동질 집단이 체계적으로 다르고 동질 집단의 학생들이 비슷한 경향이 있다면, 각 집단 내에서이 효과의 평균이 0이 될 것으로 기 대해서는 안됩니다. 동질 집단의 관찰 된 성적이 예상 점수와 비교하여 평균 +5 인 경우 불가능합니다이는 넉넉한 채점자, 객관식보다 서면 평가에 특히 적합한 코호트 또는 두 가지의 조합으로 인한 것인지 여부를 결정합니다. 극단적 인 경우에, 코호트는 두 번째 평가에서 적성이 적을 수도 있지만, 매우 관대 한 학년에 의해 보상 된 것보다 많거나 그 반대도 마찬가지입니다. 이것을 분해 할 수 없습니다. 혼란 스러워요.

또한 데이터에 대한 간단한 추가 모델의 적합성이 의심됩니다. 그레이더는 위치 이동뿐만 아니라 스프레드에 의해서도 리드 평가자와 다를 수 있습니다. 코호트의 동질성에 차이가있을 수 있기 때문에 각 코호트에서 관찰 된 그레이드의 확산을 확인하여이를 감지 할 수는 없습니다. 더욱이, 분포의 대부분은 이론적으로 최대 100에 가까운 높은 점수를 가지고 있습니다. 나는 최대에 가까운 압축으로 인해 비선형 성을 도입 할 것으로 예상합니다. 매우 관대 한 그레이더는 A, B, C 및 D 마크를 85, 90, 94, 97. 상수를 빼는 것보다 반전하기가 어렵습니다. 더 나쁜 것은, "클리핑 (clipping)"을 볼 수 있습니다. 매우 관대 한 그레이더는 90, 95, 100, 100으로 등급을 매길 수 있습니다. 이것은 불가능합니다.C와 D의 상대 성능에 대한 정보는 복구 할 수 없을 정도로 손실됩니다.

당신의 학년은 매우 다르게 행동합니다. 평가의 다양한 요소에서 관대함이 아니라 전반적인 관대함 만 다르다고 확신하십니까? 이는 여러 가지 합병증을 유발할 수 있기 때문에 점검 할 가치가 있습니다. 예를 들어, 각 구성 요소에 대한 그레이더의 할당 된 마크가 단조 증가하는 기능을 수행하더라도 B가 5 포인트 "더 나은"임에도 불구하고 B에 대해 관찰 된 등급은 A보다 떨어질 수 있습니다. 수석 평가자의 평가가 Q1 (A는 30/50, B 45/50이어야 함)과 Q2 (A는 45/50, B 35/50이어야 함)로 나누어 져 있다고 가정합니다. 그레이더가 Q1 (관점 : A 40/50, B 50/50)에 매우 관대하지만 Q2 (거점 : A 42/50, 30/50)에 가혹하다고 가정하면 A의 경우 82, A의 경우 80, B. 구성 요소 점수를 고려해야 할 경우

아마도 이것은 답변이 아닌 확장 된 의견이며, 문제의 원래 범위 내에서 특정 솔루션을 제안하지 않는다는 의미입니다. 그러나 만약 당신의 그레이더가 벌써 각각 약 55 개의 논문을 다루고 있다면, 교정 목적으로 5 개 또는 10 개를 더 봐야합니까? 학생들의 능력에 대해 이미 잘 알고 있으므로 다양한 학년의 논문을 직접 고를 수 있습니다. 그런 다음 전체 테스트 또는 각 구성 요소에 걸쳐 등급의 관대함을 보상해야하는지 여부와 상수를 더하거나 빼거나 보간과 같은보다 정교한 방법으로 보상 할 것인지 여부를 평가할 수 있습니다 (예 : 100에 가까운 선형성). 그러나 보간에 대한 경고 단어 : Lead Assessor가 5 개의 샘플 용지를 70, 75, 80, 85 및 90으로 표시한다고 가정합니다. 채점자는 80, 88, 84, 93, 96으로 표시하므로 순서에 대한 의견이 일치하지 않습니다. 관찰 된 등급을 96에서 100 사이의 간격으로 90에서 100까지, 93에서 96에서 관측 된 등급은 85에서 90 사이의 간격으로 매핑하려고 할 수 있습니다. 그러나 그 아래의 마크에는 약간의 생각이 필요합니다. 아마도 84에서 93 사이의 관측 된 성적은 75에서 85 사이의 간격에 매핑되어야합니까? 대안은 "관측 등급"에서 "예측 된 실제 등급"에 대한 공식을 얻기위한 (다항식) 회귀입니다. 아마도 84에서 93 사이의 관측 된 성적은 75에서 85 사이의 간격에 매핑되어야합니까? 대안은 "관측 등급"에서 "예측 된 실제 등급"에 대한 공식을 얻기위한 (다항식) 회귀입니다. 아마도 84에서 93 사이의 관측 된 성적은 75에서 85 사이의 간격에 매핑되어야합니까? 대안은 "관측 등급"에서 "예측 된 실제 등급"에 대한 공식을 얻기위한 (다항식) 회귀입니다.

— 은어
소스

1

불행히도 평가 2의 특성으로 인해 채점자는 교정 목적으로 더 많은 것을 볼 수 없습니다. 당신은 그것을 기록없이 한 번만했고 바로 후에 평가 한 구시 암송과 같다고 생각할 수 있습니다. 교정 목적으로 만 새로운 암송을 예약하는 것은 비현실적입니다. 다른 질문에 대답하기 위해 평가 2에는 명확한 하위 구성 요소가 없었으므로 구성 요소 점수를 고려할 필요가 없습니다.

— user1205901-복원 Monica Monica

1

이것은 "답이 아닌"이상적인 세상에서 나는 훈련의 방법으로 사물을 바꾸고 예제 샘플 (실제 학생들이 아닌 학년 경계선에 의도적으로 고안된 인공 과제물)을 사용하도록 제안했습니다. 성적은 관대함을 추론하고 보상하기보다는 같은 관대함을 갖습니다. 그러나 평가가 완료되면 분명히 해결책이 아닙니다.

— Silverfish

1

(+1) 매우 철저한 "답이 아님". 다소 주관적인 테스트의 일관성은 종종 채점 작업을 구성 요소로 분할하여 크게 향상 될 수 있습니다. 그렇지 않으면 한 학년이 리듬에 더 가중치를 부여하고 다른 학년에 프로젝션에 가중치를 부여 할 수 있습니다.

— Scortchi-Monica Monica 복원

궁극적으로 문제를 결정할 사람에게 가능한 조정을 제출하는 것 외에도 조정의 장단점에 대한 설명을 제출해야합니다. 귀하의 답변은 이와 관련하여 많은 유용한 자료를 제공합니다. 그러나 모든 것을 내버려 두거나 변경하는 것이 더 유익한 지 판단하기 위해 어떤 기준을 사용할 수 있는지 궁금합니다. 코호트 등급을보고 직감에 따르면 마커 간의 차이가 큰 영향을 미칩니다. 직감은 신뢰할 수 없지만이 경우에 내가 무엇을 계속할 수 있는지 잘 모르겠습니다.

— user1205901-복원 Monica Monica

2

한 가지 질문은 "차등 적 작업 적성"효과가 특히 "학년의 관대함"효과와 비교하여 코호트 이상으로 평균 될 때 "차등 적 작업 적성"효과가 작다고 믿을만한 근거가 있는지 여부입니다. 그렇다면 각 코호트에 대한 관대함 효과를 추정하려고 시도 할 수 있지만 혼동 될 위험이 있습니다. 또한, Catch 22가 있습니다. 나는 관찰 된 등급에 큰 "수정"을 적용하는 것이 가장 신중할 것입니다. 그러나 제안 된 수정 사항이 작 으면, 학년별 관대함이 아니라 동질 집단 간의 차등 업무 능력의 체계적인 차이로 인한 것 같다.

— Silverfish

2

매우 간단한 모델 :

$s_{1,i}$ $i$ $s_{2,i}$ $A_1, \ldots, A_p$

각 코호트는 학생들의 힘과 학년의 편이성에 의해 편향됩니다. 이것이 추가 효과라고 가정하면 다음과 같은 방식으로 되돌아갑니다. 첫 번째 테스트에서 코호트의 평균 점수를 빼고 두 번째 테스트에서 코호트의 평균 점수를 더합니다.

조정 된 점수 계산합니다. $s'_1$

\forall j \leq p, \forall i \in A_{j}, s_{1, i}^{'} = s_{1, i} - \frac{1}{| A_{j} |} \sum_{i \in A_{j}} (s_{1, i} - s_{2, i})

$\forall j \leq p, \forall i \in A_j, s'_{1,i} = s_{1,i} - \frac{1}{|A_j|} \sum_{i \in A_j} ( s_{1,i} - s_{2,i} )$

$s$

\forall i, s_{i} = α s_{1, i}^{'} + (1 - α) s_{2, i}

$\forall i, s_i = \alpha s'_{1,i} + (1-\alpha) s_{2,i}$

단점은 코호트에있는 사람들이 두 번째 시험에서 운이 나빠지면 개별 학생에게 처벌을받을 수 있다는 것입니다. 그러나 모든 통계 기법은 잠재적으로 불공평 한 단점을 안고 있습니다.

— 아서 비
소스

3

α

$\alpha$

1

아니요-동질 집단이 무작위로 선택되지 않습니다.

— Scortchi-Monica Monica 복원

1

... @whuber가 말했듯이, 코호트 (나이 또는 그 밖의 이유로 인해)는 한 유형의 테스트에서 다른 유형보다 상대적으로 더 나은 경향이 있습니다.

— Scortchi-Monica Monica 복원

2

더 큰 집단을 취함으로써 혼란을 제거 할 수는 없습니다! 기껏해야 해석 할 수없는 값을보다 정확하게 추정 할 수 있습니다.

— whuber

3

아마도 합리적 일 것입니다. 그러나 OP에 제공되는 정보가 있으면 테스트 할 수 없습니다. 당신의 대답의 타당성은이 암시 적 가정의 진실에 의존합니다. 더 나쁜 것은 그 부정 (물론 테스트 할 수없는)도 역시 합리적입니다. 코호트는 스스로 선택하기 때문에 서로 다른 평가 도구에서 공통적 인 방식으로 수행하는 사람들로 구성 될 수 있으며, 실제로 는 차등적인 성공 가능성이 있음을 시사합니다 부분적으로는 동질 집단에 기인하고, 일부는 채점자 간의 변동성에 기인 할 뿐이다.

— whuber

1

당신은 할 수 없습니다. 적어도 추가 데이터를 수집하지 않고서는 안됩니다. 이유를 확인하려면이 스레드에서 @whuber의 수많은 의견을 읽어보십시오.

— 제이크 웨스트 폴
소스

0

편집하다

이 답변에서 해결되는 문제는 그들이 싫어하는 학생들에게 점수를 덜주는 학년을 찾는 것입니다.

원본 게시물

구현하기 쉽다고 생각하는 내 접근 방식은 다음과 같습니다.

$\mu_{k, i}$ $k$ $i$ $y_{k, i}$

1

모델을 가정

$y_{k, i} = \mu_{k, i} + \alpha + \tau e_{k, i}$ $\alpha$ $\alpha$ $i$ $\alpha$

2

$G_i$ $i$ $\tilde{y}_{k, i}$

$y_{k, i} - \mu_{k, i} - \alpha = \tilde{y}_{k, i} = G_i + \sigma_i \tilde{e}_{k, i}$

그리고 의 11 개의 개별 추정을하십시오 $G$ $\sigma$

삼

특이한 관찰은

$T = \vert \frac{\tilde{y} - G_i}{\sigma_i} \vert$

노트

$e$ $T$

R 코드

아래는 R의 코드입니다. 귀하의 경우, mu와 y가 모두 주어 지므로 rnorm-number가 할당 될 때 생성 행은 무시되어야합니다. 데이터없이 스크립트를 평가할 수 있도록 포함 시켰습니다.

mu_0 <- 50; 
alpha <- 5;
tau<- 10; 
# 0 Generate data for first assignment
mu <- matrix(rnorm(605, mu_0, tau), 11) 

# 1 Generate data for second assignment and estimate alpha
G <- rnorm(11, 0)*10;
for(i in 1:11){
    y[i,] <- rnorm(55, 0, sigma) + mu[i,] + alpha + G[i];
}

alpha_hat <- mean(y-mu)
alpha_hat

# 2 Form \tilde{y} and find unsual observations
ytilde <- y - mu - alpha_hat
T <- matrix(0, 11, 55);
for(i in 1:11){
    G_hat <- mean(ytilde[i,]);
    sigma_hat <- sd(ytilde[i,]);
    T[i,] <- order(abs(ytilde[i,] - G_hat)/sigma_hat)
}
# 3 Look at grader number 2 by
T[2,]

— 후나 푸
소스

4

당신은 그 질문에 대답하지 않은 것 같습니다 : 당신은 "비정상적인 관찰"을 조사하기위한 권고로만 끝납니다. 그게 어떻게 문제를 해결합니까?

— whuber

질문을 다시 읽으면 아마도 "개인"부분에 너무 집중했을 것입니다. 이 답변에서 해결되는 문제는 싫어하는 학생들에게 점수를 덜주는 학년을 찾는 것입니다. 원래 질문은 해결할 수 없습니다! 이미 제안했듯이, 학생들은 각 코호트 내에서 협력하거나 다른 방식으로 강한 상관 관계가있을 가능성이 높습니다.

— Hunaphu

0

문제의 표현 : 위임 된 마커의 정 성적 평가 범위로 인해 두 번째 부분이 더 큰 불확실성에 노출되어야하는 조건으로 시험에서 두 부분의 마크를 설정하는 가장 좋은 방법.

마스터 테스터 = 시험에 대한 책임있는 사람 Delegated Tester = 시험의 파 # 2를 표시하도록 지정된 사람 (1/11) 학생 = 시험에 앉아 재미를 얻는 사람

목표는 다음을 포함합니다 : A) 학생들은 자신의 작업을 반영하는 마크를받습니다. B) 마스터 테스터의 의도와 일치하도록 두 번째 부분의 불확실성을 관리합니다.

제안 된 접근법 (답변) : 1. 마스터 테스터는 대표 표본 세트를 무작위로 선택하고, 파트 # 2를 표시하고 파트 # 1과의 상관 관계를 개발합니다. 2. 상관을 활용하여 모든 위임 된 마커의 데이터 (파트 # 1)를 평가합니다. vs. # 2 점수) 3. 상관 관계가 마스터 테스터와 크게 다른 경우-마스터 테스터가 수용 할 수있는 중요성-결과를 다시 할당하기 위해 마스터 테스터로 시험을 검토하십시오.

이 접근법은 마스터 테스터가 상관과 수용 가능한 중요성에 대해 책임을 지도록합니다. 상관 관계는 파트 # 1 대 # 2의 점수 또는 시험 # 1 대 # 2의 문제에 대한 상대 점수만큼 간단 할 수 있습니다.

마스터 테스터는 또한 상관 관계의 "고무 성"을 기반으로 파트 # 2에 대한 결과 품질을 설정할 수 있습니다.

— MarkR
소스

학생 서류 채점에서 다른 수준의 관대함을 가진 마커의 효과를 어떻게 가장 잘 다룰 수 있습니까?

편집하다

원본 게시물

1

2

삼

노트

R 코드