성적이 어떻게 다른지 아는 것은 좋지만 그래도 성적 을 보상 할 대상 을 알려주지는 않습니다 . 단순화를 위해 두 명의 그레이더 만 상상하십시오. 우리가 1 학년이 2 학년보다 일관되게 5 점을 더 많이받는다고하더라도, 각각 70 학년 인 2 명, 1 학년 1 명, 2 학년 2 명에게 어떤 조치를 취해야하는지 말해주지 않습니다. 1 등급으로 표시된 70을 그대로 유지하면서 가혹한 마커 였고 70에서 75까지 상승 했습니까? 아니면 1 학년이 지나치게 관대하다고 가정하고, 학생을 65 점으로 쓰러 뜨리고 2 학년의 70 점을 변경하지 않습니까? 우리는 평균 11 학년을 기준으로 귀하의 사례까지 중간에 타협합니까? 중요한 절대 등급이므로 상대적인 관대함을 아는 것만으로는 충분하지 않습니다.
당신의 결론은 최종 목표가 얼마나 "객관적"이어야하는지에 달려 있습니다. 하나의 정신 모델은 각 학생에게 "정확한"등급 (각 논문을 개별적으로 표시 할 시간이있는 경우 책임 평가자가 수여하는 등급)을 갖도록 제안하는 것입니다. 이는 관찰 된 등급이 근사치입니다. 이 모델에서 관찰 된 성적은 관찰되지 않은 "진정한"등급에 최대한 근접하게하기 위해 해당 학년에 대해 보상되어야합니다. 또 다른 모델은 모든 채점이 주관적 일 수 있으며, 모든 채점자가 동일한 논문을 고려하여 어느 정도의 타협 또는 평균 등급에 도달 한 경우 각 관측 등급을 점수로 전환 할 수 있습니다. 나는 주관성 인정이 더 현실적인 경우에도 두 번째 모델이 해결책으로 덜 설득력이 있음을 발견했습니다. 교육 환경에는 일반적으로 평가에 대한 최종 책임을 가진 사람이 있으며, 학생들이 "학점을받을 자격"을받을 수 있도록 보장하지만이 주요 역할은 우리가 이미 동의하지 않은 학년에 대한 책임을 본질적으로 완전히 없애버 렸습니다. 여기에서 나는 거기에서 가정입니다 우리가 추정하는 것을 목표로하는 것이 하나의 "올바른"등급, 그러나 이것은 경합 제안하고 귀하의 상황에 적합하지 않을 수 있습니다.
같은 코호트에있는 학생 A, B, C 및 D가 모두 각각 75, 80, 85 및 90으로 등급을 매겨 야하지만 그들의 관대 한 학년이 지속적으로 5 점을 너무 높게 표시한다고 가정합니다. 우리는 80, 85, 90 및 95를 관찰하고 5를 빼야하지만 빼는 수치를 찾는 것은 문제가 있습니다. 코호트의 평균 능력이 다를 것으로 예상되므로 코호트 간의 결과를 비교하여 수행 할 수 없습니다. 하나의 가능성은 객관식 시험 결과를 사용하여 두 번째 과제에서 정확한 점수를 예측 한 다음이를 사용하여 각 학년과 정확한 성적 사이의 변동을 평가할 수 있습니다. 그러나이 예측을하는 것은 쉬운 일이 아닙니다. 두 평가간에 서로 다른 평균 및 표준 편차가 예상되는 경우 두 번째 평가 등급이 첫 번째 평가 등급과 일치해야한다고 가정 할 수 없습니다.
또한 학생들은 객관식 및 필기 평가에서 상대적 적성에 차이가 있습니다. 학생의 "관측 된"및 "진정한"등급의 구성 요소를 형성하지만 "예측 된"등급에 의해 포착되지 않는 임의의 효과로 간주 할 수 있습니다. 동질 집단이 체계적으로 다르고 동질 집단의 학생들이 비슷한 경향이 있다면, 각 집단 내에서이 효과의 평균이 0이 될 것으로 기 대해서는 안됩니다. 동질 집단의 관찰 된 성적이 예상 점수와 비교하여 평균 +5 인 경우 불가능합니다이는 넉넉한 채점자, 객관식보다 서면 평가에 특히 적합한 코호트 또는 두 가지의 조합으로 인한 것인지 여부를 결정합니다. 극단적 인 경우에, 코호트는 두 번째 평가에서 적성이 적을 수도 있지만, 매우 관대 한 학년에 의해 보상 된 것보다 많거나 그 반대도 마찬가지입니다. 이것을 분해 할 수 없습니다. 혼란 스러워요.
또한 데이터에 대한 간단한 추가 모델의 적합성이 의심됩니다. 그레이더는 위치 이동뿐만 아니라 스프레드에 의해서도 리드 평가자와 다를 수 있습니다. 코호트의 동질성에 차이가있을 수 있기 때문에 각 코호트에서 관찰 된 그레이드의 확산을 확인하여이를 감지 할 수는 없습니다. 더욱이, 분포의 대부분은 이론적으로 최대 100에 가까운 높은 점수를 가지고 있습니다. 나는 최대에 가까운 압축으로 인해 비선형 성을 도입 할 것으로 예상합니다. 매우 관대 한 그레이더는 A, B, C 및 D 마크를 85, 90, 94, 97. 상수를 빼는 것보다 반전하기가 어렵습니다. 더 나쁜 것은, "클리핑 (clipping)"을 볼 수 있습니다. 매우 관대 한 그레이더는 90, 95, 100, 100으로 등급을 매길 수 있습니다. 이것은 불가능합니다.C와 D의 상대 성능에 대한 정보는 복구 할 수 없을 정도로 손실됩니다.
당신의 학년은 매우 다르게 행동합니다. 평가의 다양한 요소에서 관대함이 아니라 전반적인 관대함 만 다르다고 확신하십니까? 이는 여러 가지 합병증을 유발할 수 있기 때문에 점검 할 가치가 있습니다. 예를 들어, 각 구성 요소에 대한 그레이더의 할당 된 마크가 단조 증가하는 기능을 수행하더라도 B가 5 포인트 "더 나은"임에도 불구하고 B에 대해 관찰 된 등급은 A보다 떨어질 수 있습니다. 수석 평가자의 평가가 Q1 (A는 30/50, B 45/50이어야 함)과 Q2 (A는 45/50, B 35/50이어야 함)로 나누어 져 있다고 가정합니다. 그레이더가 Q1 (관점 : A 40/50, B 50/50)에 매우 관대하지만 Q2 (거점 : A 42/50, 30/50)에 가혹하다고 가정하면 A의 경우 82, A의 경우 80, B. 구성 요소 점수를 고려해야 할 경우
아마도 이것은 답변이 아닌 확장 된 의견이며, 문제의 원래 범위 내에서 특정 솔루션을 제안하지 않는다는 의미입니다. 그러나 만약 당신의 그레이더가 벌써 각각 약 55 개의 논문을 다루고 있다면, 교정 목적으로 5 개 또는 10 개를 더 봐야합니까? 학생들의 능력에 대해 이미 잘 알고 있으므로 다양한 학년의 논문을 직접 고를 수 있습니다. 그런 다음 전체 테스트 또는 각 구성 요소에 걸쳐 등급의 관대함을 보상해야하는지 여부와 상수를 더하거나 빼거나 보간과 같은보다 정교한 방법으로 보상 할 것인지 여부를 평가할 수 있습니다 (예 : 100에 가까운 선형성). 그러나 보간에 대한 경고 단어 : Lead Assessor가 5 개의 샘플 용지를 70, 75, 80, 85 및 90으로 표시한다고 가정합니다. 채점자는 80, 88, 84, 93, 96으로 표시하므로 순서에 대한 의견이 일치하지 않습니다. 관찰 된 등급을 96에서 100 사이의 간격으로 90에서 100까지, 93에서 96에서 관측 된 등급은 85에서 90 사이의 간격으로 매핑하려고 할 수 있습니다. 그러나 그 아래의 마크에는 약간의 생각이 필요합니다. 아마도 84에서 93 사이의 관측 된 성적은 75에서 85 사이의 간격에 매핑되어야합니까? 대안은 "관측 등급"에서 "예측 된 실제 등급"에 대한 공식을 얻기위한 (다항식) 회귀입니다. 아마도 84에서 93 사이의 관측 된 성적은 75에서 85 사이의 간격에 매핑되어야합니까? 대안은 "관측 등급"에서 "예측 된 실제 등급"에 대한 공식을 얻기위한 (다항식) 회귀입니다. 아마도 84에서 93 사이의 관측 된 성적은 75에서 85 사이의 간격에 매핑되어야합니까? 대안은 "관측 등급"에서 "예측 된 실제 등급"에 대한 공식을 얻기위한 (다항식) 회귀입니다.