뉴스의 방정식 : 다단계 모델을 일반 사용자에게 번역


24

New York Times는 뉴욕시 교육자들에게 피드백을 제공하기 위해 사용되는 '부가가치'교사 평가 시스템에 대해 오랫동안 언급했습니다. lede는 문맥없이 표시되는 점수를 계산하는 데 사용되는 방정식입니다. 수사적 전략은 수학을 통해 협박하는 것으로 보입니다.

대체 텍스트

이 기사의 전문은 http://www.nytimes.com/2011/03/07/education/07winerip.html 에서 볼 수 있습니다 .

마이클 와인 립 (Michael Winerip)이라는 저자는이 방정식의 의미가 평균적인 교사보다 훨씬 적은 매트 데이먼 (Matt Damon) 이외의 다른 사람의 능력을 넘어서는 것이라고 주장한다.

"Isasonson의 3.69 예측 점수 계산은 훨씬 더 어려워집니다. 학생이"시험 전 학년에 유지 "되었는지 여부와 학생이"시험 전 도시 또는 시험 후 신입생 여부 "를 포함하여 32 개의 변수를 기반으로합니다. 년."

이 32 가지 변수는 "선의의 헌팅 (Will Will Hunting)"에서 매트 데이먼 (Matt Damon)만이 해결할 수있는 방정식 중 하나 인 통계 모델에 연결됩니다.

그 과정은 투명 해 보이지만 교사, 교장, 언론인과 같은 현명한 평신도들에게도 진흙처럼 분명합니다.

아이작 슨 양은 아이비 리그 학위가 두 개 있지만, 그녀는 길을 잃었습니다. 그녀는“이것이 이해하기 어렵다는 것을 알게되었습니다.

일반 영어로 이삭 슨 씨가이 부서에서 무엇을 말하려고하는지에 대한 최선의 추측은 다음과 같습니다. 66 명의 학생 중 65 명은 주 시험에서 능숙한 점수를 받았지만, 3 명 중 4 명은 4 명이어야합니다.

그러나 그것은 단지 추측 일뿐입니다. "

모델을 평신도에게 어떻게 설명하겠습니까? 참고로 전체 기술 보고서는 다음과 같습니다.

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

업데이트 : Andrew Gelman은 여기에 자신의 생각을 제공합니다 : http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html


1
Gelman의 생각과 그의 게시물에 대한 의견은 읽을 가치가 있습니다. 점수 시스템은 거의 쓰레기입니다.이 교사의 95 % CI가 임을 고려하십시오 . [0%, 52%]
gung-Monica Monica 복원

답변:


12

한 가지 가능성이 있습니다.

교사의 성과 평가는 전통적으로 어려웠습니다. 이 어려움의 한 부분은 다른 학생들이 주어진 과목에 대해 다른 관심 수준을 가지고 있다는 것입니다. 주어진 학생이 A를받는다고해서 반드시 교육이 훌륭하다는 것을 의미하지는 않습니다. 오히려 매우 재능 있고 관심이 많은 학생이 교육 수준이 좋지 않더라도 성공하기 위해 최선을 다했음을 의미 할 수 있습니다. 반대로, D를받는 학생이 반드시 교육 수준이 낮다는 것을 의미하는 것은 아닙니다. 오히려 교육과 영감을주기위한 교사의 최선의 노력에도 불구하고 무관심한 학생이 해안을 떠 났음을 의미 할 수 있습니다.

학생 선택 (따라서 학생들의 관심 수준)이 무작위 적이 지 않다는 사실로 인해 어려움이 악화됩니다. 학교는 다른 과목보다 한 과목 (또는 과목 그룹)을 강조하는 것이 일반적입니다. 예를 들어, 학교는 인문학보다 기술 과목을 강조 할 수 있습니다. 그러한 학교의 학생들은 아마도 기술 분야에 관심이 많기 때문에 최악의 교사라도 합격 점수를받을 것입니다. 따라서 수학을 전공하는 학생들의 비율은 가르치는 데있어 좋은 척도가 아닙니다. 우리는 훌륭한 교사들이 배우고 싶어하는 학생들보다 훨씬 더 잘할 것으로 기대합니다. 반대로, 같은 학생들은 예술에 전혀 관심이 없을 수도 있습니다. 모든 학생들이 A를받을 수 있도록 최선을 다하는 교사조차 기대하기 어려울 것입니다.

또 다른 어려움은 주어진 수업의 모든 성공이 해당 수업의 교사에게 직접 기인 한 것은 아닙니다. 오히려, 학교 (또는 전체 학군)가 성취를위한 동기 부여와 틀을 만들어서 성공했을 수 있습니다.

이러한 모든 어려움을 고려하기 위해 연구원들은 교사의 '부가가치'를 평가하는 모델을 만들었습니다. 본질적으로이 모델은 각 학생의 고유 한 특성 (전체 관심 수준 및 학습 성공)과 학교 및 학군의 학생 성공 기여도를 고려하고 '평균'으로 예상되는 학생의 성적을 예측합니다. 그 환경에서 가르치기. 그런 다음이 모델은 실제 성적을 예측 된 점수와 비교하고이를 바탕으로 다른 모든 고려 사항을 고려했을 때 교육이 적절한 지, 적합한 지 또는 더 나은지를 결정합니다. 모델이 비 수학자에게는 복잡해 보일 수 있지만 실제로는 매우 단순하고 표준입니다. 수학자들은 수십 년 동안 유사하고 더 복잡한 모델을 사용해 왔습니다.

요약하면 Isaacson의 추측은 맞습니다. 66 명의 학생 중 65 명의 학생이 주 시험에서 능숙하게 점수를 받았지만, 개가 교사 인 경우에도 동일한 점수를 얻었을 것입니다. 실제로 좋은 교사는 이러한 학생들이 동일한 시험에서 '숙련'뿐만 아니라 실제로 '좋은'점수를 달성 할 수있게합니다.


이 시점에서 나는 모델에 대한 나의 관심사를 언급 할 수있다. 예를 들어, 모델 개발자는 교육 품질을 평가하는 데 어려움이 있다고 주장합니다. 그들을 믿을만한 충분한 이유가 있습니까? 소득이 낮은 지역은 예상되는 '지구'및 '학교'점수가 낮아집니다. 이웃의 예상 점수가 2.5라고 가정합니다. 평균 3 점을 달성하는 교사는 좋은 평가를받습니다. 이것은 교사들이 4 또는 5의 점수보다는 3의 점수를 목표로하도록 자극 할 수있다. 다시 말하면, 교사들은 완벽보다는 평범 성을 목표로 할 것이다. 우리는 이것이 일어나기를 원합니까? 마지막으로, 모델은 수학적으로 단순하지만 인간의 직관과는 매우 다른 방식으로 작동합니다. 결과적으로, 우리는 모델을 검증하거나 이의를 제기 할 명백한 방법이 없습니다. ' 결정. Isaacson의 불행한 예는 이것이 무엇을 이끌어 낼 수 있는지를 보여줍니다. 우리는 그렇게 중요한 일에 컴퓨터에 맹목적으로 의존하고 싶습니까?


이것은 평신도에 대한 설명입니다. 나는 여기서 논란의 여지가있는 몇 가지 문제를 회피했다. 예를 들어, 저소득층 인구가있는 학군이 평신도에게는 좋지 않기 때문에 실적이 저조 할 것으로 예상하고 싶지 않습니다.

또한 목표는 실제로 모델에 대해 합리적으로 공정한 설명을 제공하는 것이라고 가정했습니다. 그러나 이것이 NYT의 목표가 아니라고 확신합니다. 그래서 그들의 설명이 좋지 않은 이유의 적어도 일부는 제 생각에 의도적 인 FUD입니다.


아마도 마지막 문단의 두 번째 문장을 바꿔서 말하기를, "66 명의 학생 중 65 명은 주 시험에서 '유능한'점수를 받았지만, 교사가 부족하더라도 같은 점수를 받았을 것입니다."
Wayne

11

"교사 점수는 학생들의 예측 점수와 학생의 예측 점수에 따라 다릅니다.

  • 사전 테스트를 통해 측정 한 내용을 미리 알고

  • 우리가 학생들에 대해 개별적으로 알고있는 것 (“특성”)에 기초하여 학생들이 얼마나 잘 배울 수 있다고 생각하는지,

  • 그리고 학군, 학교 및 교실 (교실에 다른 교사가있는 경우)에서 학생들의 평균 학력.

"즉, 우리는 학생들의 준비 및 특성과 귀하와 같은 환경에서 모든 학생들의 일반적인 성과를 고려한 후 측정 한 학습량 을 바탕으로 귀하를 평가 하고 있습니다.

"이런 식으로 당신의 점수는 무엇을 반영 당신은 우리가를 확인할 수 있습니다하는 한, 학생 공연에 기여 물론 우리가 모든 것을 알 수 중 :.. 우리는 당신이 당신이 직면 한 상황이 중복되지 않을 수 독특하고 특별한 학생들을했고 알고 그러므로 우리는 이 점수는 귀하가 얼마나 잘 가르쳤는지를 불완전하게 반영하는 추정치 일 뿐이지 만, 사후 테스트 또는 수업에서 얻은 원시 시험 이득에 기초한 것보다 더 공정하고 정확한 추정치입니다. "


2
NB 제발 이러한 생각을 제게하지 마십시오! 요청한대로 명시된 모델을 명확하게 표현하고 방어하기 위해 최선을 다하고 있습니다. 이 모델이 적절한 지, 적용 가능한지, 잘 맞는지 등은 모두 별도의 문제입니다.
whuber

(+1) 마지막 문단은 잘 정리되어 있습니다.
chl

2

여기서 이해해야 할 것이 없습니다.

글쎄, 그것은 단지 표준 선형 회귀 모델입니다. 학생의 점수는 학교 및 교사 효율성 계수를 포함하여 여러 요인의 선형 함수로 설명 될 수 있다고 가정합니다. 따라서 선형 모델의 모든 표준 문제, 주로 비선형의 근사치라는 사실을 공유합니다. 상황에 따라 그리고 얼마나 멀리 외삽을 시도 할 것인지에 따라 완벽하게 또는 난처하게 나빠질 수 있습니다. (그러나 기술 담당자의 저자가 그것을 확인하고 그것이 괜찮다는 것을 알기를 기대해야합니다.).

그러나 실제 문제 는 이것이 분석 도구이므로 사람들의 성취도를 평가하는 데 사용해서는 안된다는 것입니다. 이 경우와 같이 절망적 인 혼란을 만날 것입니다.


3
"여기에는 이해할 수있는 것이 없습니다. 표준 선형 회귀 모델 일뿐입니다."-teehee ..... 수학 공포증에 대한 위안입니다. 나는 당신이 사회학 또는 신이 나를 도와 통신 전공에 대한 통계에서 학부 과정을 가르치는 즐거움을 결코 보지 못했다고 생각합니다.
fabians

@fabians 이것은 단지 내 요점을 증명합니다.-계산보다 복잡한 수학을 가진 사람들과 직면하는 것이이 접근법의 가장 큰 결함입니다.

이것은 유효한 비판, 특히 선형성에 관한 부분이지만, 원래의 질문에 실제로 응답하지는 않습니다 (가설적인 "레이맨"을 불쾌하게하는 것이 아니라면).
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.