예측이 통계량의 능력을 판단하는 '골든 기준'입니까?


13

지난 주말에 R (1st edition)로 Faraway의 교과서 선형 모델을 읽었습니다 . Faraway에는 "통계 전략 및 모델 불확실성"이라는 장이있었습니다. 그는 매우 복잡한 모델을 사용하여 인위적으로 일부 데이터를 생성했다고 설명하고 (158 페이지), 학생들에게 데이터를 모델링하고 학생들의 예측 결과 읽은 결과를 비교하도록 요청했습니다 . 불행히도 대부분의 학생들은 테스트 데이터를 과도하게 맞추고 예측 된 값을 완전히 벗어났습니다. 이 현상을 설명하기 위해 그는 나에게 매우 인상적인 것을 썼습니다.

"모델이 너무 다른 이유는 학생들이 다양한 방법으로 여러 가지 방법을 적용했기 때문입니다. 일부는 변형하기 전에 변수 선택을 수행했고, 다른 것들은 반대를 반대했습니다. 일부는 모델을 변경 한 후에도 방법을 반복했지만 다른 것들은 그렇지 않았습니다. 것을 사용하는 학생들의 여러 가지와 분명히 뭔가 잘못 찾을 수 없습니다 그들이 한 일에 있습니다. 한 학생은 계산에 실수를 자신의 값을 예측하지만, 나머지 부분에서 분명히 아무 문제가 없었다. 이 과제에 대한 성능은 보여주지 않았다 시험과 관련이 있습니다. "

모델 예측 정확도가 최고의 모델 성능을 선택하는 데있어 '골든 기준'이라는 사실을 알게되었습니다. 내가 실수하지 않으면, 이것은 Kaggle 대회에서 사용되는 인기있는 방법이기도합니다. 그러나 여기서 Faraway는 모델 예측 성능 과 관련이없는 다른 특성을 관찰했습니다.통계의 능력과 관련된. 다시 말해, 예측력 측면에서 최상의 모델을 구축 할 수 있는지 여부는 실제 경험에 따라 결정되지 않습니다. 대신 그것은 거대한 '모델 불확실성'에 의해 결정됩니다 (맹검? 내 질문은 : 실제 데이터 분석에서도 마찬가지입니까? 아니면 매우 기본적인 것과 혼동 되었습니까? 이것이 사실이라면 실제 데이터 분석에 대한 의미는 엄청납니다. 데이터 뒤에 "실제 모델"을 모르면 경험이 많거나 경험이 부족한 통계학자가 수행 한 작업간에 본질적인 차이가 없습니다. 유효한 훈련 자료.


2
+1 좋은 질문입니다. 다른 각도를 제공하기 위해 분석가 중 하나가 실제 모드를 알고 있다고 가정하면 예측도 나쁠 수 있습니다! 실제 모델을 알고 있더라도 이것을 볼 수 있습니다. Psychometrika에서 Haggerty and Srivinasans 1991의 관측이 중요 할 수있다. "예측 정확도가 더 높은 모델이"truer "라는 결론을 내리는 관행은 유효한 추론이 아니다".
Momo

1
책을 아직 보지 않았지만 "가변 선택"과 "변환"은 이미 경고 벨을 울립니다. 자동 모델 선택예측 변수와 회귀 종속 관계의 관계 특성은 알고리즘을 참조하십시오 . 또한 통계 학생들의 시험 성과를 통계학 자의 실제 능력과 혼동하지 않을 것입니다.
Scortchi-Monica Monica 복원

2
Faraway가 제공 한이 정보는 통계 분야에 대한 전반적인 일반 원칙의 기초로 사용되는 것은 끔찍한 일화로 보입니다. 재현 할 수없는 예를 기반으로 예측 모델링에 대한 모델을 구성하고 싶지 않습니다. 그들이 쑤시거나 체리 픽을했을 수도 있습니다.
rolando2

3
이 일화에서 도출 할 수있는 논리적으로 유효한 결론 중 하나는 Faraway의 학생들 중 어느 누구도 자신의 예측 테스트를 잘 수행하는 데 필요한 기술을 습득하지 못했다는 것입니다. 이 결과와 숙련 된 통계학 자의 수행 방식에 대한 귀하의 추측 사이에는 전혀 관련이 없습니다.
whuber

@ whuber : 나는 그렇게 생각하지 않습니다. 나는 28 명의 학생들이 약간 작다는 것에 동의하지만,이 실제 관찰은 심각한 영향을 미친다고 생각합니다. Faraway가 실제 모델을 만들고 여러 학생의 작업을 계속 한 경우 심각한 실수를 찾을 수는 없었지만 예측은 예상과 다릅니다. 그런 다음 여기에는 '모델 불확실성'에 관한 내용이 나와 있는데, 원래 분석가가 '경험이 있더라도'차이를 비교하기 위해 별도의 분석가가 수행해야하는 작업이 필요합니다. 나는 이것이 나에게 매우 놀랍다 고 생각합니다.
Bombyx mori

답변:


1

나는 부서의 교수에게 이것에 대해 물었다. 그는 솔직히 말해서 전혀 놀라지 않았다고 말했다. 그는이를 살펴보기 위해 다음과 같은 방법을 제안했습니다. Faraway는 한 번의 실험 일 뿐이며 결과가 최종 성적과 상관 관계가없는 것으로 보이는 것은 놀라운 일이 아닙니다. 그러나 Faraway가 같은 그룹의 학생들과 함께 '실험'을 100 번 반복한다면, 학생들은 신뢰 구간과 유사하게 통계가 더 잘 수행되었다는 것을 알게 될 것입니다. 따라서 그의 의견 경험에서 중요한 것은, 모형 불확실성으로 인해 사회적 실험이 그것을 보여줄 수 없었던 것은 단 한 번뿐입니다.


나는 그 변명이 재미 있다는 것을 안다. 이것이 통계가 "데이터 과학"으로 대체되거나 브랜드화되는 이유라고 생각합니다. 사람들은 대학에서 강의 한 통계가 예측에 적합하지 않으며 예측력이없는 모델은 쓸모가 없다는 것을 깨닫기 시작했습니다.
Flounderer

1
@ Flounderer : 나는 이것이 실제로 변명이 아니라고 생각하며, 당신이 쓴 것이이 사건과 관련이 없을 수도 있습니다. 실제 생활에서 가장 많은 시간은 Faraway의 경우와 달리 하나의 테스트 세트와 트레이닝 세트 만 있습니다. 둘째, Faraway의 모형을 살펴보면 회귀 분석법이 제대로 작동하지 않는 비선형입니다. 따라서 모든 선형 모형은 단순한 추측 일뿐입니다. 실험의 도덕은 "대학에 의한 통계는 예측에 그리 좋지 않다"보다는 "모든 모델이 잘못되었다"는 것이다.
Bombyx mori

@Flounderer : 다시 말해, 20 년 전에 내가이 훈련 된 훈련 세트에 직면 한 Faraway 학생의 입장에 있다면, 우리는 선형 모델을 사용하는 것이 더 나을 것 같지 않습니다. 나는 이것이 "대학에 대한 통계"와 전혀 관련이 없다고 생각합니다.
Bombyx mori

1

학생들의 모델은 거의 모두 초과 적합했습니다. n 개의 데이터 포인트를 사용하면 항상 차수 n-1의 완벽한 다항식에 적합 할 수 있습니다. 이러한 모델은 기한이 지남에 따라 임의의 오류가 발생하지 않습니다. 학생들이 비슷한 과적 오류를 냈지만 다른 기능을 가진 것으로 보입니다.

과적 합은 학생 만이해야 할 실수입니다. 그리고 이것은 경험과 교육이 모델링에 필요한 자격임을 암시합니다.


2
"과적 합은 학생들 만이해야 할 오류"는 매우 높은 기준입니다. 모델링이 어렵습니다. 어쩌면 "모델러가 경험과 교육을 통해 인식하고 피하는 법을 과장하는 것"과 같은 것이 진실에 더 가깝습니까?
Matthew Drury
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.