이 질문이 어디에 있는지 확실하지 않습니다 : Cross Validated 또는 The Workplace. 그러나 내 질문은 모호하게 통계와 관련이 있습니다.
"데이터 과학 인턴"으로 일하면서이 질문이 생겼습니다. 이 선형 회귀 모형을 작성하고 잔차 그림을 조사했습니다. 나는 이분산성의 명백한 표시를 보았다. 이분산성은 신뢰 구간 및 t- 검정과 같은 많은 검정 통계량을 왜곡한다는 것을 기억합니다. 그래서 나는 대학에서 배운 것을 따라 가중 최소 제곱을 사용했습니다. 관리자는이를 확인하고 "내가 복잡하게 만들었 기 때문에"그렇게하지 말라고 권했습니다. 이는 전혀 설득력없는 이유가 아니 었습니다.
또 다른 예는 "p- 값이 중요하지 않으므로 설명 변수를 제거하는 것"입니다. 따라서이 조언은 논리적 관점에서 의미가 없습니다. 내가 배운 것에 따르면, 중요하지 않은 p- 값은 기회, 잘못된 모델 사용, 가정 위반 등의 다른 이유로 인해 발생할 수 있습니다.
또 다른 예는 k- 폴드 교차 검증을 사용하여 모델을 평가한다는 것입니다. 결과에 따르면 은 보다 낫습니다 . 그러나 우리는 모델 1에 대해 가 더 낮 으며 그 이유는 intercept와 관련이 있습니다. 그러나 관리자는 가 더 높기 때문에 모델 2를 선호하는 것 같습니다 . 그의 이유 (예 : 가 강력하거나 교차 검증이 통계적 접근법이 아닌 기계 학습 접근법 임)가 내 마음을 바꿀만큼 설득력이없는 것 같습니다. C R 2R 2
대학을 졸업 한 사람으로서 나는 매우 혼란스러워합니다. 실제 문제를 해결하기 위해 올바른 통계를 적용하는 데 매우 열정적이지만 다음 중 어떤 것이 사실인지 모르겠습니다.
- 내가 스스로 배운 통계는 잘못되었으므로 실수를 저지르고 있습니다.
- 회사의 이론적 통계와 건물 모델 간에는 큰 차이가 있습니다. 통계 이론은 옳지 만 사람들은 그것을 따르지 않습니다.
- 관리자가 통계를 올바르게 사용하고 있지 않습니다.
2017 년 4 월 17 일 업데이트 : 박사 학위를 받기로 결정했습니다. 통계에서. 답장을 보내 주셔서 감사합니다.