데이터를 사용하여 비즈니스 문제를 해결할 때 고전 통계를 과소 평가하는 최소한 하나의 주요 가정이 유효하지 않은 것이 일반적입니다. 대부분의 경우 아무도 그러한 가정을 확인하지 않아도되므로 실제로 알 수 없습니다.
예를 들어, 많은 일반 웹 메트릭이 "정규 분포"에 비해 "긴 꼬리"라는 사실은 당연히 문서화되어 당연한 것으로 간주됩니다. 또 다른 예를 들자면, 온라인 커뮤니티는 심지어 수천 명의 회원이있는 커뮤니티에서도 많은 커뮤니티에서 기여 / 참여의 가장 큰 부분이 소수의 '슈퍼 기여자'그룹에 기인 한 것으로 잘 알려져 있습니다. (예를 들어, 몇 달 전, SO API가 베타 버전으로 출시 된 직후 StackOverflow 회원은 API를 통해 수집 한 데이터에서 간단한 분석을 발표했습니다. 그의 결론 은 SO 회원 중 1 % 미만이 SO에 대한 활동 (아마도 질문하고 대답하기), 나머지 1-2 %가 나머지를 설명했으며 압도적 인 대다수의 회원은 아무것도하지 않습니다.
이런 종류의 분포는 예외보다는 규칙보다 더 자주, 종종 법칙 밀도 함수 로 가장 잘 모델링됩니다 . 이러한 분포 유형의 경우 중앙 한계 정리조차 적용하기에 문제가 있습니다.
따라서 분석가들이 관심을 가질만한이와 같은 인구가 풍부하고 고전적인 모델 이이 데이터에서 명백히 좋지 않은 성능을 보이며 견고하고 저항력있는 방법이 오랫동안 (적어도 20 년 동안) 있다고 생각한 이유는 무엇입니까? 더 자주 사용되지 않습니까? (이유도 궁금 내가 더 자주 사용하지 않는,하지만 정말에 대한 질문이 아니다 CrossValidated .)
예, 전 전적으로 강력한 통계에 전념하는 교과서 장이 있으며 R 패키지 ( 강력한베이스 는 내가 익숙하고 사용하는 것)가 있음을 알고 있습니다.
그러나 이러한 기술의 명백한 장점을 감안할 때, 이들은 분명히 작업을위한 더 나은 도구 일 것입니다. 왜 더 자주 사용하지 않습니까? 기존 아날로그와 비교했을 때 강력하고 저항력있는 통계가 훨씬 더 자주 (아마도 추정되는) 사용되는 것을 기 대해서는 안됩니까?
내가 들었던 유일하고 실질적인 (즉, 기술적 인) 설명은 강력한 기술 (저항성 방법과 마찬가지로)이 고전 기술의 힘 / 민감도 부족하다는 것입니다. 이것이 실제로 어떤 경우에 해당되는지 모르겠지만, 많은 경우에 그것이 사실이 아니라는 것을 알고 있습니다.
선점의 마지막 단어 : 예 나는이 질문에 명백히 정확한 답이 하나도 없다는 것을 알고 있습니다. 이 사이트에 대한 질문은 거의 없습니다. 또한이 질문은 진지한 질문입니다. 관점을 발전시키는 것은 구실이 아닙니다. 여기에는 관점이 없으며, 통찰력있는 답변을 기대하는 질문 일뿐입니다.