데이터 마이닝과 같은 통계에서 데이터와 목표로 시작합니다. 통계에서 추론, 즉 표본을 사용하여 인구 수준 질문에 대답하는 데 많은 초점이 있습니다. 데이터 마이닝에서 초점은 일반적으로 예측입니다. 테스트 데이터를 예측하기 위해 샘플 (트레이닝 데이터)에서 모델을 만듭니다.
통계의 프로세스는 다음과 같습니다.
요약 및 그래프를 사용하여 데이터를 탐색합니다. 통계에 따라 데이터를 처리 한 방식에 따라 일부는 모든 각도에서 데이터를보고 더 개방적인 태도를 취하며 다른 일부 (특히 사회 과학자)는 렌즈를 통해 데이터를 검토합니다. 관심있는 질문
적절한 통계 모델 군 (예 : 연속 Y에 대한 선형 회귀, 이진 Y에 대한 로지스틱 회귀 또는 카운트 데이터의 경우 포아송)을 선택하고 모델 선택을 수행하십시오.
최종 모델 추정
합리적으로 충족되도록 테스트 모델 가정 (데이터 마이닝의 예측 정확도에 대한 테스트와는 다름)
추론에 모델을 사용하십시오. 이것은 데이터 마이닝과 다른 주요 단계입니다. "p-value"라는 단어가 여기에 도착합니다 ...
기본 통계 교재를 살펴보면 탐색 적 데이터 분석에 대한 장과 일부 분포 (합리적 근사 모델을 선택하는 데 도움이 됨), 추론 (신뢰 구간 및 가설 검정) 및 회귀 모델이 있습니다.
나는 당신에게 고전적인 통계 과정을 설명했습니다. 그러나 많은 문제가 있습니다. 추론에 대한 초점은이 분야를 완전히 지배하고 있으며, 예측 (매우 중요하고 유용한)은 거의 무시되었다. 또한 사회 과학자들이 추론에 통계를 사용하는 방법을 살펴보면 통계가 상당히 다르게 사용된다는 것을 알게 될 것입니다! 여기 에 대한 자세한 내용을 확인할 수 있습니다