통계 모델링을 시작하기위한 팁과 요령?


10

저는 데이터 마이닝 분야에서 일하며 통계 학습은 거의 없었습니다. 최근에 저는 학습과 채굴을위한 베이지안 패러다임에 초점을 맞춘 많은 일을 읽었습니다.

내 질문은 (여러 부분으로) 있는데, 문제가 주어지면 통계 모델을 구성 할 수있는 일반적인 프레임 워크가 있습니까? 기본 프로세스를 모델링하려는 데이터 세트가 제공 될 때 가장 먼저해야 할 일은 무엇입니까? 이 과정을 설명하는 좋은 책 / 자습서가 있습니까, 아니면 경험의 문제입니까? 모델을 구성 할 때 가장 먼저 추론을하고 있습니까? 아니면 데이터를 사용하여 계산하는 방법에 대해 걱정하기 전에 먼저 데이터를 설명하려고합니까?

모든 통찰력은 크게 감사하겠습니다! 감사.


4
안녕 닉-이력서에 오신 것을 환영합니다. 귀하의 질문은 매우 광범위합니다. 작은 질문으로 나뉘면 좋은 답변을 얻는 것이 더 좋을 것입니다. 일단 그렇게하면 일부 답변이 이미 여기에있을 수 있습니다. 그러나 최소한 "커뮤니티 위키"로 질문을 표시해야합니다. 이는 기본적으로 일반적인 경쟁 답변 형식 대신 전체 답변이 답변으로 간주됨을 의미합니다.
Matt Parker

1
@Matt 질문에 대한 CW 확인란이 더 이상 나타나지 않습니다. 모드는 필요에 따라 질문을 CW로 표시해야합니다.

@Nick .. 나도 새롭다. 나는 일반적인 일과 가장 중요한 일이 당신이 당신의 출력 변수를 어떻게 설명하고 싶은지 생각합니다. 하루가 끝나면 출력 변수를 관찰 / 모델링하기를 원하기 때문입니다. 다음으로 필요한 것은 필요한 변수를 모델링하는 방법이 무엇인지 생각하는 것입니다. 다음에 오는 것은 변수가 이분법이라면 절차는 로짓 모델입니다. 다양한 문제가 발생합니다.
ayush biyani

답변:


6

데이터 마이닝과 같은 통계에서 데이터와 목표로 시작합니다. 통계에서 추론, 즉 표본을 사용하여 인구 수준 질문에 대답하는 데 많은 초점이 있습니다. 데이터 마이닝에서 초점은 일반적으로 예측입니다. 테스트 데이터를 예측하기 위해 샘플 (트레이닝 데이터)에서 모델을 만듭니다.

통계의 프로세스는 다음과 같습니다.

  1. 요약 및 그래프를 사용하여 데이터를 탐색합니다. 통계에 따라 데이터를 처리 한 방식에 따라 일부는 모든 각도에서 데이터를보고 더 개방적인 태도를 취하며 다른 일부 (특히 사회 과학자)는 렌즈를 통해 데이터를 검토합니다. 관심있는 질문

    1. 적절한 통계 모델 군 (예 : 연속 Y에 대한 선형 회귀, 이진 Y에 대한 로지스틱 회귀 또는 카운트 데이터의 경우 포아송)을 선택하고 모델 선택을 수행하십시오.

    2. 최종 모델 추정

    3. 합리적으로 충족되도록 테스트 모델 가정 (데이터 마이닝의 예측 정확도에 대한 테스트와는 다름)

    4. 추론에 모델을 사용하십시오. 이것은 데이터 마이닝과 다른 주요 단계입니다. "p-value"라는 단어가 여기에 도착합니다 ...

기본 통계 교재를 살펴보면 탐색 적 데이터 분석에 대한 장과 일부 분포 (합리적 근사 모델을 선택하는 데 도움이 됨), 추론 (신뢰 구간 및 가설 검정) 및 회귀 모델이 있습니다.

나는 당신에게 고전적인 통계 과정을 설명했습니다. 그러나 많은 문제가 있습니다. 추론에 대한 초점은이 분야를 완전히 지배하고 있으며, 예측 (매우 중요하고 유용한)은 거의 무시되었다. 또한 사회 과학자들이 추론에 통계를 사용하는 방법을 살펴보면 통계가 상당히 다르게 사용된다는 것을 알게 될 것입니다! 여기 에 대한 자세한 내용을 확인할 수 있습니다


2

책이있는 한 Hastie, Tibshirani 및 Friedman의 "통계학 학습 요소"는 매우 좋습니다.

전체 책은 저자의 웹 사이트 에서 구할 수 있습니다 . 그것이 귀하의 요구에 적합한 지 살펴볼 수 있습니다.



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.