제목이 올라 가면서, 일반적으로 데이터 전처리, 특히 이상치 탐지 기술을 다루는 최신의 좋은 책을 아는 사람이 있습니까?
이 책은 그것에 독점적으로 초점을 맞출 필요는 없지만 앞에서 언급 한 주제를 철저히 다루어야합니다. 나는 시작점에 만족하지 않고 논문 목록을 인용하며 다양한 기술에 대한 설명이 책 자체.
누락 된 데이터를 처리하는 기술이 바람직하지만 반드시 필요한 것은 아닙니다 ...
제목이 올라 가면서, 일반적으로 데이터 전처리, 특히 이상치 탐지 기술을 다루는 최신의 좋은 책을 아는 사람이 있습니까?
이 책은 그것에 독점적으로 초점을 맞출 필요는 없지만 앞에서 언급 한 주제를 철저히 다루어야합니다. 나는 시작점에 만족하지 않고 논문 목록을 인용하며 다양한 기술에 대한 설명이 책 자체.
누락 된 데이터를 처리하는 기술이 바람직하지만 반드시 필요한 것은 아닙니다 ...
답변:
Stata와 관련이 있지만 Scott Long의 저서 인 Stata를 사용한 데이터 분석 워크 플로 는 데이터 관리 및 준비 분야에서 매우 중요합니다. 필자는 데이터 정리 및 보관, 이상 값 확인 및 누락 된 데이터 처리와 같은 데이터 관리의 모범 사례와 관련하여 유용한 조언을 많이 제공합니다.
SAS의 경우 SAS 소프트웨어를 사용하는 Ron Cody의 데이터 정리 기술이 있습니다. SAS-L에는 "론 코디 (Ron Cody)의 책으로 잘못 될 수 없습니다"라는 말이 있습니다.
주제에 따라 기본 사항 (이상치 식별, 결 측값, 가중치, 코딩)이있는 경우 일반 학술 문헌에서 더 많은 내용을 찾을 수 있습니다. 예를 들어, 조사 연구 (많은 일이 잘못 될 수 있고 많은 편견이 발생하기 쉬운 주제)에는 좋은 기사가 많이 있습니다.
규칙적인 Crossection Regression을 준비 할 때 상황 이 덜 복잡 할 수 있습니다. 예를 들어 너무 많은 '이상 값'을 제거하여 모델을 인위적으로 잘 맞추는 문제가있을 수 있습니다.
따라서 좋은 기술을 배우는 것 외에도 상식을 유지하는 것이 좋습니다. 맹목적으로가 아니라 올바른 방법으로 기술을 적용하십시오. 다른 답변의 소프트웨어 토론에 관해서는. SPSS는 데이터 세트 크기에 따라 데이터 준비에 나쁘지 않다고 생각합니다 (SAS에 대한 좋은 소식도 들었습니다). 드롭 다운 메뉴는 매우 직관적입니다.
그러나 귀하의 질문에 대한 직접적인 답변으로, 학술 문헌은 주제와 분석에 따라 귀하의 데이터 준비를위한 아주 좋은 출처 일 수도 있고 그렇지 않을 수도 있습니다.