데이터 전처리 및 이상치 탐지 기술을 다루는 훌륭한 책


11

제목이 올라 가면서, 일반적으로 데이터 전처리, 특히 이상치 탐지 기술을 다루는 최신의 좋은 책을 아는 사람이 있습니까?

이 책은 그것에 독점적으로 초점을 맞출 필요는 없지만 앞에서 언급 한 주제를 철저히 다루어야합니다. 나는 시작점에 만족하지 않고 논문 목록을 인용하며 다양한 기술에 대한 설명이 책 자체.

누락 된 데이터를 처리하는 기술이 바람직하지만 반드시 필요한 것은 아닙니다 ...


어떤 종류의 데이터 (과학 분야 또는 측정 기술)를보고 있는지 말씀해 주시겠습니까?
SX에 불만족 cbeeites

웹 사용자로부터 수집 한 데이터 (보다 구체적 일 수는 없음) 타임 스탬프 (데이터가 시간적으로, 적어도 직관적으로 엄격하게 관련되어 있지는 않지만), 범주 속성 및 연속 속성이 포함됩니다. 여러 가지 이유로 인해 특이 치가 발생할 수 있습니다. 웹 로봇, 악의적 인 사용자 및 더 많은 소스. 데이터도 상당히 큽니다 (CSV 형식의 GB, 수백만 개의 항목)
em70

저에게는 충분히 구체적입니다 : 화학 또는 분광 데이터 세트에 대한 전처리 과정을 수행 할 필요가 없습니다 ...
SX에 불만족하는 클레어

답변:


3

Stata와 관련이 있지만 Scott Long의 저서 인 Stata를 사용한 데이터 분석 워크 플로 는 데이터 관리 및 준비 분야에서 매우 중요합니다. 필자는 데이터 정리 및 보관, 이상 값 확인 및 누락 된 데이터 처리와 같은 데이터 관리의 모범 사례와 관련하여 유용한 조언을 많이 제공합니다.


2
저도이 책을 좋아하지만 데이터 관리에 관한 한 Stata 사용자입니다. 동의하지 않지만이 목록의 다른 사람들은 Stata가 너무 유용해서 유용하지 않다고 주장했습니다.
Dimitriy V. Masterov

내가 수집 한 것으로부터 매우 스타 티쉬하고, 나는 스타 타에 익숙하지도 않고, 만약 내가 (데이터가 너무 커서 다른 기술을 사용하는 경우)이 프로젝트에 도움이되지도 않는다
em70

이 책은 실제로 매우 특이합니다. 특정 데이터 (특히 메타 데이터) 처리 기술은 Stata에 따라 다르지만 일반적인 아이디어는 플랫폼간에 양도 할 수 있습니다. 시장에 약 20 개의 Stata 서적 / 100 개의 R 서적의 비율로 R의 워크 플로우 구성에 관한 책이없는 것이 놀랍습니다. 후자는 불가능합니까? Stata에 할당 한 메모리 중 가장 큰 메모리는 64Gb 시스템에서 48Gb, 즉 크기가 중요한지 여부입니다. 매우 다른 구조의 객체를 조작해야하는 경우 Stata가 아닌 R에서이 작업을 수행하려고합니다.
StasK

0

SAS의 경우 SAS 소프트웨어를 사용하는 Ron Cody의 데이터 정리 기술이 있습니다. SAS-L에는 "론 코디 (Ron Cody)의 책으로 잘못 될 수 없습니다"라는 말이 있습니다.


SAS가 내 환경에서 선택 도구가 아니거나 익숙하지 않을까 걱정됩니다. 게다가, 나는 요리 책보다는 접근 방식을 찾고 있습니다. 내가 수학적 측면과 모델링 측면에서 더 많은 것을 추구한다고 가정 해 봅시다.
em70

0

주제에 따라 기본 사항 (이상치 식별, 결 측값, 가중치, 코딩)이있는 경우 일반 학술 문헌에서 더 많은 내용을 찾을 수 있습니다. 예를 들어, 조사 연구 (많은 일이 잘못 될 수 있고 많은 편견이 발생하기 쉬운 주제)에는 좋은 기사가 많이 있습니다.

규칙적인 Crossection Regression을 준비 할 때 상황 덜 복잡 할 수 있습니다. 예를 들어 너무 많은 '이상 값'을 제거하여 모델을 인위적으로 잘 맞추는 문제가있을 수 있습니다.

따라서 좋은 기술을 배우는 것 외에도 상식을 유지하는 것이 좋습니다. 맹목적으로가 아니라 올바른 방법으로 기술을 적용하십시오. 다른 답변의 소프트웨어 토론에 관해서는. SPSS는 데이터 세트 크기에 따라 데이터 준비에 나쁘지 않다고 생각합니다 (SAS에 대한 좋은 소식도 들었습니다). 드롭 다운 메뉴는 매우 직관적입니다.

그러나 귀하의 질문에 대한 직접적인 답변으로, 학술 문헌은 주제와 분석에 따라 귀하의 데이터 준비를위한 아주 좋은 출처 일 수도 있고 그렇지 않을 수도 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.