많은 통계 작업은 대규모 데이터에 대한 경험을 요구합니다. 대규모 데이터 세트 작업에 필요한 통계 및 계산 기술에는 어떤 것이 있습니까? 예를 들어, 천만 개의 샘플이있는 데이터 세트가 제공된 회귀 모델을 작성하는 것은 어떻습니까?
많은 통계 작업은 대규모 데이터에 대한 경험을 요구합니다. 대규모 데이터 세트 작업에 필요한 통계 및 계산 기술에는 어떤 것이 있습니까? 예를 들어, 천만 개의 샘플이있는 데이터 세트가 제공된 회귀 모델을 작성하는 것은 어떻습니까?
답변:
좋은 답변이 이미 나타났습니다. 그러므로 나는 개인적인 경험을 바탕으로 몇 가지 생각을 공유 할 것입니다. 필요에 따라 관련 생각을 자신의 상황에 맞게 조정하십시오.
대한 배경 및 상황따라서이 메시지에 영향을 줄 수있는 개인적인 편견을 설명 할 수 있습니다. 대부분의 작업은 사람들이 상대적으로 작은 데이터 집합을 기반으로 중요한 결정을 내 리도록 돕는 데있었습니다. 데이터를 수집하는 데 비용이 많이 들기 때문에 크기가 작습니다 (예 : 지하수 모니터링 우물의 첫 번째 샘플의 경우 10K 달러, 비정상 화학 물질 분석의 경우 수천 달러). 나는 가능한 모든 데이터를 최대한 활용하고, 데이터를 죽이고, 필요하다면 분석 할 수있는 새로운 방법을 고안하는 데 익숙합니다. 그러나 지난 몇 년 동안 나는 인구 조사 블록 수준에서 미국 전체를 다루는 사회 경제 및 공학 데이터 중 하나와 같은 상당히 큰 데이터베이스에 대해 작업했습니다 (85 만 레코드,
매우 큰 데이터 세트를 사용하면 전체 접근 방식과 사고 방식이 변경 됩니다. 이제이 있습니다 너무 많은 분석 할 수있는 데이터. 회귀 모델링에 중점을 둔 즉각적인 (그리고 회고 적으로) 명백한 영향 중 일부는 다음과 같습니다.
당신이 생각하는 모든 분석에는 많은 시간과 계산이 필요할 수 있습니다. 전체 데이터 세트로 계산할 때 워크 플로우를 계획 할 수 있도록 서브 샘플링 및 부분 데이터 세트 작업 방법 을 개발 해야합니다 . (전체 데이터 세트만큼 풍부한 데이터의 대표 서브 세트가 필요하기 때문에 서브 샘플링이 복잡 할 수 있습니다. 그리고 보류 된 데이터로 모델을 교차 검증 하는 것을 잊지 마십시오 .)
이 때문에 수행 한 작업을 문서화 하고 모든 것을 스크립팅하는 데 더 많은 시간 을 할애하게됩니다 (반복 될 수 있도록).
@dsimcha가 방금 언급했듯이 좋은 프로그래밍 기술 이 유용합니다. 실제로 프로그래밍 환경에 대한 경험이 많이 필요하지는 않지만 프로그래밍에 대한 의지, 프로그래밍이 도움이 될 때를 인식하는 능력 (실제로 거의 모든 단계에서) 및 기본 요소에 대한 이해가 필요합니다. 적절한 데이터 구조의 설계 및 알고리즘의 계산 복잡성을 분석하는 방법과 같은 컴퓨터 과학. 작성하려는 코드가 전체 데이터 세트로 확장되는지 미리 알면 유용합니다 .
일부 데이터 세트는 많은 변수 (수천 또는 수만 개, 모두 다름)가 있으므로 크기가 큽니다. 데이터를 요약하고 이해하는 데 많은 시간을 할애해야합니다 . 코드북 또는 데이터 사전 , 그리고 다른 형태의 메타 데이터는 필수가된다.
대부분의 시간은 단순히 데이터를 옮기고 다시 포맷하는 데 소비됩니다. 큰 데이터베이스를 처리하는 기술과 많은 양의 데이터를 요약하고 그래프로 작성하는 기술이 필요 합니다 . ( Tufte의 작은 배수 가 여기에 온다.)
자주 사용하는 소프트웨어 도구 중 일부가 작동하지 않습니다. 예를 들어 스프레드 시트를 잊어 버리십시오. 많은 오픈 소스 및 아카데믹 소프트웨어는 대용량 데이터 세트를 처리 할 수 없습니다. 처리 시간이 오래 걸리거나 소프트웨어가 다운 될 수 있습니다. 이를 예상하고 주요 작업을 수행하는 여러 가지 방법이 있는지 확인하십시오.
실행하는 거의 모든 통계 테스트는 너무 강력하여 "유의 한"효과를 식별 할 수 있습니다. 유의성보다는 효과 크기와 같은 통계적 중요성 에 훨씬 더 집중해야합니다 .
마찬가지로, 거의 모든 변수와 고려할 수있는 상호 작용이 중요해 보이기 때문에 모델 선택이 번거 롭습니다. 분석하기로 선택한 변수 의 의미 에 더 집중 해야합니다.
변수의 적절한 비선형 변환 을 식별하기에 충분한 정보가있을 것 입니다. 이 작업을 수행하는 방법을 알고 있습니다.
비선형 관계, 추세 변화, 비정 지성, 이분산성 등 을 감지하기에 충분한 데이터가 있습니다 .
당신은 결코 끝나지 않을 것 입니다. 그것들을 영원히 연구 할 수있는 많은 데이터가 있습니다. 따라서 분석 목표를 처음부터 설정하고 지속적으로 염두에 두는 것이 중요합니다.
나는 작은 일화에 비해 큰 데이터 셋을 갖는 회귀 모델링 간의 예기치 않은 차이를 보여주는 짧은 일화로 끝낼 것입니다. Census 데이터가있는 프로젝트가 끝날 무렵, 내가 개발 한 회귀 모델은 클라이언트의 컴퓨팅 시스템에서 구현되어야했으며 관계형 데이터베이스에 SQL 코드를 작성해야했습니다. 이것은 일상적인 단계이지만 데이터베이스 프로그래머가 생성 한 코드에는 수천 줄의 SQL이 포함되었습니다. 버그가 없다는 것을 보장하는 것은 거의 불가능했습니다. 버그를 감지 할 수는 있지만 (테스트 데이터에 다른 결과를 주 었음) 다른 문제를 발견했습니다. (필요한 것은 계수에서 하나의 인쇄 상 오류입니다 ...) 솔루션의 일부 는 모델 추정치에서 직접 SQL 명령을 생성하는 프로그램 을 작성하는 것이 었습니다. 이는 통계 패키지에서 나온 것이 RDBMS에 들어간 것과 정확히 일치 함을 보증했습니다. 보너스로이 스크립트를 작성하는 데 몇 시간을 소비하면 몇 주 동안의 SQL 코딩 및 테스트를 대체 할 수있었습니다. 이는 통계학자가 결과를 전달할 수 있다는 의미의 작은 부분입니다.
귀하의 질문은 좋은 답변을 얻을 것입니다. 여기 몇 가지 시작점이 있습니다.
정밀도와 컴퓨팅 성능에 대한 요구 간의 균형을 맞출 수있는 기능.
회귀를 수행하기 전에 예비 선별 도구로 사용할 수있는 데이터 마이닝 기술을 갖춘 시설. 예를 들어, chaid, cart 또는 신경망.
통계적 중요성과 실제적 중요성 사이의 관계에 대한 깊은 이해. 변수 선택을위한 다양한 방법의 레퍼토리.
교차 검증 본능.
좋은 프로그래밍 기술이 필수입니다. 질식하지 않고 방대한 양의 데이터를 처리 할 수있는 효율적인 코드를 작성할 수 있어야하며, 해당 코드를 병렬화하여 적절한 시간 내에 실행할 수 있어야합니다.
또한 대규모 데이터에도 잠재적 인 "잘못된 데이터"문제가 발생한다고 덧붙였습니다. 데이터가 누락되었을뿐만 아니라 데이터를 건드린 시스템의 모든 부분에서 데이터 오류와 일관되지 않은 정의가 도입되었습니다. 따라서 통계 기술 외에도 다른 사람이 대신하지 않는 한 전문가 데이터 정리 전문가가되어야합니다.
랄프 윈터스