대규모 통계 분석을 수행하려면 어떤 기술이 필요합니까?


107

많은 통계 작업은 대규모 데이터에 대한 경험을 요구합니다. 대규모 데이터 세트 작업에 필요한 통계 및 계산 기술에는 어떤 것이 있습니까? 예를 들어, 천만 개의 샘플이있는 데이터 세트가 제공된 회귀 모델을 작성하는 것은 어떻습니까?


1
여기 좋은 포인터가 있습니다 .
radek

가장 좋다고 생각되는 것을 요약하면 도움이 될 것입니다.
rolando2

또한 대규모 데이터 세트를 사용한 가설 검정에 대한 관련 논의가 흥미 롭습니다. stats.stackexchange.com/q/2516/919
whuber

답변:


115

좋은 답변이 이미 나타났습니다. 그러므로 나는 개인적인 경험을 바탕으로 몇 가지 생각을 공유 할 것입니다. 필요에 따라 관련 생각을 자신의 상황에 맞게 조정하십시오.

대한 배경 및 상황따라서이 메시지에 영향을 줄 수있는 개인적인 편견을 설명 할 수 있습니다. 대부분의 작업은 사람들이 상대적으로 작은 데이터 집합을 기반으로 중요한 결정을 내 리도록 돕는 데있었습니다. 데이터를 수집하는 데 비용이 많이 들기 때문에 크기가 작습니다 (예 : 지하수 모니터링 우물의 첫 번째 샘플의 경우 10K 달러, 비정상 화학 물질 분석의 경우 수천 달러). 나는 가능한 모든 데이터를 최대한 활용하고, 데이터를 죽이고, 필요하다면 분석 할 수있는 새로운 방법을 고안하는 데 익숙합니다. 그러나 지난 몇 년 동안 나는 인구 조사 블록 수준에서 미국 전체를 다루는 사회 경제 및 공학 데이터 중 하나와 같은 상당히 큰 데이터베이스에 대해 작업했습니다 (85 만 레코드,

매우 큰 데이터 세트를 사용하면 전체 접근 방식과 사고 방식이 변경 됩니다. 이제이 있습니다 너무 많은 분석 할 수있는 데이터. 회귀 모델링에 중점을 둔 즉각적인 (그리고 회고 적으로) 명백한 영향 중 일부는 다음과 같습니다.

  • 당신이 생각하는 모든 분석에는 많은 시간과 계산이 필요할 수 있습니다. 전체 데이터 세트로 계산할 때 워크 플로우를 계획 할 수 있도록 서브 샘플링 및 부분 데이터 세트 작업 방법개발 해야합니다 . (전체 데이터 세트만큼 풍부한 데이터의 대표 서브 세트가 필요하기 때문에 서브 샘플링이 복잡 할 수 있습니다. 그리고 보류 된 데이터로 모델을 교차 검증 하는 것을 잊지 마십시오 .)

    • 이 때문에 수행 한 작업을 문서화 하고 모든 것을 스크립팅하는 데 더 많은 시간할애하게됩니다 (반복 될 수 있도록).

    • @dsimcha가 방금 언급했듯이 좋은 프로그래밍 기술 이 유용합니다. 실제로 프로그래밍 환경에 대한 경험이 많이 필요하지는 않지만 프로그래밍에 대한 의지, 프로그래밍이 도움이 될 때를 인식하는 능력 (실제로 거의 모든 단계에서) 및 기본 요소에 대한 이해가 필요합니다. 적절한 데이터 구조의 설계 및 알고리즘의 계산 복잡성을 분석하는 방법과 같은 컴퓨터 과학. 작성하려는 코드가 전체 데이터 세트로 확장되는지 미리 알면 유용합니다 .

    • 일부 데이터 세트는 많은 변수 (수천 또는 수만 개, 모두 다름)가 있으므로 크기가 큽니다. 데이터를 요약하고 이해하는 데 많은 시간을 할애해야합니다 . 코드북 또는 데이터 사전 , 그리고 다른 형태의 메타 데이터는 필수가된다.

  • 대부분의 시간은 단순히 데이터를 옮기고 다시 포맷하는 데 소비됩니다. 큰 데이터베이스를 처리하는 기술과 많은 양의 데이터를 요약하고 그래프로 작성하는 기술이 필요 합니다 . ( Tufte의 작은 배수 가 여기에 온다.)

  • 자주 사용하는 소프트웨어 도구 중 일부가 작동하지 않습니다. 예를 들어 스프레드 시트를 잊어 버리십시오. 많은 오픈 소스 및 아카데믹 소프트웨어는 대용량 데이터 세트를 처리 할 수 ​​없습니다. 처리 시간이 오래 걸리거나 소프트웨어가 다운 될 수 있습니다. 이를 예상하고 주요 작업을 수행하는 여러 가지 방법이 있는지 확인하십시오.

  • 실행하는 거의 모든 통계 테스트는 너무 강력하여 "유의 한"효과를 식별 할 수 있습니다. 유의성보다는 효과 크기와 같은 통계적 중요성 에 훨씬 더 집중해야합니다 .

  • 마찬가지로, 거의 모든 변수와 고려할 수있는 상호 작용이 중요해 보이기 때문에 모델 선택이 번거 롭습니다. 분석하기로 선택한 변수 의미 에 더 집중 해야합니다.

  • 변수의 적절한 비선형 변환식별하기에 충분한 정보가있을 것 입니다. 이 작업을 수행하는 방법을 알고 있습니다.

  • 비선형 관계, 추세 변화, 비정 지성, 이분산성 등 을 감지하기에 충분한 데이터가 있습니다 .

  • 당신은 결코 끝나지 않을 것 입니다. 그것들을 영원히 연구 할 수있는 많은 데이터가 있습니다. 따라서 분석 목표를 처음부터 설정하고 지속적으로 염두에 두는 것이 중요합니다.

나는 작은 일화에 비해 큰 데이터 셋을 갖는 회귀 모델링 간의 예기치 않은 차이를 보여주는 짧은 일화로 끝낼 것입니다. Census 데이터가있는 프로젝트가 끝날 무렵, 내가 개발 한 회귀 모델은 클라이언트의 컴퓨팅 시스템에서 구현되어야했으며 관계형 데이터베이스에 SQL 코드를 작성해야했습니다. 이것은 일상적인 단계이지만 데이터베이스 프로그래머가 생성 한 코드에는 수천 줄의 SQL이 포함되었습니다. 버그가 없다는 것을 보장하는 것은 거의 불가능했습니다. 버그를 감지 할 수는 있지만 (테스트 데이터에 다른 결과를 주 었음) 다른 문제를 발견했습니다. (필요한 것은 계수에서 하나의 인쇄 상 오류입니다 ...) 솔루션의 일부 는 모델 추정치에서 직접 SQL 명령을 생성하는 프로그램작성하는 것이 었습니다. 이는 통계 패키지에서 나온 것이 RDBMS에 들어간 것과 정확히 일치 함을 보증했습니다. 보너스로이 스크립트를 작성하는 데 몇 시간을 소비하면 몇 주 동안의 SQL 코딩 및 테스트를 대체 할 수있었습니다. 이는 통계학자가 결과를 전달할 수 있다는 의미의 작은 부분입니다.


3
+1, 나는이 훌륭한 반응을 공유 할 것입니다. (그리고 그것을 ^ _ ^ 근처에 인쇄하십시오)
Dmitrij Celov

1
+1, 이것은 앞으로 몇 년 동안 학생들에게 확실히 말할 것입니다.
mpiktas

2
일화는 제가 Eviews에서 R로 모델을 이전해야 할 때를 상기시켜주었습니다. 원래 모델은 Eviews에서 이루어졌으며 결과는 약 20 개의 방정식이었습니다. 대화 형 인터페이스로 웹 페이지에 결과를 제시해야했습니다. 모델이 진행 중이었기 때문에 정확한 모델이 Eviews와 R에서 모두 사용 된 것과 동일한 목적으로 Eviews의 출력을 R 코드로 변환하는 코드를 작성했습니다 .R은 매우 훌륭하게 작동했습니다. 분석 기울기 계산 용.
mpiktas

2
명확하지 않은 이유가없는 한 (예 : 한 줄 모호한 응답, 잘못된 답변 업데이트 요청에 대한 응답 없음, 불쾌한 행동). 이것은 유효한 논증이있을 때 응답의 질을 향상시키는 데 기여합니다. 이 특별한 경우 에는 공감할 이유없습니다 !
chl

2
자동화를 위해 +1은 오류를 줄입니다. " 모델 추정치에서 직접 SQL 명령을 생성 한 프로그램을 작성하십시오 ."
오리온

18

귀하의 질문은 좋은 답변을 얻을 것입니다. 여기 몇 가지 시작점이 있습니다.

  1. 정밀도와 컴퓨팅 성능에 대한 요구 간의 균형을 맞출 수있는 기능.

  2. 회귀를 수행하기 전에 예비 선별 도구로 사용할 수있는 데이터 마이닝 기술을 갖춘 시설. 예를 들어, chaid, cart 또는 신경망.

  3. 통계적 중요성과 실제적 중요성 사이의 관계에 대한 깊은 이해. 변수 선택을위한 다양한 방법의 레퍼토리.

  4. 교차 검증 본능.


또한 # 4와 # 1을 결합하여 컴퓨팅 리소스에 부담을주지 않으면 서 교차 검증하는 방법을 아는 것이 중요합니다.
Zach

1
두 번째 요점을 설명해 주시겠습니까? CHAID / CART / neural 네트워크를 회귀 검사 도구로 어떻게 사용 하시겠습니까?
raegtin

2
@raegtin-저는 CHAID에 가장 익숙합니다. CHAID는 소위 "상호 작용"이 종종 발생합니다. 이는 소위 "상호 작용"으로 나타나는 가장 큰 영향입니다. CHAID에는 하나의 주요 효과 만 표시 될 수 있으므로 다른 모든 주요 효과는 "상호 작용"셀로 압축됩니다. 그러나 CHAID는 많은 상호 작용을 확인할 수 있다는 이점이 있습니다. 따라서 유망한 몇 가지가 확인되면 모든 하위 요소와 함께 회귀 또는 분산 분석에 통합 할 수 있으며 어느 것이 실제로 유용한 지 테스트 할 수 있습니다.
rolando2

1
+1 잠재적 인 효과를 탐색하기 위해 데이터 마이닝 (특히 CHAID)을 사용할 가능성에 흥미가 있습니다. 이 같은에서 인공 (소) 데이터 세트와 같은 응용 프로그램을 보는 것도 흥미로울 것이다 stats.stackexchange.com/q/10363/919
whuber의

12

좋은 프로그래밍 기술이 필수입니다. 질식하지 않고 방대한 양의 데이터를 처리 할 수있는 효율적인 코드를 작성할 수 있어야하며, 해당 코드를 병렬화하여 적절한 시간 내에 실행할 수 있어야합니다.


4
코딩은 필수이지만 OS에 반대하지 않고 작업하는 방법을 아는 것도 중요합니다. 디스크와 네트워크에 액세스하는 데 추가 비용이 발생하기 때문에 때때로 작업을 분할하면 추가 비용이 발생한다는 것을 이해해야합니다. 프로세스 간 통신을 차단하고 대기하고 수행하는 다양한 방법을 이해해야합니다. 나는 대부분의 시스템 호출이 끝나기를 기다리는 데 많은 시간을 소비하는 훌륭한 과학적 코드를 보았습니다. 시스템의 시스템 관리자와 친구가 되십시오. 커피를 가져와 시스템 최적화에 많은 도움을 얻을 수 있습니다.)
Marcin

2
때때로 "비효율적 인 코드"를 작성하는 것이 더 나아질 수있는 추가 질문을 예상 할 수있는 데이터 구조를 만드는 데 도움이된다면 더 좋을 것입니다.
Ralph Winters

1
@Ralph : +1, 나는 절대적으로 동의하고 이것을 어려운 방법으로 배웠습니다. 나는 트레이드 오프가 무엇이든간에 항상 효율적인 코드를 작성해야한다는 것을 의미하지는 않았습니다. 단지 방법을 알아야합니다.
dsimcha

5

또한 대규모 데이터에도 잠재적 인 "잘못된 데이터"문제가 발생한다고 덧붙였습니다. 데이터가 누락되었을뿐만 아니라 데이터를 건드린 시스템의 모든 부분에서 데이터 오류와 일관되지 않은 정의가 도입되었습니다. 따라서 통계 기술 외에도 다른 사람이 대신하지 않는 한 전문가 데이터 정리 전문가가되어야합니다.

랄프 윈터스


3
이것들은 좋은 지적입니다. 이상치 및 기타 데이터 문제는 크든 작든 모든 데이터 세트를 괴롭 힙니다 . 내 경험상 실제로 많은 데이터 세트를 식별하고 처리하기가 더 쉽습니다. 왜냐하면 데이터의 양과 구별 할 수있는 힘이 있으며 특히 강력한 방법을 사용하면 결과에 영향을 줄 가능성이 적기 때문입니다. BTW, 모든 분석 과정에서 항상 "데이터 정리"를 수행하고 있습니다. 이것은 분리하여 전문가에게 한 번에 처리하도록 지시 할 수있는 것이 아닙니다. 특이 치는 특정 모델의 맥락에서 특이 치입니다.
whuber

2
수동 수정의 함정을 피하는 데 도움이되는 반자동 데이터 클리너로 Google Refine 를 확인하십시오 .
mindless.panda

5
  1. Map-reduce 프레임 워크 에서 문제점을 프레임 화하십시오.
  2. 문제 의 공학적 측면, 예를 들어 매개 변수에 대해 낮은 정밀도를 사용하거나 일반화뿐만 아니라 저장 및 계산 비용을 기반으로 모델 선택을하는 데 얼마나 많은 피해를 입히는가.

언급 한 Map-reduce 프레임 워크에 대한 관련 링크를 제공 할 수 있습니까?
mindless.panda

@ sugar.panda, 위키 링크 추가!
highBandWidth

낮은 정밀도에 대해 언급하면 ​​+1이지만, 특권이되는 것은 아닙니다. 정밀도가 낮을수록 잘못된 결정을 내릴 가능성이 높습니다. 이는 유형 I / II 오류와 밀접한 관련이 있으며 여러 분야에 걸쳐 있지만 통계, 의사 결정 과학 및 경제와 관련이 있습니다. 실용 기능은 적절한 방법론을 식별하기 위해 사전 및 사고 과정의 일부를 고려해야합니다.
Thomas Speidel
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.