대용량 데이터 세트를 이해하려면 어떤 초기 단계를 사용해야합니까? 어떤 도구를 사용해야합니까?


10

주의 사항 : 머신 러닝은 초보자이지만 배우기를 간절히 원합니다.

큰 데이터 세트가 있으며 패턴을 찾으려고합니다. 알려진 변수 또는 데이터에 포함되어 있지만 아직 깨닫지 못한 변수와 함께 데이터 전체에 상관 관계가있을 수 있습니다. 실제로는 변수 / 관련이 있습니다.

나는 이것이 데이터 분석 세계에서 익숙한 문제 일 것이라고 추측하고 있습니다. 그래서 몇 가지 질문이 있습니다.

  1. '실버 글 머리 기호'는이 모든 데이터를 통계 / 데이터 분석 프로그램에 던져 넣고 관계를 찾으려고 알려진 / 알 수없는 패턴을 찾기 위해 데이터를 크런치하는 것입니다. SPSS가 적합합니까, 또는 더 적합한 다른 응용 프로그램이 있습니까?

  2. R과 같은 언어를 배우고 수동으로 데이터를 처리하는 방법을 알아 내야합니다. 데이터 분석 방법과 방법을 수동으로 지정해야하므로 관계를 찾는 데 어려움이 없습니까?

  3. 전문 데이터 마이너가이 문제에 어떻게 접근하고 어떤 단계를 수행합니까?

답변:


11

귀하의 질문에 대답하려고 노력할 것이지만, "큰"은 상대적인 개념 이므로 "큰 데이터 세트"라는 용어를 사용하는 것은 잘못된 것 입니다. 자세한 내용을 제공해야합니다. 입찰 데이터를 다루는 경우이 사실은 데이터 분석을 위한 선호 도구 , 접근 방식알고리즘의 선택에 영향을 줄 가능성이 높습니다 . 데이터 분석에 대한 다음과 같은 생각이 귀하의 하위 질문을 해결하기를 바랍니다. 내 포인트의 번호가 하위 질문의 번호와 일치하지 않습니다. 그러나 나는 그것이 그것이 내가 이해하는 방법에 관한 일반적인 데이터 분석 워크 플로우를 더 잘 반영한다고 생각 합니다.

1) 먼저, 나는 적어도 어떤 종류의 개념적 모델 을 염두에 두어야 한다고 생각합니다 (또는 종이에 더 좋습니다). 이 모델은 탐색 적 데이터 분석 (EDA)을 안내해야합니다 . 모델에 종속 변수 (DV) 가 존재 한다는 것은 분석 후반에 머신 러닝 (ML) 단계에서 식별 된 DV가없는 비 관리 ML과 반대로 소위 감독 ML을 처리 한다는 것을 의미합니다 .

2) 둘째, EDA 는 중요한 부분입니다. IMHO, EDA에는 데이터 에 대한 이해를 구체화 할 때 설명 통계데이터 시각화 를 생성하는 여러 반복 이 포함되어야 합니다. 이 단계는 데이터 세트에 대한 귀중한 통찰력을 제공 할뿐만 아니라 다음 중요한 단계 데이터 정리 및 변환에 도움이 됩니다. 원시 데이터를 통계 소프트웨어 패키지에 넣는 것만으로도 유효한 통계 분석을 위해 데이터가 깨끗하고 정확하며 일관성이 있어야합니다 . 이것은 종종 가장 많은 시간과 노력이 필요하지만 절대적으로 필요한 부분입니다. 이 주제에 대한 자세한 내용은 다음 좋은 논문을 읽으십시오.http://vita.had.co.nz/papers/tidy-data.pdf(Hadley Wickham) 및 http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (기준 Edwin de Jonge 및 Mark van der Loo).

3) 이제 데이터 정리 및 변환뿐만 아니라 EDA 를 사용하여 통계적으로 관련된 단계를 시작할 준비가되었습니다. 이러한 단계 중 하나는 탐색 적 요소 분석 (EFA) 이며 데이터 의 기본 구조 를 추출 할 수 있습니다 . 변수가 많은 데이터 세트의 경우 EFA의 긍정적 인 부작용은 차원 축소 입니다. 그런 의미에서 EFA는 주성분 분석 (PCA) 과 유사합니다.다른 차원 축소 방법에 대해서는 데이터가 "설명"하는 현상의 개념적 모델을 세분화 할 수 있으므로 데이터 세트를 이해하기 때문에 EFA가 더 중요하다고 생각합니다. 물론, EFA 외에도 이전 단계에서 찾은 결과를 기반으로 회귀 분석 을 수행하고 기계 학습 기술 을 적용 할 수 있습니다 .

마지막으로 소프트웨어 도구 에 대한 참고 사항입니다 . 제 생각에 통계 소프트웨어 패키지의 현재 상태는 실질적으로 모든 주요 소프트웨어 패키지가 비슷한 기능을 제공합니다. 소프트웨어 도구와 관련하여 특정 정책과 환경 설정이있는 조직에서 공부하거나 일하는 경우 이들에 의해 제약을 받습니다. 그러나 그렇지 않다면 특정 프로그래밍 언어 , 학습 곡선경력 관점 에 대한 편안함을 바탕으로 오픈 소스 통계 소프트웨어를 진심으로 추천 합니다 . 현재 선택한 플랫폼은 R Project입니다는 패키지, 전문가 및 매니아의 놀라운 생태계와 함께 성숙하고 강력하며 유연하며 광범위하고 개방형 통계 소프트웨어를 제공합니다. 다른 좋은 선택으로는 Python , JuliaHadoop , Spark , NoSQL 데이터베이스, WEKA 와 같은 빅 데이터 처리를위한 특정 오픈 소스 소프트웨어가 있습니다. 오픈 소스 소프트웨어의 더 많은 예제 데이터 마이닝 : 일반 및 특정 통계 및 ML 소프트웨어를 포함, 위키피디아 페이지의이 섹션을 참조 http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications을 .

업데이트 : 데이터 마이닝을위한 매우 인기있는 오픈 소스 R 지향 GUI 소프트웨어 인 Rattle ( http://rattle.togaware.com ) 을 언급하지 않았습니다 .


1
1 년 후이 질문으로 돌아온 후에는 데이터를 아는 것이 중요하다는 것을 분명히 알 수 있으며 "좋은"데이터와 "나쁜"데이터가 무엇인지 명심해야합니다. 신경망과 같은 마법의 솔루션을 사용하려고 시도했지만 데이터 정리 프로세스가 쉽지 않았습니다. (숨겨진 markov 모델은 더티 입력에 가장 잘 반응하는 것으로 보였고 출력을 가장 잘 예측할 수있었습니다) ML이 실패한 후 많은 그래프를 만든 후 몇 주 동안 데이터를 쏟아 부었습니다 (데이터의 시각적 표현은 매우 중요합니다) 중요) 문제에 대한 해결책을 찾을 수있었습니다!
user3791372

@ user3791372 다행입니다. 데이터 과학의 다양한 측면을 훨씬 더 잘 이해하는 데있어 올해는 생산적인 것으로 보입니다. 더 많은 것을 배울 수있는 기회가 많았지 만, 반면에, 많은 것을 배웠으므로 불평 할 수는 없습니다 (항상 데이터 과학과 관련이있는 것은 아니지만 아마도 더 나을 수도 있습니다). 유지하십시오!
Aleksandr Blekh 1

3
  1. SPSS는 훌륭한 도구이지만 Excel과 같이 컴퓨터에 이미 있거나 R- 프로젝트와 같이 무료 인 리소스를 사용하여 많은 작업을 수행 할 수 있습니다. 이러한 도구는 강력하고 패턴을 식별하는 데 도움이 될 수 있지만 분석을 실행하기 전에 데이터를 제대로 파악해야합니다 (데이터에 대한 설명 통계를 실행하고 그래프로 데이터를 탐색하여 모든 것을 확인하는 것이 좋습니다) 정상으로 보입니다). 다시 말해, 사용하는 도구는 "실버 글 머리 기호"를 제공하지 않습니다. 출력은 입력 값만큼만 중요하기 때문입니다. 내가 말하고있는 대부분의 내용은 Aleksandr의 답변에 이미 언급되어 있습니다.

  2. R은 코딩에 정통하지 않은 사람들에게는 어려울 수 있지만 R 및 패키지와 관련된 무료 리소스는 풍부합니다. 프로그램 학습을 연습하면 빠르게 견인력을 얻게됩니다. 다시 말하지만, 데이터와 어쨌든 실행하려는 분석에 익숙해야하며, 사용하는 통계 도구에 관계없이 사실이 남아 있습니다.

  3. 나는 내 데이터에 매우 익숙해지기 시작합니다 (시작을 위해 Aleksandr의 답변에 설명 된 단계를 따르십시오). Data For라는 John Foreman의 책을 고를 수도 있습니다. John이 데이터 세트를 제공하고 그의 예제 (Excel 사용)를 따라 데이터를 탐색하고 탐색하는 다양한 방법을 배우기 때문에 실습용 책입니다. 초보자에게는 훌륭한 자료입니다.


2

Aleksandr는 매우 철저한 설명을했지만 간단히 다음과 같은 단계가 있습니다.

데이터 추출

청소 데이터

특징 추출

건물 모델

추론 결과

결과 게시

정확한 정확도를 얻을 때까지 3,4,5 단계를 반복하십시오.


0

R에는 SPSS와 같은 pnc 대화 GUI가 있습니다. 그들은 R 코드를 인쇄하여 그들의 노력을 배우고 결합 할 수 있습니다. 모든 대화와 딸랑이에 대한 대화로 BlueSky를 추천합니다. 이러한 소프트웨어는 EDA, 통계 및 시각화, 머신 러닝에 적합하지만 잘 수행되지 않습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.