귀하의 질문에 대답하려고 노력할 것이지만, "큰"은 상대적인 개념 이므로 "큰 데이터 세트"라는 용어를 사용하는 것은 잘못된 것 입니다. 자세한 내용을 제공해야합니다. 입찰 데이터를 다루는 경우이 사실은 데이터 분석을 위한 선호 도구 , 접근 방식 및 알고리즘의 선택에 영향을 줄 가능성이 높습니다 . 데이터 분석에 대한 다음과 같은 생각이 귀하의 하위 질문을 해결하기를 바랍니다. 내 포인트의 번호가 하위 질문의 번호와 일치하지 않습니다. 그러나 나는 그것이 그것이 내가 이해하는 방법에 관한 일반적인 데이터 분석 워크 플로우를 더 잘 반영한다고 생각 합니다.
1) 먼저, 나는 적어도 어떤 종류의 개념적 모델 을 염두에 두어야 한다고 생각합니다 (또는 종이에 더 좋습니다). 이 모델은 탐색 적 데이터 분석 (EDA)을 안내해야합니다 . 모델에 종속 변수 (DV) 가 존재 한다는 것은 분석 후반에 머신 러닝 (ML) 단계에서 식별 된 DV가없는 비 관리 ML과 반대로 소위 감독 ML을 처리 한다는 것을 의미합니다 .
2) 둘째, EDA 는 중요한 부분입니다. IMHO, EDA에는 데이터 에 대한 이해를 구체화 할 때 설명 통계 및 데이터 시각화 를 생성하는 여러 반복 이 포함되어야 합니다. 이 단계는 데이터 세트에 대한 귀중한 통찰력을 제공 할뿐만 아니라 다음 중요한 단계 데이터 정리 및 변환에 도움이 됩니다. 원시 데이터를 통계 소프트웨어 패키지에 넣는 것만으로도 유효한 통계 분석을 위해 데이터가 깨끗하고 정확하며 일관성이 있어야합니다 . 이것은 종종 가장 많은 시간과 노력이 필요하지만 절대적으로 필요한 부분입니다. 이 주제에 대한 자세한 내용은 다음 좋은 논문을 읽으십시오.http://vita.had.co.nz/papers/tidy-data.pdf(Hadley Wickham) 및 http://cran.r-project.org/doc/contrib/de_Jonge+van_der_Loo-Introduction_to_data_cleaning_with_R.pdf (기준 Edwin de Jonge 및 Mark van der Loo).
3) 이제 데이터 정리 및 변환뿐만 아니라 EDA 를 사용하여 통계적으로 관련된 단계를 시작할 준비가되었습니다. 이러한 단계 중 하나는 탐색 적 요소 분석 (EFA) 이며 데이터 의 기본 구조 를 추출 할 수 있습니다 . 변수가 많은 데이터 세트의 경우 EFA의 긍정적 인 부작용은 차원 축소 입니다. 그런 의미에서 EFA는 주성분 분석 (PCA) 과 유사합니다.다른 차원 축소 방법에 대해서는 데이터가 "설명"하는 현상의 개념적 모델을 세분화 할 수 있으므로 데이터 세트를 이해하기 때문에 EFA가 더 중요하다고 생각합니다. 물론, EFA 외에도 이전 단계에서 찾은 결과를 기반으로 회귀 분석 을 수행하고 기계 학습 기술 을 적용 할 수 있습니다 .
마지막으로 소프트웨어 도구 에 대한 참고 사항입니다 . 제 생각에 통계 소프트웨어 패키지의 현재 상태는 실질적으로 모든 주요 소프트웨어 패키지가 비슷한 기능을 제공합니다. 소프트웨어 도구와 관련하여 특정 정책과 환경 설정이있는 조직에서 공부하거나 일하는 경우 이들에 의해 제약을 받습니다. 그러나 그렇지 않다면 특정 프로그래밍 언어 , 학습 곡선 및 경력 관점 에 대한 편안함을 바탕으로 오픈 소스 통계 소프트웨어를 진심으로 추천 합니다 . 현재 선택한 플랫폼은 R Project입니다는 패키지, 전문가 및 매니아의 놀라운 생태계와 함께 성숙하고 강력하며 유연하며 광범위하고 개방형 통계 소프트웨어를 제공합니다. 다른 좋은 선택으로는 Python , Julia 및 Hadoop , Spark , NoSQL 데이터베이스, WEKA 와 같은 빅 데이터 처리를위한 특정 오픈 소스 소프트웨어가 있습니다. 오픈 소스 소프트웨어의 더 많은 예제 데이터 마이닝 : 일반 및 특정 통계 및 ML 소프트웨어를 포함, 위키피디아 페이지의이 섹션을 참조 http://en.wikipedia.org/wiki/Data_mining#Free_open-source_data_mining_software_and_applications을 .
업데이트 : 데이터 마이닝을위한 매우 인기있는 오픈 소스 R 지향 GUI 소프트웨어 인 Rattle ( http://rattle.togaware.com ) 을 언급하지 않았습니다 .