최근에 머신 러닝 및 데이터 분석을 가르치기 시작하면서 대규모 데이터 세트를 생성하고 쿼리해야 할 필요성에 직면했습니다. 전문적이고 개인적인 삶에서 수집 한 데이터를 수집하고 분석하고 싶지만 다음을 수행하는 가장 좋은 방법은 확실하지 않습니다.
이 데이터를 어떻게 저장해야합니까? 뛰어나다? SQL? ??
초보자가이 데이터를 분석하기 시작하는 좋은 방법은 무엇입니까? 저는 전문 컴퓨터 프로그래머이므로 복잡한 프로그램 작성이 아니라 데이터 분석 영역에 따라 다소 다릅니다.
편집 : 내 모호한 점에 대한 사과, 처음으로 무언가를 배우기 시작할 때 모르는 것을 아는 것이 어렵습니다. ;)
말했듯이, 나의 목표는 이것을 두 가지 주요 주제에 적용하는 것입니다.
소프트웨어 팀 측정 항목 (애자일 속도, 위험 정량화, x 개의 스토리 포인트가 주어진 경우 반복이 성공적으로 완료 될 가능성을 생각하십시오)
기계 학습 (예 : 특정 모듈 세트에서 시스템 예외가 발생했습니다. 모듈이 현장에서 예외를 발생시킬 가능성, 그 비용은 얼마입니까, 데이터는 개선 할 핵심 모듈에 대해 무엇을 알려줄 수 있습니까? 나에게 가장 좋은 기회, 데이터로드를 시작하기 위해 사용자가 다음에 사용할 시스템 부분을 예측하십시오.)