기계 학습 기술을 사용하여 예측 모델을 구축 할 때 탐색 적 데이터 분석 (EDA)의 요점은 무엇입니까? 기능 생성 및 모델 작성으로 바로 넘어가도 되나요? EDA에서 사용되는 기술 통계량은 어떻게 중요합니까?
기계 학습 기술을 사용하여 예측 모델을 구축 할 때 탐색 적 데이터 분석 (EDA)의 요점은 무엇입니까? 기능 생성 및 모델 작성으로 바로 넘어가도 되나요? EDA에서 사용되는 기술 통계량은 어떻게 중요합니까?
답변:
얼마 전, 나는 데이터 과학 직책에 대한 인터뷰 업무를 가졌다. 데이터 세트가 주어졌고 몇 시간의 시간 제한으로 다른 바이너리가 주어진 특정 이진 변수를 예측하는 예측 모델을 작성하도록 요청했습니다.
각 변수를 차례로 살펴보고 그래프를 작성하고 요약 통계 등을 계산했습니다. 또한 숫자 변수 간의 상관 관계도 계산했습니다.
내가 찾은 것 중에는 :
내 요점은 이것들은 사람들이 모델을 만들려고 시도하기 전에 사람들이 그것들을 알아볼 것인지 여부를보기 위해 의도적으로 넣은 것들이었다 . 이 회사는 실생활에서 발생할 수있는 모델이기 때문에 모델 성능에 큰 영향을 미칩니다.
기계 학습을 수행 할 때 EDA가 중요합니다!
물론입니다.
데이터 분석은 예측 모델을 손상시킬 수있는 여러 가지 점으로 이어질 수 있습니다.
양적 데이터에 대해 이야기하고 있다고 가정하면 열을 무시할지 (데이터가 너무 많은 경우) "기본"값 (평균, 모드 등)이 무엇인지 파악해야합니다. 먼저 데이터를 탐색하지 않으면이 작업을 수행 할 수 없습니다.
당신은 꽤 강한 상관 관계가 있지만 데이터의 2 %가 데이터가 있다고 가정 방법 이 상관 관계 오프. 예측 모델을 돕기 위해이 데이터를 모두 제거 할 수 있습니다.
좋아, 이것은 나의 이전 요점과 약간 모순되지만 영어는 내 주요 언어가 아니므로 이해할 수 있기를 바랍니다.
나는 축구 경기장 데이터 세트를 분석하고 Width, Length, Area
매개 변수 를 가지고 있다고 바보 같은 예를 들겠습니다 . 이 세 매개 변수가 서로 밀접하게 연관되어 있다는 것을 쉽게 상상할 수 있습니다. 열간에 상관 관계가 너무 많으면 예측 모델이 잘못된 방향으로 연결됩니다. 하나 이상의 매개 변수를 비울 수 있습니다.
작은 타이타닉 캐글 "경쟁" 의 예를 들어 보겠습니다 . 사람들의 이름을 볼 Title
때 사람 의 특징을 추출 할 수 있음을 알 수 있습니다 . 이 기능은 모델링과 관련하여 매우 중요하지만 데이터를 먼저 분석하지 않았다면 놓쳤을 것입니다.
연속 데이터가 더 적절하다고 느끼거나 연속 피처를 범주 형 데이터로 변환하기 때문에 연속 데이터를 비우기로 결정할 수 있습니다.
지금은 그림을 그릴 수 없지만 간단한 예를 들어 보겠습니다.
하나의 기능 열과 하나의 이진 (0 또는 1 만) "결과"열이있는 작은 모델이 있다고 가정합니다. 이 데이터 세트에 대한 예측 분류 모델을 작성하려고합니다.
예를 들어 다시 한 번 그림을 그리려면 (데이터 분석) 그림이 1 값 주위에 완전한 원을 형성한다는 것을 알 수 있습니다. 이러한 시나리오에서 다항식 분류기를 사용하여 DNN으로 바로 이동하는 대신 훌륭한 모델을 가질 수 있다는 것이 분명합니다. (분명히, 내 예제에는 두 개의 열만 있다는 것을 고려할 때 훌륭한 예를 만들지는 않지만 요점을 얻습니다)
전반적으로 데이터를 먼저 보지 않으면 예측 모델이 제대로 작동 할 것으로 기대할 수 없습니다.
EDA가 수행하는 중요한 작업 중 하나는 데이터 입력 오류 및 기타 비정상적인 지점을 찾는 것입니다.
다른 하나는 변수 분포가 적합하려는 모형에 영향을 줄 수 있다는 것입니다.
우리는 화학에서 문구를 사용했습니다.
" 실험실에서 2 주를 보내면 Scifinder에서 2 시간을 절약 할 수 있습니다 ."
머신 러닝에도 동일하게 적용됩니다.
" 신경망 교육에 2 주가 소요되어 입력 데이터를 볼 때 2 시간을 절약 할 수 있습니다 ".
이것들은 ML 프로세스를 시작하기 전에 겪어야 할 것들입니다.
이러한 기본 단계 외에도 ML 프로세스를 적용하기 전에 데이터를 보는 데 많은 시간을 소비하지 않을 것입니다. 이미 많은 수의 변수가있는 경우 복잡한 비선형 조합의 변수를 찾아서 이해하고 이해하기가 점점 어려워집니다. 이것은 컴퓨터가 가장 잘 처리하는 것입니다.
모델링 단계에서 오류를 제외하고, 먼저 EDA를 수행하지 않고 예측을 시도하면 세 가지 결과가 나옵니다.
데이터 문제를 해결하는 데 많은 시간과 노력이 소요될 수 있습니다. 예를 들어 :
그러한 문제를 조기에 파악할수록 프로젝트를 계속 진행하고 시간을 마무리하며 고객을 만족시킬 수있는 기회가 높아집니다.
[descriptive-statistics]
태그 도 포함하며 최종 질문은 기술 통계가 중요한지 여부입니다. 이와 관련하여 EDA를 언급 할 때 다양한 기술 통계량 만 계산한다는 의미입니까, 아니면 기술 통계량과 EDA 모두에 대해 묻고 있습니까? 저를 포함한 많은 사람들이 EDA를 단순한 통계치 이상으로 생각하기 때문에 묻습니다.