순전히 예측 모델링을 수행 할 때 탐색 적 데이터 분석이 중요합니까?


23

기계 학습 기술을 사용하여 예측 모델을 구축 할 때 탐색 적 데이터 분석 (EDA)의 요점은 무엇입니까? 기능 생성 및 모델 작성으로 바로 넘어가도 되나요? EDA에서 사용되는 기술 통계량은 어떻게 중요합니까?


6
"탐사 데이터 분석"에 대해 질문하지만 [descriptive-statistics]태그 도 포함하며 최종 질문은 기술 통계가 중요한지 여부입니다. 이와 관련하여 EDA를 언급 할 때 다양한 기술 통계량 만 계산한다는 의미입니까, 아니면 기술 통계량과 EDA 모두에 대해 묻고 있습니까? 저를 포함한 많은 사람들이 EDA를 단순한 통계치 이상으로 생각하기 때문에 묻습니다.
gung-모니 티 복원

"기능 생성"이란 정확히 무엇입니까? 탐색 과정이 아닙니까?
einar

5
최근에 37 명의 개인이 224 개의 관찰을 받았습니다. 설명 분석에서 나에게 36 명의 여성과 1 명의 남성이 있다고 성별, 성별의 영향을 조사 할 계획이었습니다. 이 기술 통계량으로 인해 성별 / 성 관련 분석을 모두 생략했습니다. 설명이 모델 구축 프로세스에 영향을 미치기 때문에 나에게 중요했습니다. 이 데이터에 대한 자세한 내용은 여기 stats.stackexchange.com/questions/352015/…
Bernhard

답변:


47

얼마 전, 나는 데이터 과학 직책에 대한 인터뷰 업무를 가졌다. 데이터 세트가 주어졌고 몇 시간의 시간 제한으로 다른 바이너리가 주어진 특정 이진 변수를 예측하는 예측 모델을 작성하도록 요청했습니다.

각 변수를 차례로 살펴보고 그래프를 작성하고 요약 통계 등을 계산했습니다. 또한 숫자 변수 간의 상관 관계도 계산했습니다.

내가 찾은 것 중에는 :

  • 하나의 범주 형 변수가 목표와 거의 완벽하게 일치했습니다.
  • 2 개 또는 3 개의 변수에 절반 이상의 값이 누락되었습니다.
  • 몇 가지 변수에는 극단적 인 특이 치가있었습니다.
  • 두 가지 수치 변수는 완벽하게 상관되었습니다.
  • 기타

내 요점은 이것들은 사람들이 모델을 만들려고 시도하기 전에 사람들이 그것들을 알아볼 것인지 여부를보기 위해 의도적으로 넣은 것들이었다 . 이 회사는 실생활에서 발생할 수있는 모델이기 때문에 모델 성능에 큰 영향을 미칩니다.

기계 학습을 수행 할 때 EDA가 중요합니다!


8
학생들에게 과제를 줄 때 종종 그렇게합니다. ;-).
gung-모니 티 복원

14

물론입니다.

데이터 분석은 예측 모델을 손상시킬 수있는 여러 가지 점으로 이어질 수 있습니다.

불완전한 데이터

양적 데이터에 대해 이야기하고 있다고 가정하면 열을 무시할지 (데이터가 너무 많은 경우) "기본"값 (평균, 모드 등)이 무엇인지 파악해야합니다. 먼저 데이터를 탐색하지 않으면이 작업을 수행 할 수 없습니다.

비정상적인 데이터

당신은 꽤 강한 상관 관계가 있지만 데이터의 2 %가 데이터가 있다고 가정 방법 이 상관 관계 오프. 예측 모델을 돕기 위해이 데이터를 모두 제거 할 수 있습니다.

너무 많은 상관 관계가있는 열 제거

좋아, 이것은 나의 이전 요점과 약간 모순되지만 영어는 내 주요 언어가 아니므로 이해할 수 있기를 바랍니다.

나는 축구 경기장 데이터 세트를 분석하고 Width, Length, Area매개 변수 를 가지고 있다고 바보 같은 예를 들겠습니다 . 이 세 매개 변수가 서로 밀접하게 연관되어 있다는 것을 쉽게 상상할 수 있습니다. 열간에 상관 관계가 너무 많으면 예측 모델이 잘못된 방향으로 연결됩니다. 하나 이상의 매개 변수를 비울 수 있습니다.

새로운 기능 찾기

작은 타이타닉 캐글 "경쟁" 의 예를 들어 보겠습니다 . 사람들의 이름을 볼 Title때 사람 의 특징을 추출 할 수 있음을 알 수 있습니다 . 이 기능은 모델링과 관련하여 매우 중요하지만 데이터를 먼저 분석하지 않았다면 놓쳤을 것입니다.

연속 데이터가 더 적절하다고 느끼거나 연속 피처를 범주 형 데이터로 변환하기 때문에 연속 데이터를 비우기로 결정할 수 있습니다.

사용할 알고리즘 종류 찾기

지금은 그림을 그릴 수 없지만 간단한 예를 들어 보겠습니다.

하나의 기능 열과 하나의 이진 (0 또는 1 만) "결과"열이있는 작은 모델이 있다고 가정합니다. 이 데이터 세트에 대한 예측 분류 모델을 작성하려고합니다.

예를 들어 다시 한 번 그림을 그리려면 (데이터 분석) 그림이 1 값 주위에 완전한 원을 형성한다는 것을 알 수 있습니다. 이러한 시나리오에서 다항식 분류기를 사용하여 DNN으로 바로 이동하는 대신 훌륭한 모델을 가질 수 있다는 것이 분명합니다. (분명히, 내 예제에는 두 개의 열만 있다는 것을 고려할 때 훌륭한 예를 만들지는 않지만 요점을 얻습니다)

전반적으로 데이터를 먼저 보지 않으면 예측 모델이 제대로 작동 할 것으로 기대할 수 없습니다.


8

EDA가 수행하는 중요한 작업 중 하나는 데이터 입력 오류 및 기타 비정상적인 지점을 찾는 것입니다.

다른 하나는 변수 분포가 적합하려는 모형에 영향을 줄 수 있다는 것입니다.


8

우리는 화학에서 문구를 사용했습니다.

" 실험실에서 2 주를 보내면 Scifinder에서 2 시간을 절약 할 수 있습니다 ."

머신 러닝에도 동일하게 적용됩니다.

" 신경망 교육에 2 주가 소요되어 입력 데이터를 볼 때 2 시간을 절약 할 수 있습니다 ".

이것들은 ML 프로세스를 시작하기 전에 겪어야 할 것들입니다.

  • 모든 (연속) 변수의 밀도를 플로팅합니다. 숫자가 어떻게 왜곡됩니까? 데이터를 이해하기 위해 로그 변환이 필요합니까? 특이 치가 얼마나 멀리 있습니까? 물리적 또는 논리적으로 의미가없는 값이 있습니까?
  • NA를 주시하십시오. 일반적으로 버릴 수는 있지만 대부분이 있거나 시스템 동작에 중요한 측면을 나타내는 경우 데이터를 재생성하는 방법을 찾아야 할 수도 있습니다. 이것은 그 자체로 프로젝트가 될 수 있습니다.
  • 반응 변수에 대해 모든 변수를 플로팅합니다. 시선을 사로 잡는 것만으로 어느 정도의 의미가 있습니까? 기능에 맞는 명확한 곡선이 있습니까?
  • 복잡한 ML 모델이 필요한지 여부를 먼저 평가하십시오. 때로는 선형 회귀 만 있으면됩니다. 그렇지 않은 경우에도 ML 모델을 개선하기에 적합한 기준선을 제공합니다.

이러한 기본 단계 외에도 ML 프로세스를 적용하기 전에 데이터를 보는 데 많은 시간을 소비하지 않을 것입니다. 이미 많은 수의 변수가있는 경우 복잡한 비선형 조합의 변수를 찾아서 이해하고 이해하기가 점점 어려워집니다. 이것은 컴퓨터가 가장 잘 처리하는 것입니다.


6

통계적 관점 :

모델링 단계에서 오류를 제외하고, 먼저 EDA를 수행하지 않고 예측을 시도하면 세 가지 결과가 나옵니다.

  1. 입력 데이터가 예측 방법의 가정을 위반했기 때문에 예측은 분명한 넌센스 결과를 제공합니다. 이제 돌아가서 입력을 확인하여 문제가있는 위치를 찾은 다음 문제를 해결하고 분석을 다시 수행해야합니다. 문제의 특성에 따라 예측 방법을 변경해야 할 수도 있습니다. (이것은 범주 형 변수 란 무엇입니까?)
  2. 데이터는 가정이 약간 덜 분명한 방식으로 가정을 위반했기 때문에 예측은 나쁘지만 분명히 나쁘지 않은 결과를 제공합니다 . 돌아가서 어쨌든 해당 가정을 확인하거나 (이 경우 위의 # 1 참조) 나쁜 결과를 받아들입니다.
  3. 운 좋게도 입력 데이터는 예상했던 것과 정확히 같으며 (이것은 때때로 발생한다는 것을 이해합니다) 예측은 좋은 결과를 제공합니다 ... 이것과 #의 차이점을 알 수 없다는 점을 제외하고는 좋을 것입니다 위의 2.

프로젝트 관리 관점 :

데이터 문제를 해결하는 데 많은 시간과 노력이 소요될 수 있습니다. 예를 들어 :

  • 데이터가 지저분하므로 데이터를 정리하는 프로세스를 개발하는 데 시간을 소비해야합니다. (예를 들어 내가 코드 월에 잘못된 년 기록 유지 모든 사람들을위한 자동 고침 및 입력 사람들이 있었다 시간 날짜를 에서 올해의 필드 및 MM / DD / YYYY로 날짜를 구문 분석 된 시스템을 DD / MM / YYYY 대신)
  • 데이터의 의미에 대한 질문을해야하며 Joan만이 응답 할 수 있습니다. Joan은 프로젝트가 시작된 지 2 주 후부터 6 개월의 휴가를 보내고 있습니다.
  • 데이터 제한으로 인해 제공하려는 모든 것을 제공하지 못하게됩니다 (참조 : 데이터 세트에 한 명의 여성 만 있었기 때문에 성별 / 성별 분석을 수행 할 수없는 Bernhard의 예 참조). .

그러한 문제를 조기에 파악할수록 프로젝트를 계속 진행하고 시간을 마무리하며 고객을 만족시킬 수있는 기회가 높아집니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.