답변:
특징 생성 -이것은 구조화되지 않은 원시 데이터를 취하여 통계 분석에 잠재적으로 사용할 특징 (예 : 변수)을 정의하는 프로세스입니다. 예를 들어, 텍스트 마이닝의 경우 수천 개의 문자 메시지 (예 : SMS, 이메일, 소셜 네트워크 메시지 등)의 원시 로그로 시작하여 특정 크기를 사용하여 값이 낮은 단어 (예 : 중지 단어)를 제거하여 기능을 생성 할 수 있습니다. 단어 블록 (예 : n- 그램) 또는 다른 규칙 적용
피쳐 추출 - 피쳐를 생성 한 후 원래 피쳐의 변환을 테스트하고 모델에서 사용할 잠재적 인 오리지널 및 파생 피쳐 풀의 하위 세트를 선택해야하는 경우가 종종 있습니다 (예 : 피쳐 추출 및 선택). 데이터에 비선형 패턴 또는 결과와의 관계가있는 중요한 정보가 포함될 수 있으므로 파생 된 값을 테스트하는 것이 일반적인 단계이므로 데이터 요소의 중요성은 변환 된 상태 (예 : 고차 미분)에서만 분명해질 수 있습니다. 너무 많은 피처를 사용하면 선형성이 증가하거나 통계 모델이 혼동 될 수 있지만 분석 목적에 맞는 최소 피처 수를 추출하는 것은 parsimony의 원칙을 따릅니다.
원시 피처 공간은 일반적으로 패러다임에서 종종 "노이즈"라고하는 것을 구성하는 압도적이며 구조화되지 않은 관련없는 데이터로 가득 차 있기 때문에 이러한 방식으로 피처 공간 을 향상 시키는 것은 종종 이미지 또는 기타 데이터 객체를 분류하는 데 필요한 단계입니다. "신호"및 "노이즈"(일부 데이터는 예측 값을 가지며 다른 데이터는 그렇지 않음)를 의미합니다. 피처 공간을 향상시킴으로써 혼란스러운 정보 (예 : "잡음")를 제거하면서 분석에 예측 또는 기타 가치가있는 중요한 데이터 (예 : "신호")를 더 잘 식별 할 수 있습니다.