의미 적 의미를 유지하는 도메인에 구애받지 않는 기능 엔지니어링?


12

형상 공학은 종종 기계 학습에 중요한 구성 요소입니다 ( 2010 년 KDD 컵 우승에 크게 사용됨 ). 그러나 대부분의 기능 엔지니어링 기술은

  • 기본 기능의 직관적 인 의미를 파괴하거나
  • 특정 도메인 또는 특정 유형의 기능에 매우 구체적입니다.

전자의 전형적인 예는 주성분 분석입니다. 주제 관련 전문가가 해당 기능에 대해 알고있는 지식은 해당 기능을 주요 구성 요소로 변환하여 파괴 될 수 있습니다.

날짜를 "월요일"및 "요일"의 기능으로 변환하는 간단한 기술을 사용하십시오. 근본적인 의미는 여전히 새로운 기능에서 유지되지만 분명히이 특정 기술은 임의의 기능이 아닌 날짜에만 적용됩니다.

기본 기능의 의미를 손상시키지 않으면 서 임의의 도메인 (또는 적어도 다양한 도메인)에도 적용 할 수있는 표준 기능 엔지니어링 기술이 있습니까?


2
PCA는 때때로 고유면과 같은 기능에 대한 직관적 인 의미를 찾기 위해 사용될 수 있습니다 .
tdc

당신이 염두에 둔 데이터의 예를 좀 더 줄 수 있습니까? 응용 프로그램에 대해 더 구체적으로 설명 할 수 있다면 (임의의 예조차도) 정확한 답변을 제공하는 것이 더 쉽습니다.
Dov

1
@Dov 글쎄요, 요점은 (이상적으로) 거의 모든 구조화 된 테이블 형식 데이터 세트 (데이터 포인트 및 기능이있는 데이터 세트)에서 작동 할 수있는 무언가를 원한다는 것입니다. 이 판매 데이터, 재무 데이터, 약물 검색 데이터, 야구 데이터 등이 될 수 있도록
마이클 맥고완

답변:


7

나는 당신과 같은 시나리오에서 유용 할 수있는 하나의 분해 방법을 알고 있습니다 (그러나 아마도 더있을 수도 있습니다 ...). 분해 (즉, 요인)에 의미가있는 고차 분해 방법 인 2D-PCA와 같습니다. 예제를보고 여기여기를 읽고 여기 에서 시도해 볼 수 있습니다


+ 나는 내가 영어를 모국어로 사용하는 사람이 아니라는 것을 용서해주세요 :)
Dov

내가 들었던 바에 따르면, PCA의 마지막 단계는 주요 교구에 대한 의미를 찾으려고 시도해야합니다.
jb.

5

Restricted Boltzmann Machine을 사용하는 최근의 딥 러닝 방법은 여러 데이터 유형 (오디오, 이미지, 텍스트)에서 훌륭한 기능을 보여주었습니다.

이러한 방법은 생성 모델을 생성하기 때문에 모델에서 실제로 훌륭한 샘플을 생성 할 수 있습니다.

Hinton의 간행물을 확인하십시오. http://www.cs.toronto.edu/~hinton/

이러한 방법은 완전히 일반적인 것은 아니지만 (모든 데이터에서 동일한 코드를 실행) 기본 모델은 일반적으로 비슷합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.