«feature-construction» 태그된 질문

기능 엔지니어링은 데이터의 도메인 지식을 사용하여 기계 학습 모델의 기능을 만드는 프로세스입니다. 이 태그는 CrossValidated에서 주제를 벗어난 코드를 묻는 질문을 제외하고 기능 엔지니어링과 관련된 이론적 및 실제 질문을위한 것입니다.

6
여러 수준의 범주 형 변수를 축소하는 주요 방법은 무엇입니까?
통계 모델에서 여러 범주를 입력 (예측 자)으로 사용하기 위해 여러 범주를 축소 (또는 풀링)하는 데 사용할 수있는 기술은 무엇입니까? 대학생 전공 (학부생이 선택한학과) 과 같은 변수를 고려하십시오 . 순서가없고 범주 형이지만 수십 가지의 고유 한 수준을 가질 수 있습니다. 회귀 모델에서 메이저를 예측 변수로 사용하고 싶다고 가정 해 봅시다. 모델링을 …

2
자동 인코더는 의미있는 기능을 배울 수 없습니다
이 두 가지와 같은 50,000 개의 이미지가 있습니다. 그들은 데이터 그래프를 묘사합니다. 이 이미지에서 기능을 추출하고 싶어서 Theano (deeplearning.net)에서 제공하는 자동 인코더 코드를 사용했습니다. 문제는 이러한 자동 인코더가 기능을 배우지 않는 것입니다. RBM을 시도했지만 동일합니다. MNIST 데이터 세트는 훌륭한 기능을 제공하지만 내 데이터가 전혀 생성되지 않는 것 같습니다. 아래 예제를 …

7
기계 학습 모델 또는 추천 시스템에서 지리 또는 우편 번호를 나타내는 방법은 무엇입니까?
모델을 작성 중이며 지리적 위치가 타겟 변수를 예측하는 데 매우 적합하다고 생각합니다. 각 사용자의 우편 번호가 있습니다. 그래도 모델에서 우편 번호를 예측 기능으로 포함시키는 가장 좋은 방법은 확실하지 않습니다. 우편 번호는 숫자이지만 숫자가 올라가거나 내려 가면 아무 의미가 없습니다. 30,000 개의 우편 번호를 모두 이진화 한 다음 기능이나 새 열로 …

2
필터 매트릭스의 요소를 초기화하는 방법은 무엇입니까?
라이브러리 (Convnet 또는 TensorFlow와 같은)에 의존하지 않는 Python 코드를 작성하여 회선 신경 네트워크를 더 잘 이해하려고 노력하고 있으며 커널 매트릭스의 값을 선택하는 방법에 대한 문헌에 갇혀 있습니다. 이미지에서 컨볼 루션을 수행합니다. 아래 그림의 CNN 계층을 보여주는 기능 맵 사이의 단계에서 구현 세부 사항을 이해하려고합니다 . 이 다이어그램에 따르면 : 커널 …

2
연속적인 독립 변수 / 기능을 언제 이산 / 빈화해야합니까?
언제 독립 변수 / 기능을 이산 / 빈화해야하고 언제 안됩니까? 질문에 대답하려는 나의 시도 : 비닝은 정보를 잃을 것이기 때문에 일반적으로 비닝해서는 안됩니다. 비닝은 실제로 모형의 자유도를 증가 시키므로 비닝 후에 초과 피팅을 유발할 수 있습니다. "높은 바이어스"모델이있는 경우 비닝이 나쁘지는 않지만 "높은 분산"모델이있는 경우 비닝을 피해야합니다. 사용중인 모델에 따라 …

5
기능 엔지니어링이 작동하는 이유는 무엇입니까?
최근 ML 문제에 대한 더 나은 솔루션을 찾는 방법 중 하나는 기능을 만드는 것입니다. 예를 들어 두 기능을 합산하면됩니다. 예를 들어, 우리는 어떤 종류의 영웅의 "공격"과 "방어"의 두 가지 기능을 가지고 있습니다. 그런 다음 "공격"과 "방어"의 합인 "total"이라는 추가 기능을 만듭니다. 이제 이상하게 보이는 것은 터프한 "공격"과 "방어"조차도 "총"과 거의 …

2
기능 엔지니어링을위한 학습서
모두에게 알려진 바와 같이, 피처 엔지니어링은 기계 학습에 매우 중요하지만이 분야와 관련된 자료는 거의 없습니다. 나는 Kaggle 에서 여러 경쟁에 참여했으며 경우에 따라 좋은 분류 기가 좋은 분류기보다 더 중요하다고 생각합니다. 누구나 기능 엔지니어링에 대한 자습서를 알고 있습니까, 아니면이 순수한 경험입니까?

1
신경망에서 최적의 주간 기능 구성
회귀 문제를 다루면서 "요일"기능의 표현에 대해 생각하기 시작했습니다. 어떤 접근 방식이 더 나은지 궁금합니다. 하나의 특징; 월요일의 1/7 값; 화요일 2/7 ... 7 가지 특징 : 월요일의 (1, 0, 0, 0, 0, 0, 0); 화요일의 경우 (0, 1, 0, 0, 0, 0, 0) ... 네트워크 구성 차이로 인해 측정하기가 어렵습니다. …

1
“기능 공간”이란 무엇입니까?
"feature space"정의 예를 들어 SVM에 대해 읽을 때 "피처 공간으로 매핑"에 대해 읽었습니다. CART에 대해 읽을 때 "피처 공간으로 분할"에 대해 읽습니다. 특히 CART의 상황을 이해하고 있지만 누락 된 정의가 있다고 생각합니다. "피처 공간"에 대한 일반적인 정의가 있습니까? SVM 커널 및 / 또는 CART에 대한 통찰력을 제공하는 정의가 있습니까?

2
연속 및 이진 데이터를 선형 SVM과 혼합합니까?
그래서 나는 SVM을 가지고 놀고 있었고 이것이 좋은 일인지 궁금합니다. 연속 기능 (0 ~ 1) 세트와 더미 변수로 변환 된 범주 기능 세트가 있습니다. 이 특별한 경우에는 측정 날짜를 더미 변수로 인코딩합니다. 데이터를 보유한 기간은 3 가지이며 3 개의 기능 번호를 예약했습니다. 20:21:22 : 따라서 데이터가 나오는 기간에 따라 다른 …

5
훈련 데이터 세트에 대해서만 탐색 적 데이터 분석을 수행하는 것이 더 낫습니까?
데이터 세트에서 탐색 적 데이터 분석 (EDA)을 수행하고 있습니다. 그런 다음 종속 변수를 예측하기 위해 일부 기능을 선택합니다. 문제는 : 훈련 데이터 세트에 대해서만 EDA를 수행해야합니까? 아니면 교육 및 테스트 데이터 세트에 함께 참여한 후 EDA를 수행하고이 분석을 기반으로 기능을 선택해야합니까?


1
머신 러닝의 기능 구성 및 표준화
영화 M에 대한 물류 분류기를 만들고 싶다고 가정 해 보겠습니다. 내 특징은 사람의 나이, 성별, 직업, 위치와 같은 것입니다. 훈련 세트는 다음과 같습니다. 연령 성별 직업 위치 좋아요 (1) / 싫음 (0) 23 M 소프트웨어 미국 1 24F 닥터 영국 0 등등 .... 이제 내 질문은 어떻게 기능을 확장하고 표현해야 …

1
자동 키워드 추출 : 코사인 유사성을 기능으로 사용
나는 문서 용어 행렬 을 가지고 있으며 이제 감독 학습 방법 (SVM, Naive Bayes, ...)을 사용하여 각 문서의 키워드를 추출하고 싶습니다. 이 모델에서는 이미 Tf-idf, Pos 태그를 사용합니다 ...미디엄MM 그러나 지금 나는 다음에 대해 궁금합니다. 용어 사이에 코사인 유사성 이있는 행렬 가 있습니다.씨CC 이 유사성을 내 모델의 기능으로 사용할 가능성이 …

2
의미 적 의미를 유지하는 도메인에 구애받지 않는 기능 엔지니어링?
형상 공학은 종종 기계 학습에 중요한 구성 요소입니다 ( 2010 년 KDD 컵 우승에 크게 사용됨 ). 그러나 대부분의 기능 엔지니어링 기술은 기본 기능의 직관적 인 의미를 파괴하거나 특정 도메인 또는 특정 유형의 기능에 매우 구체적입니다. 전자의 전형적인 예는 주성분 분석입니다. 주제 관련 전문가가 해당 기능에 대해 알고있는 지식은 해당 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.