«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리

2
이상 감지 : 어떤 알고리즘을 사용해야합니까?
컨텍스트 : 임상 데이터를 분석하여 오타가 될 수없는 데이터를 필터링하는 시스템을 개발 중입니다. 내가 지금까지 한 일 : 타당성을 정량화하기 위해 지금까지의 시도는 데이터를 정규화 한 다음 세트 D에서 알려진 데이터 포인트까지의 거리를 기준으로 포인트 p에 대한 타당성 값을 계산하는 것입니다 (= 훈련 세트). 타당성 ( p ) = ∑큐∈ …

1
의사 결정 트리 변수 (기능) 스케일링 및 변수 (기능) 정규화 (튜닝) 어떤 구현에 필요합니까?
많은 머신 러닝 알고리즘에서 기능 스케일링 (일명 가변 스케일링, 정규화)은 일반적인 선행 단계입니다. Wikipedia-Feature Scaling- 이 질문은 끝났 습니다 의사 결정 트리와 관련하여 특별히 두 가지 질문이 있습니다. 기능 확장이 필요한 의사 결정 트리 구현이 있습니까? 대부분의 알고리즘 분할 기준이 확장에 무관심하다는 인상을 받고 있습니다. 다음 변수를 고려하십시오. (1) 단위, …

3
교육 데이터 (또는 모든 데이터)에서만 기능 선택을 수행해야합니까?
교육 데이터 (또는 모든 데이터)에서만 기능 선택을 수행해야합니까? 나는 Guyon (2003) 과 Singhi and Liu (2006)와 같은 몇 가지 토론과 논문을 겪었 지만 여전히 정답에 대해서는 확실하지 않습니다. 내 실험 설정은 다음과 같습니다. 데이터 세트 : 50 건의 건강 관리 및 50 건의 질병 환자 (질병 예측과 관련이있는 CA 200 …

3
Matlab에서 상호 정보를 사용한 기능 선택
이 강의 노트 (5 페이지)에 설명 된대로 상호 정보 개념을 기능 선택에 적용하려고합니다 . 내 플랫폼은 Matlab입니다. 경험적 데이터에서 상호 정보를 계산할 때 발견되는 한 가지 문제는 숫자가 항상 위쪽으로 편향되어 있다는 것입니다. Matlab Central에서 MI를 계산하기 위해 약 3 ~ 4 개의 다른 파일을 찾았으며 독립적 인 무작위 변수를 …

1
매우 큰 시계열 데이터 세트 다루기
매우 큰 데이터 세트에 액세스 할 수 있습니다. 데이터는 4 가지 장르 중 하나에서 음악 발췌를 듣는 사람들의 MEG 기록에서 가져온 것입니다. 데이터는 다음과 같습니다. 6 과목 3 실험 반복 (에포크) 에포크 당 120 개의 평가판 275 MEG 채널의 500Hz (= 4000 개 샘플)에서 시행 당 8 초의 데이터 여기의 …

4
R에서 변수 / 기능 선택을 수행하기 위해 교차 검증을 사용하는 방법이 있습니까?
약 70 개의 변수가있는 데이터 세트가 있습니다. 내가 찾고있는 것은 CV를 사용하여 다음과 같은 방식으로 가장 유용한 변수를 찾는 것입니다. 1) 20 개의 변수를 임의로 선택합니다. 2) stepwise/ LASSO/ lars/ etc를 사용 하여 가장 중요한 변수를 선택하십시오. 3) ~ 50x를 반복하고 어떤 변수가 가장 자주 선택 (제거되지 않음)되었는지 확인합니다. 이것은 …

4
당뇨병의 SVM 분류 개선
당뇨병을 예측하기 위해 SVM을 사용하고 있습니다. 이 목적으로 BRFSS 데이터 세트를 사용하고 있습니다. 데이터 세트의 크기는 이며 비뚤어집니다. 목표 변수에서 s 의 비율 은 이고 s는 나머지 구성합니다 .11 % 89 %432607 × 136432607×136432607 \times 136Y11 %11%11\%N89 %89%89\% 데이터 세트에서 독립 변수 15중 하나만 사용 136하고 있습니다. 데이터 세트를 줄이는 …

2
비모수 회귀 분석을위한 최상의 피처 선택 방법
초보자 질문입니다. 현재 R의 np 패키지를 사용하여 비모수 적 회귀 분석을 수행하고 있습니다. 7 가지 기능이 있고 무차별 대입 방식을 사용하여 최고의 3을 식별했습니다. 그러나 곧 7 가지 이상의 기능을 갖게 될 것입니다! 내 질문은 비모수 회귀에 대한 기능 선택에 가장 적합한 방법은 무엇입니까? 패키지가 메소드를 구현하는 경우 감사합니다.

1
중복 기능을 수량화하는 방법은 무엇입니까?
분류 문제를 해결하는 데 사용하는 세 가지 기능이 있습니다. 원래 이러한 기능은 부울 값을 생성하므로 포지티브 및 네거티브 분류 세트가 얼마나 겹치는 지 살펴보고 중복성을 평가할 수있었습니다. 이제 실제 값 (점수)을 생성하는 기능을 확장했으며 중복성을 다시 분석하고 싶지만 그렇게하는 방법에 대한 완전한 손실이 있습니다. 누구든지 그것에 대해하는 방법에 대한 포인터 …

3
베이지안 모델 선택 및 신뢰할 수있는 간격
모든 변수가 정량적 인 3 개의 변수가있는 데이터 세트가 있습니다. 그것을 , 및 라고합시다 . MCMC를 통해 베이지안 관점에서 회귀 모델을yyyx1x1x_1x2x2x_2rjags 탐색 적 분석을 수행했으며 의 산점도 는 2 차 항을 사용해야한다고 제안합니다. 그런 다음 두 가지 모델을 장착했습니다y×x2y×x2y\times x_2 (1)y=β0+β1∗x1+β2∗x2y=β0+β1∗x1+β2∗x2y=\beta_0+\beta_1*x_1+\beta_2*x_2 (2)y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x21+β5∗x22y=β0+β1∗x1+β2∗x2+β3∗x1x2+β4∗x12+β5∗x22y=\beta_0+\beta_1*x1+\beta_2*x_2+\beta_3*x_1x_2+\beta_4*x_1^2+\beta_5*x_2^2 모델 1에서 각 매개 변수의 효과 크기는 작지 …

3
Scikit Learn으로 기능 선택 후 필터링 된 기능 식별
다음은 Python의 기능 선택 방법 에 대한 코드입니다 . from sklearn.svm import LinearSVC from sklearn.datasets import load_iris iris = load_iris() X, y = iris.data, iris.target X.shape (150, 4) X_new = LinearSVC(C=0.01, penalty="l1", dual=False).fit_transform(X, y) X_new.shape (150, 3) 그러나 새로운 X (종속 변수-X_new)를 얻은 후이 새로운 업데이트 된 변수에서 어떤 변수가 …


3
로지스틱 회귀 모델에 적합한 방법으로 예측 변수를 줄이는 방법
따라서 현재 모델링 상황에 대한 일부 책 (또는 그 일부)을 읽었습니다 (F. Harrell의 "회귀 모델링 전략"). 현재 상황은 이진 반응 데이터를 기반으로 로지스틱 모델을 수행해야하기 때문입니다. 내 데이터 세트에 연속, 범주 및 이진 데이터 (예측 자)가 있습니다. 기본적으로 저는 현재 약 100 개의 예측 변수를 가지고 있으며, 이는 좋은 모형을 …

3
딥 러닝을 이용한 기능 선택?
심층 모델을 사용하여 각 입력 기능의 중요성을 계산하고 싶습니다. - 그러나 나는 깊은 학습을 사용하여 기능 선택에 대한 하나의 종이 발견 깊은 기능 선택을 . 각 피처에 연결된 노드 레이어를 첫 번째 숨겨진 레이어 바로 앞에 삽입합니다. DBN (Deep Faith Network)도 이러한 종류의 작업에 사용될 수 있다고 들었습니다. 그러나 DBN은 …

2
교차 검증 전에 감독되지 않은 기능 선택을 수행하는 것이 실제로 괜찮습니까?
에서 통계 학습의 요소 , 나는 다음과 같은 문장을 발견했습니다 : 하나의 자격이 있습니다. 샘플을 제거하기 전에 감독되지 않은 초기 선별 단계를 수행 할 수 있습니다. 예를 들어 교차 검증을 시작하기 전에 50 개 샘플 모두에서 가장 큰 분산을 갖는 1000 개의 예측 변수를 선택할 수 있습니다. 이 필터링에는 클래스 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.