«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리

2
임의 포리스트를 사용한 기능 선택
나는 주로 재정적 변수가 많은 데이터 세트 (120 가지 특징, 4k 예제)를 가지고 있으며 상관 관계가 높고 소음이 심합니다 (예 : 기술 지표). 나중에 모델 훈련 (이진 분류)과 함께 사용하기 위해 최대 20-30을 선택하고 싶습니다. - 증가 감소). 기능 순위에 임의 포리스트를 사용하려고 생각했습니다. 재귀 적으로 사용하는 것이 좋습니다? 예를 …

4
낮은 분류 정확도, 다음에 수행 할 작업
그래서 저는 ML 분야의 초보자이며 분류를하려고합니다. 내 목표는 스포츠 이벤트의 결과를 예측하는 것입니다. 나는 몇 가지 역사적 데이터를 수집했으며 이제 분류기를 훈련하려고합니다. 나는 약 1200 개의 샘플을 얻었고, 그중 0.2 개는 테스트 목적으로 분리되었으며 다른 샘플은 다른 분류 기준으로 그리드 검색에 포함되었습니다 (교차 유효성 검사 포함). 나는 선형, rbf 및 …

1
lmer 모델에 사용할 다중 비교 방법 : lsmeans 또는 glht?
하나의 고정 효과 (조건)와 두 개의 임의 효과 (대상 내 설계 및 쌍으로 인해 참가자)가있는 혼합 효과 모델을 사용하여 데이터 세트를 분석하고 있습니다. lme4패키지로 모델이 생성되었습니다 exp.model<-lmer(outcome~condition+(1|participant)+(1|pair),data=exp). 다음으로, 고정 효과 (조건)없이 모형에 대해이 모형의 우도 비 검정을 수행했으며 유의 한 차이가 있습니다. 내 데이터 세트에는 3 가지 조건이 있으므로 다중 …

4
텍스트 마이닝 : 인공 지능으로 텍스트 (예 : 뉴스 기사)를 클러스터링하는 방법?
나는 탁구 연주, 필기 숫자 및 물건 분류와 같은 다양한 작업을 위해 일부 신경망 (MLP (완전히 연결되어 있음), Elman (반복))을 만들었습니다. 또한 여러 자필 필기 노트를 분류하기 위해 첫 번째 회선 신경망을 구축하려고 시도했지만 25x25 크기의 이미지와 같은 표준화 된 입력에 의존 할 수있는 이미지 인식 / 클러스터링 작업에서 텍스트를 …

1
자식 노드의 Gini 감소 및 Gini 불순물
임의 포리스트에 대한 Gini 기능 중요도 측정 작업을하고 있습니다. 따라서 노드 불순물의 Gini 감소를 계산해야합니다. 여기 내가 그렇게하는 방법이 있는데, 그것은 정의와 충돌을 일으키고 어딘가에 잘못해야한다고 제안합니다 ... :) 이진 트리의 경우 왼쪽 및 오른쪽 자식의 확률을 고려하여 노드 의 Gini 불순물을 계산할 수 있습니다 nnn. i(n)=1−p2l−p2ri(n)=1−pl2−pr2 i(n) = 1 …

2
LASSO / LARS 및 일반 대 특정 (GETS) 방법
왜 LASSO 및 LARS 모델 선택 방법이 기본적으로 단계별 순방향 선택의 변형이지만 경로 의존성을 겪을지라도 왜 그렇게 인기가 있는지 궁금합니다. 마찬가지로, 단계 선택 회귀 문제를 겪지 않기 때문에 LARS / LASSO보다 더 나은 모델 선택을위한 GETS (General to Specific) 방법이 왜 대부분 무시 되는가? (GETS에 대한 기본 참조 : http://www.federalreserve.gov/pubs/ifdp/2005/838/ifdp838.pdf- …

5
작은 샘플 임상 연구에서 머신 러닝 기술 적용
분류 맥락에서 흥미로운 예측 변수를 분리하는 것이 목표 인 경우 소규모 표본 임상 연구에서 랜덤 포레스트 또는 벌점 형 회귀 (L1 또는 L2 페널티 또는 이들의 조합으로)와 같은 기계 학습 기술을 적용하는 것에 대해 어떻게 생각하십니까? 모델 선택에 대한 질문이 아니며 가변 효과 / 중요도에 대한 최적의 추정치를 찾는 방법에 …

3
선형 분류기의 경우 더 큰 계수가 더 중요한 특징을 의미합니까?
기계 학습을 담당하는 소프트웨어 엔지니어입니다. 내 이해에서 선형 회귀 (예 : OLS) 및 선형 분류 (예 : 로지스틱 회귀 및 SVM)는 훈련 된 계수 와 특징 변수 사이의 내부 곱을 기반으로 예측합니다 .승⃗ 승→\vec{w}엑스⃗ 엑스→\vec{x} 와이^= f( 승⃗ ⋅ x⃗ ) = f( ∑나는승나는엑스나는)와이^=에프(승→⋅엑스→)=에프(∑나는승나는엑스나는) \hat{y} = f(\vec{w} \cdot \vec{x}) = …

2
연속 및 이진 데이터를 선형 SVM과 혼합합니까?
그래서 나는 SVM을 가지고 놀고 있었고 이것이 좋은 일인지 궁금합니다. 연속 기능 (0 ~ 1) 세트와 더미 변수로 변환 된 범주 기능 세트가 있습니다. 이 특별한 경우에는 측정 날짜를 더미 변수로 인코딩합니다. 데이터를 보유한 기간은 3 가지이며 3 개의 기능 번호를 예약했습니다. 20:21:22 : 따라서 데이터가 나오는 기간에 따라 다른 …

1
카이-제곱 기능 선택은 정확히 어떻게 작동합니까?
각 피처-클래스 쌍에 대해 카이-제곱 통계 값이 계산 되고 임계 값과 비교됩니다. 그래도 조금 혼란 스럽습니다. 피처와 클래스 가 있다면 우발성 테이블을 어떻게 구축합니까? 유지할 기능과 제거 할 기능을 어떻게 결정합니까?미디엄미디엄m케이케이k 어떤 설명이라도 대단히 감사하겠습니다. 미리 감사드립니다

5
훈련 데이터 세트에 대해서만 탐색 적 데이터 분석을 수행하는 것이 더 낫습니까?
데이터 세트에서 탐색 적 데이터 분석 (EDA)을 수행하고 있습니다. 그런 다음 종속 변수를 예측하기 위해 일부 기능을 선택합니다. 문제는 : 훈련 데이터 세트에 대해서만 EDA를 수행해야합니까? 아니면 교육 및 테스트 데이터 세트에 함께 참여한 후 EDA를 수행하고이 분석을 기반으로 기능을 선택해야합니까?

2
"F 회귀"및
피쳐를 F-regression레이블과 개별적으로 상관시키고 값을 관찰하는 것과 동일한 피쳐를 사용하여 피쳐를 비교 합니까?R2R2R^2 나는 종종 동료 F regression들이 다음의 머신 러닝 파이프 라인에서 기능 선택을 위해 사용하는 것을 보았습니다 sklearn. sklearn.feature_selection.SelectKBest(score_func=sklearn.feature_selection.f_regression...)` 일부는 말해주십시오-왜 레이블 / 종속 변수와 상관 관계가있는 것과 동일한 결과를 제공합니까? F_regression기능 선택에서 사용하는 이점이 명확하지 않습니다 . …

3
베이지안 변수 선택-실제로 작동합니까?
나는 좋은 블로그 게시물 과 그 안에 연결된 논문에 따라 일부 베이지안 변수 선택을 가지고 장난감을 가지고 있다고 생각했습니다 . rjags (내가 꽤 신인 임) 에서 프로그램 을 작성하고 Exxon Mobil에 대한 가격 데이터 를 가져 왔으며 , 수익률 (예 : 팔라듐 가격)을 설명 할 수없는 것 및 SP500과 같이 …

1
정방향 회귀 알고리즘은 무엇입니까?
어쩌면 피곤한 것일 수도 있지만 Forward Stagewise Regression 알고리즘을 이해하는 데 어려움을 겪고 있습니다. 에서 "통계 학습의 요소" 60 페이지 : 전단계 회귀 (FS)는 전단계 회귀보다 훨씬 더 제한적입니다. 그것은 [y]의 평균과 동일한 절편을 갖는 순차 단계적 회귀처럼 시작하며, 계수가 처음 인 중심 예측 변수는 모두 0입니다. 각 단계에서 알고리즘은 …

1
GAM vs LOESS vs 스플라인
컨텍스트 : 매개 변수로 표시되지 않는 산점도에 선을 그리려면에서를 사용 geom_smooth()하고 ggplot있습니다 R. 자동으로 반환 geom_smooth: method="auto" and size of largest group is >=1000, so using gam with formula: y ~ s(x, bs = "cs"). Use 'method = x' to change the smoothing method.내가 GAM이 일반화 된 첨가제 모델을 의미 …

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.