«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리

5
정규화 알고리즘을 사용하는 동안 여전히 기능 선택이 필요합니까?
통계 학습 알고리즘을 실행하기 전에 기능 선택 방법 (랜덤 포리스트 기능 중요도 값 또는 일 변량 기능 선택 방법 등)을 사용해야하는 것과 관련하여 한 가지 질문이 있습니다. 우리는 과적 합을 피하기 위해 가중치 벡터에 정규화 페널티를 도입 할 수 있습니다. 따라서 선형 회귀를 원한다면 L2 또는 L1 또는 Elastic net …


2
LASSO 변수 선택 후 OLS를 수행하는 것이 어떤 의미가 있습니까?
최근에 적용된 계량 경제학 문헌에서, 특징 선택 문제를 다룰 때, 선택된 변수를 사용하여 LASSO를 수행 한 다음 OLS 회귀를 수행하는 것은 드문 일이 아니라는 것을 발견했습니다. 그러한 절차의 유효성을 어떻게 검증 할 수 있는지 궁금했습니다. 변수 생략과 같은 문제가 발생합니까? 더 효율적이거나 결과가 더 해석 가능하다는 증거가 있습니까? 다음은 몇 …

1
이 올가미 줄거리에서 결론을 내릴 것 (glmnet)
다음은 mtcarsR로 설정된 데이터를 mpgDV로 사용하고 다른 변수는 예측 변수로 사용하여 기본 알파 (1, 따라서 올가미)를 사용하는 glmnet의 플롯입니다 . glmnet(as.matrix(mtcars[-1]), mtcars[,1]) 우리는 무엇 특히, 다른 변수에 대해이 플롯에서 결론을 내릴 수 am, cyl과 wt(빨강, 검정 및 밝은 파란색 선)? 보고서에 출력 할 내용을 어떻게 표현할 것인가? 나는 다음을 생각했다. …

2
로지스틱 회귀 분석에서 범주 형 예측 변수의 중요성
로지스틱 회귀 분석에서 범주 형 변수의 z 값을 해석하는 데 문제가 있습니다. 아래 예제에는 클래스가 3 개인 범주 형 변수가 있으며 z 값에 따라 CLASS2는 관련이 있지만 다른 클래스는 관련이 없습니다. 그러나 이것이 무엇을 의미합니까? 다른 수업을 하나로 합칠 수 있습니까? 전체 변수가 좋은 예측 변수가 아닐 수 있습니까? 이것은 …

1
“기능 공간”이란 무엇입니까?
"feature space"정의 예를 들어 SVM에 대해 읽을 때 "피처 공간으로 매핑"에 대해 읽었습니다. CART에 대해 읽을 때 "피처 공간으로 분할"에 대해 읽습니다. 특히 CART의 상황을 이해하고 있지만 누락 된 정의가 있다고 생각합니다. "피처 공간"에 대한 일반적인 정의가 있습니까? SVM 커널 및 / 또는 CART에 대한 통찰력을 제공하는 정의가 있습니까?

2
LASSO는 단계적 회귀와 같은 문제로 고통 받습니까?
단계적 알고리즘 변수 선택 방법은 회귀 모델 ( ββ\beta 및 SE, p- 값 , F 통계 등)의 모든 추정치에 다소 차이가있는 모형에 대해 선택하는 경향이 있으며 다음과 같이 실제 예측 변수를 배제 할 가능성이 높습니다. 합리적으로 성숙한 시뮬레이션 문헌에 따른 거짓 예측 자. 변수를 선택하는 데 LASSO가 동일한 특정 방식으로 …

1
모델 선택의 역설 (AIC, BIC, 설명 또는 예측?)
Galit Shmueli의 "설명하거나 예측하다" (2010) 를 읽은 나는 명백한 모순에 의아해한다. 세 가지 전제가 있습니다 AIC 대 BIC 기반 모델 선택 (300 페이지의 끝-301 페이지의 시작) : 간단히 말해 AIC는 예측 을위한 모델을 선택하는 데 사용되고 BIC는 설명을 위한 모델을 선택하는 데 사용해야합니다 . 또한 (위의 논문에서는 제외) 일부 조건에서 …

2
PCA, LASSO, 탄력적 네트워크의 속도, 계산 비용
나는 Hastie et al. "통계학 학습 요소"(2 판), 3 장 : 서브 세트 선택 수축 방법 도출 된 입력 방향을 사용하는 방법 (PCR, PLS) 아이디어를 제공하기 위해 비교가 매우 어려울 수 있습니다. 답은 문제의 차원과 그것이 어떻게 컴퓨터 아키텍처에 적합한 지에 따라 달라질 수 있으므로 구체적인 예를 들어 500 및 …

4
이미지 해상도를 기준으로 기능 수를 계산하는 방법은 무엇입니까?
Andrew Ng의 신경 Netowrks의 비선형 가설을 방금 다루었 고, 우리는 100 x 100 의 그레이 스케일 강도 의 해상도 이미지의 특징 수 를 결정하기 위해 객관식 질문을했습니다 . 답은 5 천만, x 이었습니다.10 755510710710^7 그러나 이전에는 50 x 50 픽셀의 회색조 이미지입니다. 기능 수는 50x50 (2500)입니다. 왜 아닌 x 입니까?10 …

5
cv.glmnet 결과의 다양성
cv.glmnet예측 변수를 찾는 데 사용 하고 있습니다. 내가 사용하는 설정은 다음과 같습니다. lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] 메이크업에 확인 결과는 재현 I 있습니다 set.seed(1). 결과는 매우 다양합니다. 결과가 얼마나 변수인지 확인하기 위해 정확히 동일한 코드 100을 실행했습니다. 98/100 런에서 하나의 특정 예측 변수가 항상 선택되었습니다 (때로는 그 자체 만 가능합니다). …

3
멀티 클래스 분류기를 여러 이진 분류기보다 낫습니까?
URL을 카테고리로 분류해야합니다. 모든 URL을 0으로 분류하려는 15 개의 카테고리가 있다고 가정 해 보겠습니다. 15-way 분류 기가 더 낫습니까? 여기서 15 개의 레이블이 있고 각 데이터 포인트에 대한 기능을 생성합니다. 또는 15 개의 이진 분류기를 작성하십시오 (예 : 영화 또는 영화가 아닌 경우).

5
로지스틱 회귀 분석에 가장 중요한 기능 이해
내 데이터에서 매우 정확한 로지스틱 회귀 분류기를 만들었습니다. 이제 왜 그것이 잘 작동하는지 더 잘 이해하고 싶습니다. 특히, 어떤 기능이 가장 큰 기여를하고 있는지 (어떤 기능이 가장 중요한지) 순위를 매기고, 이상적으로는 각 기능이 전체 모델 (또는이 맥락에서)의 정확성에 기여하는 정도를 수량화하고 싶습니다. 어떻게해야합니까? 내 첫 번째 생각은 계수를 기준으로 순위를 …

3
변수 선택에 올가미를 사용한 후의 추론
상대적으로 낮은 차원 설정 (n >> p)에서 피처 선택을 위해 올가미를 사용하고 있습니다. 올가미 모델을 피팅 한 후, 0이 아닌 계수를 갖는 공변량을 사용하여 페널티가없는 모델을 피팅하려고합니다. 올가미가 나에게 줄 수없는 편견없는 견적을 원하기 때문에이 작업을 수행하고 있습니다. 또한 편견없는 추정치에 대한 p- 값과 신뢰 구간을 원합니다. 이 주제에 관한 …


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.