«feature-selection» 태그된 질문

추가 모델링에 사용할 속성의 하위 집합을 선택하는 방법 및 원리

2
클러스터링 문제에 대한 기능 선택
비지도 알고리즘 (클러스터링)을 사용하여 서로 다른 데이터 세트를 그룹화하려고합니다. 문제는 많은 기능 (~ 500)과 소량의 사례 (200-300)가 있다는 것입니다. 지금까지 나는 항상 데이터를 훈련 세트로 분류 한 분류 문제 만 사용했습니다. 거기에서 기능의 사전 선택을 위해 몇 가지 기준 (예 : random.forest.importance 또는 information.gain)을 사용한 다음 관련 학습자를 찾기 위해 …

6
이상 감지를위한 기능 준비 / 구성 방법 (네트워크 보안 데이터)
저의 목표는 침입 탐지 목적으로 클러스터링 / 변칙 탐지를 사용하여 네트워크 로그 (예 : Apache, syslog, Active Directory 보안 감사 등)를 분석하는 것입니다. 로그에는 IP 주소, 사용자 이름, 호스트 이름, 대상 포트, 소스 포트 등과 같은 많은 텍스트 필드가 있습니다 (총 15-20 필드). 로그에 몇 가지 공격이 있는지 알지 못하고 …

4
시차의 순서를 올가미?
형식의 종단 데이터가 있다고 가정합니다 여러 관측 값이 있습니다. 이것은 하나의 형태 일뿐입니다). 제한에 관심이 있습니다. 제한없는 는 와 것과 같습니다. .Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j εj∼N(0,σj)εj∼N(0,σj)\varepsilon_j \sim N(0, …

1
관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?
4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …
9 r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

1
기능 선택을위한 랜덤 순열 테스트
로지스틱 회귀 컨텍스트에서 기능 선택에 대한 순열 분석에 대해 혼란스러워합니다. 랜덤 순열 테스트에 대한 명확한 설명을 제공하고이 기능이 기능 선택에 어떻게 적용됩니까? 정확한 알고리즘과 예제가있을 수 있습니다. 마지막으로 올가미 또는 LAR과 같은 다른 수축 방법과 어떻게 비교됩니까?

4
2 X 3 테이블에서 다중 사후 카이-제곱 테스트를 수행하는 방법은 무엇입니까?
내 데이터 세트는 해안, 미드 채널 및 해양의 세 가지 사이트 유형에서 유기체의 총 사망률 또는 생존율로 구성됩니다. 아래 표의 숫자는 사이트 수를 나타냅니다. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100 % 사망률이 발생한 사이트 수가 사이트 유형에 따라 중요한지 알고 싶습니다. 2 …

3
기능 선택을위한 중간 광택의 사용
최근에 읽은 논문에서 데이터 분석 섹션에서 다음 비트를 발견했습니다. 그런 다음 데이터 테이블을 조직과 세포주로 나누고 두 개의 하위 테이블을 개별적으로 중앙에서 연마하고 (행과 열은 중앙값 0을 반복적으로 조정하여) 단일 테이블로 다시 결합했습니다. 우리는 최종적으로 시험 된 3 개 이상의 샘플에서이 샘플 세트의 중앙값으로부터 4 배 이상 발현이 변하는 유전자 …

2
기능 선택에 커널 PCA를 사용할 수 있습니까?
PCA를 사용하는 것과 동일한 방식으로 LSI (Latent Semantic Indexing)에 대해 kPCA (kernel principal component analysis)를 사용할 수 있습니까? prcompPCA 기능을 사용하여 R에서 LSI를 수행 하고 첫 번째 구성 요소 에서 가장 높은 하중을 갖는 기능을 추출합니다 . 이를 통해 구성 요소를 가장 잘 설명하는 기능을 얻습니다.kkk 패키지 kpca에서 함수 를 …

3
선형 회귀 분석을위한 최상의 예측 변수 하위 집합 계산
적합한 예측 변수를 사용하여 다변량 선형 회귀 분석에서 예측 변수를 선택 하기 위해 모든 2 ^ p 부분 집합 을 명시 적으로 테스트하지 않고 예측 변수의 '최적'부분 집합을 찾는 데 사용할 수있는 방법은 무엇 입니까? 'Applied Survival Analysis'에서 Hosmer & Lemeshow는 Kuk의 방법을 참조하지만 원본 논문을 찾을 수 없습니다. 누구 …
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.