통계 및 빅 데이터 feature-selection

2

비지도 알고리즘 (클러스터링)을 사용하여 서로 다른 데이터 세트를 그룹화하려고합니다. 문제는 많은 기능 (~ 500)과 소량의 사례 (200-300)가 있다는 것입니다. 지금까지 나는 항상 데이터를 훈련 세트로 분류 한 분류 문제 만 사용했습니다. 거기에서 기능의 사전 선택을 위해 몇 가지 기준 (예 : random.forest.importance 또는 information.gain)을 사용한 다음 관련 학습자를 찾기 위해 …

9 r clustering feature-selection unsupervised-learning

6

이상 감지를위한 기능 준비 / 구성 방법 (네트워크 보안 데이터)

저의 목표는 침입 탐지 목적으로 클러스터링 / 변칙 탐지를 사용하여 네트워크 로그 (예 : Apache, syslog, Active Directory 보안 감사 등)를 분석하는 것입니다. 로그에는 IP 주소, 사용자 이름, 호스트 이름, 대상 포트, 소스 포트 등과 같은 많은 텍스트 필드가 있습니다 (총 15-20 필드). 로그에 몇 가지 공격이 있는지 알지 못하고 …

9 feature-selection outliers unsupervised-learning feature-construction

4

시차의 순서를 올가미?

형식의 종단 데이터가 있다고 가정합니다 여러 관측 값이 있습니다. 이것은 하나의 형태 일뿐입니다). 제한에 관심이 있습니다. 제한없는 는 와 것과 같습니다. .Y=(Y1,…,YJ)∼N(μ,Σ)Y=(Y1,…,YJ)∼N(μ,Σ)\mathbf Y = (Y_1, \ldots, Y_J) \sim \mathcal N(\mu, \Sigma)ΣΣ\SigmaΣΣ\SigmaYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εjYj=αj+∑ℓ=1j−1ϕℓjYj−ℓ+εj Y_j = \alpha_j + \sum_{\ell = 1} ^ {j - 1} \phi_{\ell j} Y_{j-\ell} + \varepsilon_j εj∼N(0,σj)εj∼N(0,σj)\varepsilon_j \sim N(0, …

9 feature-selection lasso shrinkage

1

관찰 된 이벤트와 예상 된 이벤트를 비교하는 방법은 무엇입니까?

4 가지 가능한 이벤트의 주파수 샘플이 하나 있다고 가정합니다. Event1 - 5 E2 - 1 E3 - 0 E4 - 12 내 이벤트의 예상 확률이 있습니다. p1 - 0.2 p2 - 0.1 p3 - 0.1 p4 - 0.6 내 네 가지 사건의 관측 빈도의 합으로 (18) 사건의 예상 빈도를 올바르게 …

9 r statistical-significance chi-squared multivariate-analysis exponential joint-distribution statistical-significance self-study standard-deviation probability normal-distribution spss interpretation assumptions cox-model reporting cox-model statistical-significance reliability method-comparison classification boosting ensemble adaboost confidence-interval cross-validation prediction prediction-interval regression machine-learning svm regularization regression sampling survey probit matlab feature-selection information-theory mutual-information time-series forecasting simulation classification boosting ensemble adaboost normal-distribution multivariate-analysis covariance gini clustering text-mining distance-functions information-retrieval similarities regression logistic stata group-differences r anova confidence-interval repeated-measures r logistic lme4-nlme inference fiducial kalman-filter classification discriminant-analysis linear-algebra computing statistical-significance time-series panel-data missing-data uncertainty probability multivariate-analysis r classification spss k-means discriminant-analysis poisson-distribution average r random-forest importance probability conditional-probability distributions standard-deviation time-series machine-learning online forecasting r pca dataset data-visualization bayes distributions mathematical-statistics degrees-of-freedom

1

기능 선택을위한 랜덤 순열 테스트

로지스틱 회귀 컨텍스트에서 기능 선택에 대한 순열 분석에 대해 혼란스러워합니다. 랜덤 순열 테스트에 대한 명확한 설명을 제공하고이 기능이 기능 선택에 어떻게 적용됩니까? 정확한 알고리즘과 예제가있을 수 있습니다. 마지막으로 올가미 또는 LAR과 같은 다른 수축 방법과 어떻게 비교됩니까?

9 regression logistic feature-selection permutation-test shrinkage

4

2 X 3 테이블에서 다중 사후 카이-제곱 테스트를 수행하는 방법은 무엇입니까?

내 데이터 세트는 해안, 미드 채널 및 해양의 세 가지 사이트 유형에서 유기체의 총 사망률 또는 생존율로 구성됩니다. 아래 표의 숫자는 사이트 수를 나타냅니다. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 100 % 사망률이 발생한 사이트 수가 사이트 유형에 따라 중요한지 알고 싶습니다. 2 …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

3

기능 선택을위한 중간 광택의 사용

최근에 읽은 논문에서 데이터 분석 섹션에서 다음 비트를 발견했습니다. 그런 다음 데이터 테이블을 조직과 세포주로 나누고 두 개의 하위 테이블을 개별적으로 중앙에서 연마하고 (행과 열은 중앙값 0을 반복적으로 조정하여) 단일 테이블로 다시 결합했습니다. 우리는 최종적으로 시험 된 3 개 이상의 샘플에서이 샘플 세트의 중앙값으로부터 4 배 이상 발현이 변하는 유전자 …

9 feature-selection median genetics

2

기능 선택에 커널 PCA를 사용할 수 있습니까?

PCA를 사용하는 것과 동일한 방식으로 LSI (Latent Semantic Indexing)에 대해 kPCA (kernel principal component analysis)를 사용할 수 있습니까? prcompPCA 기능을 사용하여 R에서 LSI를 수행 하고 첫 번째 구성 요소 에서 가장 높은 하중을 갖는 기능을 추출합니다 . 이를 통해 구성 요소를 가장 잘 설명하는 기능을 얻습니다.kkk 패키지 kpca에서 함수 를 …

9 r pca feature-selection kernel-trick

3

선형 회귀 분석을위한 최상의 예측 변수 하위 집합 계산

적합한 예측 변수를 사용하여 다변량 선형 회귀 분석에서 예측 변수를 선택 하기 위해 모든 2 ^ p 부분 집합 을 명시 적으로 테스트하지 않고 예측 변수의 '최적'부분 집합을 찾는 데 사용할 수있는 방법은 무엇 입니까? 'Applied Survival Analysis'에서 Hosmer & Lemeshow는 Kuk의 방법을 참조하지만 원본 논문을 찾을 수 없습니다. 누구 …

9 modeling regression multivariable model-selection feature-selection

«feature-selection» 태그된 질문