통계 및 빅 데이터 machine-learning

3

더 나은 훈련 성과를내는 C와 감마를 선택하는 더 좋은 대안 방법이 있습니까?

9 machine-learning

3

매우 큰 데이터 세트에서 중요한 변수를 빠르게 선택하는 방법은 무엇입니까?

약 2,000 개의 이진 변수 / 100,000 행의 데이터 세트가 있고 단일 이진 종속 변수를 예측하려고합니다. 이 단계에서 나의 주요 목표는 예측의 정확성을 얻는 것이 아니라 이러한 변수 중 어떤 변수가 중요한 예측 변수인지 식별하는 것입니다. 최종 모델의 변수 수를 약 100으로 줄이려고합니다. 가장 중요한 변수를 얻는 비교적 빠른 방법이 …

9 machine-learning data-mining large-data

6

시계열 안정성 테스트

주어진 시계열이 안정화되었을 때 테스트를위한 표준 (또는 최상의) 방법이 있습니까? 동기 부여 값을 출력하는 확률 적 동적 시스템이 있습니다. xtxtx_t 매 시간마다 t∈Nt∈Nt \in \mathbb{N}. 이 시스템은 시간 단계까지 일부 과도 현상이 있습니다t∗t∗t^*그런 다음 약간의 오류가 발생하여 평균 값 주위에서 안정화됩니다 . , 또는 오류 중 어느 것도 알려지지 않았습니다 …

9 time-series machine-learning

1

최소 각도 회귀는 상관 관계를 단조롭게 감소시키고 묶는 것을 유지합니까?

최소 각도 회귀 (LAR)에 대한 문제를 해결하려고합니다. 이 문제가 3.23 페이지 (97) 의 Hastie 등., 통계 학습의 요소, 2. 에드. (5 번째 인쇄) . 모든 변수와 반응의 평균이 0이고 표준 편차가 1 인 회귀 문제를 고려하십시오. 각 변수가 반응과 동일한 절대 상관 관계를 가지고 있다고 가정하십시오. 1엔| ⟨엑스제이, Y ⟩ …

9 regression machine-learning correlation self-study

2

데이터에 대한 ROC 곡선 계산

그래서, 나는 16 개의 시험을 가지고 있는데, 여기에서 Hamming Distance를 사용하여 생체 특성으로부터 사람을 인증하려고합니다. 임계 값이 3.5로 설정되었습니다. 내 데이터는 다음과 같으며 1 번 시험 만 참 긍정입니다. Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

1

계층 적 강화 작업의 구조 학습

나는 계층 적 강화 학습 문제를 연구 해 왔고, 많은 논문들이 정책 학습을위한 알고리즘을 제안하고 있지만, 모두 도메인에서 활동의 계층 구조를 설명하는 그래프 구조를 미리 알고 있다고 가정하는 것 같습니다. 예를 들어 Dietterich의 계층 적 강화 학습 을 위한 MAXQ 방법 은 간단한 택시 도메인의 작업 및 하위 작업 그래프를 …

9 machine-learning

4

모델 피팅 / 트레이닝 및 검증에 사용되는 샘플 데이터의 계산 비율

데이터 예측에 사용할 샘플 크기 "N"을 제공했습니다. 데이터를 세분화하여 일부를 사용하여 모델을 설정하고 나머지 데이터를 사용하여 모델을 확인하는 방법에는 어떤 것이 있습니까? 나는 이것에 대한 흑인과 백인의 대답이 없다는 것을 알고 있지만, 어떤 "엄지 규칙"이나 일반적으로 사용되는 비율을 아는 것이 흥미로울 것입니다. 나는 교수 중 한 명이 대학에서 60 %에 …

9 machine-learning modeling sample validation

2

교차 검증 구현이 결과에 영향을 줍니까?

아시다시피, K-fold 및 random subsampling이라는 두 가지 널리 사용되는 교차 유효성 검사 유형이 있습니다 ( Wikipedia에 설명되어 있음 ). 그럼에도 불구하고, 일부 연구자들은 K- 폴드 CV로 묘사 된 것이 실제로 임의의 서브 샘플링 논문 인 논문을 만들고 출판한다는 것을 알고 있습니다. 물론 그 차이는 눈에 띄지 않으며 내 질문도 있습니다. …

9 machine-learning cross-validation

1

Naive Bayes와 Recurrent Neural Network (LSTM)의 차이점

텍스트에 대한 감정 분석을 수행하고 여러 기사를 살펴보고 일부는 "Naive Bayes"를 사용 하고 다른 일부는 "Recurrent Neural Network (LSTM)"입니다 . 반면에 감정 분석을위한 Python 라이브러리를 보았습니다. NLTK입니다. 그것은 사용 "나이브 베이 즈 ' 깡통 사람이 두 가지를 사용 사이의 차이점은 무엇입니까 설명? 나는 또한이 게시물을 겪었지만 두 가지에 대해서는 명확하지 …

8 machine-learning neural-networks python natural-language

«machine-learning» 태그된 질문