약 2,000 개의 이진 변수 / 100,000 행의 데이터 세트가 있고 단일 이진 종속 변수를 예측하려고합니다. 이 단계에서 나의 주요 목표는 예측의 정확성을 얻는 것이 아니라 이러한 변수 중 어떤 변수가 중요한 예측 변수인지 식별하는 것입니다. 최종 모델의 변수 수를 약 100으로 줄이려고합니다. 가장 중요한 변수를 얻는 비교적 빠른 방법이 …
주어진 시계열이 안정화되었을 때 테스트를위한 표준 (또는 최상의) 방법이 있습니까? 동기 부여 값을 출력하는 확률 적 동적 시스템이 있습니다. xtxtx_t 매 시간마다 t∈Nt∈Nt \in \mathbb{N}. 이 시스템은 시간 단계까지 일부 과도 현상이 있습니다t∗t∗t^*그런 다음 약간의 오류가 발생하여 평균 값 주위에서 안정화됩니다 . , 또는 오류 중 어느 것도 알려지지 않았습니다 …
최소 각도 회귀 (LAR)에 대한 문제를 해결하려고합니다. 이 문제가 3.23 페이지 (97) 의 Hastie 등., 통계 학습의 요소, 2. 에드. (5 번째 인쇄) . 모든 변수와 반응의 평균이 0이고 표준 편차가 1 인 회귀 문제를 고려하십시오. 각 변수가 반응과 동일한 절대 상관 관계를 가지고 있다고 가정하십시오. 1엔| ⟨엑스제이, Y ⟩ …
그래서, 나는 16 개의 시험을 가지고 있는데, 여기에서 Hamming Distance를 사용하여 생체 특성으로부터 사람을 인증하려고합니다. 임계 값이 3.5로 설정되었습니다. 내 데이터는 다음과 같으며 1 번 시험 만 참 긍정입니다. Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 5 0.55 6 0.47 7 0.47 8 0.32 9 0.39 …
나는 계층 적 강화 학습 문제를 연구 해 왔고, 많은 논문들이 정책 학습을위한 알고리즘을 제안하고 있지만, 모두 도메인에서 활동의 계층 구조를 설명하는 그래프 구조를 미리 알고 있다고 가정하는 것 같습니다. 예를 들어 Dietterich의 계층 적 강화 학습 을 위한 MAXQ 방법 은 간단한 택시 도메인의 작업 및 하위 작업 그래프를 …
데이터 예측에 사용할 샘플 크기 "N"을 제공했습니다. 데이터를 세분화하여 일부를 사용하여 모델을 설정하고 나머지 데이터를 사용하여 모델을 확인하는 방법에는 어떤 것이 있습니까? 나는 이것에 대한 흑인과 백인의 대답이 없다는 것을 알고 있지만, 어떤 "엄지 규칙"이나 일반적으로 사용되는 비율을 아는 것이 흥미로울 것입니다. 나는 교수 중 한 명이 대학에서 60 %에 …
아시다시피, K-fold 및 random subsampling이라는 두 가지 널리 사용되는 교차 유효성 검사 유형이 있습니다 ( Wikipedia에 설명되어 있음 ). 그럼에도 불구하고, 일부 연구자들은 K- 폴드 CV로 묘사 된 것이 실제로 임의의 서브 샘플링 논문 인 논문을 만들고 출판한다는 것을 알고 있습니다. 물론 그 차이는 눈에 띄지 않으며 내 질문도 있습니다. …
텍스트에 대한 감정 분석을 수행하고 여러 기사를 살펴보고 일부는 "Naive Bayes"를 사용 하고 다른 일부는 "Recurrent Neural Network (LSTM)"입니다 . 반면에 감정 분석을위한 Python 라이브러리를 보았습니다. NLTK입니다. 그것은 사용 "나이브 베이 즈 ' 깡통 사람이 두 가지를 사용 사이의 차이점은 무엇입니까 설명? 나는 또한이 게시물을 겪었지만 두 가지에 대해서는 명확하지 …