프로젝트를 진행 중이며 속도를 높이려면 리소스가 필요합니다.
데이터 세트는 30여 가지 변수에 대한 약 35000 개의 관측치입니다. 변수의 약 절반은 여러 가지 가능한 값을 갖는 범주 형입니다. 예를 들어 범주 형 변수를 더미 변수로 분할하면 30 개가 넘는 변수가 있습니다. 그러나 아마도 아마도 최대 몇 백입니다. (n> p).
우리가 예측하고자하는 반응은 5 단계 (1,2,3,4,5)의 순서입니다. 예측자는 각각의 절반 정도가 연속적이고 범주 적으로 혼합되어 있습니다. 이것들은 지금까지 나의 생각 / 계획입니다 : 1. 반응을 연속적으로 처리하고 바닐라 선형 회귀를 실행하십시오. 2. 명목 및 순서 로지스틱 및 프로 빗 회귀 분석 3. MARS 및 / 또는 다른 맛의 비선형 회귀 분석 사용
선형 회귀에 익숙합니다. MARS는 Hastie와 Tibshirani에 의해 충분히 설명되어 있습니다. 그러나 서수 로짓 / 프로 빗에 관해서는 특히 많은 변수와 큰 데이터 세트가 있으면 손실됩니다.
r 패키지 glmnetcr 은 지금까지 최선의 방법 인 것 같지만 설명서는 내가 필요한 곳에 도착하기에 충분하지 않습니다.
자세한 내용은 어디로 갈 수 있습니까?