R에서 서수 회귀 학습?


10

프로젝트를 진행 중이며 속도를 높이려면 리소스가 필요합니다.

데이터 세트는 30여 가지 변수에 대한 약 35000 개의 관측치입니다. 변수의 약 절반은 여러 가지 가능한 값을 갖는 범주 형입니다. 예를 들어 범주 형 변수를 더미 변수로 분할하면 30 개가 넘는 변수가 있습니다. 그러나 아마도 아마도 최대 몇 백입니다. (n> p).

우리가 예측하고자하는 반응은 5 단계 (1,2,3,4,5)의 순서입니다. 예측자는 각각의 절반 정도가 연속적이고 범주 적으로 혼합되어 있습니다. 이것들은 지금까지 나의 생각 / 계획입니다 : 1. 반응을 연속적으로 처리하고 바닐라 선형 회귀를 실행하십시오. 2. 명목 및 순서 로지스틱 및 프로 빗 회귀 분석 3. MARS 및 / 또는 다른 맛의 비선형 회귀 분석 사용

선형 회귀에 익숙합니다. MARS는 Hastie와 Tibshirani에 의해 충분히 설명되어 있습니다. 그러나 서수 로짓 / 프로 빗에 관해서는 특히 많은 변수와 큰 데이터 세트가 있으면 손실됩니다.

r 패키지 glmnetcr 은 지금까지 최선의 방법 인 것 같지만 설명서는 내가 필요한 곳에 도착하기에 충분하지 않습니다.

자세한 내용은 어디로 갈 수 있습니까?


R 태그도 추가하는 것이 좋습니다.
Christopher Louden

1
이것이 통계 모델에 관한 질문 이므로 CrossValidated 웹 사이트 를 방문하고 싶을 수도 있지만 질문을 교차 게시하는 것은 끔찍한 연습이라는 점을 명심하십시오. 직면하거나 전체 질문을 마이그레이션합니다.
StasK

이유를 실제로 설명하지 않고, ISL 은 (LDA, QDA와 같은) 판별 분석이 로지스틱 회귀의 다중 클래스 확장보다 더 자주 사용된다고 지적합니다 (137 페이지). 따라서 penalizedLDA 와 같은 패키지는 검사 할 가치가 있습니다.
MattBagg

답변:



6

순서 형 범주 형 반응으로 회귀를위한 상당히 강력한 R 패키지 중 하나는 CRAN의 VGAM입니다. 비네팅에는 서수 회귀의 몇 가지 예가 포함되어 있지만, 그러한 큰 데이터 세트에서 시도하지 않았으므로 시간이 얼마나 걸릴지 추정 할 수 없습니다. 저자 페이지 에서 VGAM에 관한 추가 자료를 찾을 수 있습니다 . 또는 Agresti의 "Categorical Data Analysis"책 에 대한 Laura Thompson의 동반자 를 살펴볼 수 있습니다 . Thompson의 책 7 장은 순서 형 응답과 함께 자주 사용되는 누적 로짓 모형을 설명합니다.

도움이 되었기를 바랍니다!


3

순서 회귀 분석에 익숙하지 않은 경우 Tabachnick / Fidell ( http://www.pearsonhighered.com/educator/product/Using-Multivariate-Statistics-6E/0205849571.page ) 장을 먼저 -R을 위해 쓰여지지 않았지만이 책은 일반적인 논리와 "해야 할 일"과 "하지 말아야 할 일"을 잘 전달합니다.

질문으로 : 응답 카테고리는 정확히 무엇입니까? "양호-불량"과 같은 척도라면 선형 회귀를 사용하는 것이 좋을 것입니다 (시장 조사는 항상 수행합니다 ...). . 나는 구조적 방정식 모델링에 관한 일부 책이 선형 회귀가 프로 빗보다 우수한 척도에 대해 우수하다고 언급했다는 것을 기억합니다.

가장 심각한 문제는 더미 변수의 수일 수 있습니다. 수백 개의 더미 변수는 분석을 느리게 해석하기 어렵고 불안정하게 만듭니다. 각 더미 / 더미 조합에 대해 충분한 사례가 있습니까?


3

사회 과학 관점에서 작성된 하나의 표준 참조는 J Scott Long의 Limited Dependent Variables 책입니다. Tabachnik은 다른 답변 에서 제안한 것보다 훨씬 더 깊습니다 . Tabachnik은 최고의 요리 책이며 "왜"에 대한 설명이 거의 없거나 전혀 없으며 Long 's에서 찾을 수있는 자세한 내용을 이해하면 도움이되는 것처럼 보입니다. 책. 서수 회귀 분석은 대부분의 소개 적 계량 경제학 과정 (Wooldridge 's Cross-Section and Panel Data is great 대학원 수준의 책)과 정량적 사회 과학 과정 (사회학, 심리학)에서 다루어야합니다. Long의 책에.

변수의 수가 샘플 크기보다 훨씬 적다는 것을 고려할 때,보고자하는 R 패키지는 아마 ordinal오히려 아닙니다 glmnetcr. 또 다른 대답 은이 기능을보다 주류 MASS패키지 에서 찾을 수 있다고 언급했습니다 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.