답변:
설명에 따르면 다항 로지스틱 회귀 분석이 적합 해 보입니다. 결과가 7 가지 수준 (7 가지 구매 옵션 중 하나)의 요소라고 가정하면 다항 로지스틱 회귀 모델을 사용하여 구성원을 신속하게 예측할 수 있습니다 ( R ?multinom
의 nnet
패키지 참조 ). 결과를 7 단계의 요인으로 결합 할 수없는 경우 다항 로지스틱 회귀 분석을 적용하기 전에 항목을 함께 그룹화하려면 군집 분석이 필요합니다.
?poLCA
이 모델 피팅에 대한 자세한 내용 은 R을 참조하십시오 .
?nnet
R)를 제안 합니다.
각 학급이 항목 그룹 인 임의의 숲을 만들 수 있습니다 (예 : "농장 딸기가있는 녹색 사과, 우유 2 %). 그런 다음 구매자의 특성 또는 예측 변수에 따라 각 항목 그룹에 대해 예상 구매 확률을 제공 할 수 있습니다. R의 randomForest 패키지 ( https://cran.r-project.org/web/packages/randomForest/index.html )를 사용 하여이 작업을 수행합니다.
하나의 옵션은 모든 제품 구매 조합의 빈도를 얻는 것입니다. 가장 일반적인 몇 가지 조합을 선택하십시오. 그런 다음 각 개인의 선택된 조합을 예측하는 회귀 모델을 작성하십시오. 예를 들어, 이항 로지스틱 회귀 분석을 통해 a) 화이트 와인, 브리, 딸기 및 포도의 구매 대 b) 레드 와인, 체다 및 구다의 구매를 예상 할 수 있습니다. 이러한 조합이 두 개 이상이거나 "위의 어느 것도 아닌"범주를 포함하려는 경우 다항 로지스틱 회귀 분석이 선택 방법 일 수 있습니다.
공통 콤보 만 포함하면 각각 더 많은 수의 작업을 수행 할 수 있지만 적어도이 절차에서 나머지는 제외해야합니다. 적어도 몇 사람이 선택한 수십 개의 콤보를 만드는 7 개의 아이템을 상상할 수 있습니다. 표본 크기에 비해 범주가 너무 많을 수 있습니다. 더욱이 소수의 사람들 만 콤보를 선택했다면, 작업 할 정보가 거의 없을 것입니다.
다른 옵션은 군집 분석을 사용하여 함께 구매하는 몇 가지 품목 세트에 도착하는 것입니다. 7 개의 항목을 사용하면 클러스터가 4 개 미만이되어 작업이 쉬워 질 수 있습니다. 군집 분석을 시도하여 결과가 작동하지 않는 경우,이를 사용해야 할 이유가 없습니다. 위에서 설명한 빈도 기반 접근 방식으로 돌아가십시오. 이 경우, 내가 당신을 올바르게 읽으면, 당신은 가장 묘사적이고 흥미로운 범주의 배열을 찾고 있습니다. 그리고 그것을 확립 할 때, 자유 도나 다중 비교 또는 적용 가능한 그러한 우려에 대해 걱정할 필요가 없습니다. 일부 추론 테스트를 수행하는 데 여러 방법을 시도한 경우.
다음과 유사한 상황을 분석하고 싶다고 가정합니다.
Yi = f (X), 여기서 f ()는 비선형 링크이고 X는 공변량의 벡터이며 Yi는 i- 종속 변수이며 본질적으로 서수입니다 (범주 형인 경우 Yi는 두 개를 초과 할 수 없음) 모델에서 i = 1, 2, ... 5라고 말하고 각 Yi는 서로 관련이 있습니다 ... 그렇다면 다변량 Probit를 확실히 사용할 수 있습니다. R, Mplus 및 SAS는 MVP를 추정 할 수 있습니다
반대로 Y = f (X)이고 Y (Y가 하나만 있음)는 범주 형이며 예를 들어 N 범주를 가지므로 N 범주에 대한 선택은 배타적이고 철저합니다. 다항식 로짓 모형에 적합해야합니다. 다항식 로빗과 유사한 다항식 프로 빗도 있습니다.
도움이 되었기를 바랍니다. 감사합니다 Sanjoy