다변량 기계 학습을 수행하는 방법? (여러 종속 변수 예측)


9

누군가 구매할 품목 그룹을 예측하려고합니다. 즉, 여러 개의 선형 선형 변수가 있습니다.

7 개 항목을 구매할 확률을 예측하기 위해 7 개 정도의 독립적 인 모델을 구축 한 다음 결과를 결합하기보다는 7 개의 관련 종속 변수 ( 그들이 구입할 수있는 것).

R을 프로그래밍 언어로 사용하고 있으므로 R 관련 조언을 부탁드립니다.

답변:


7

설명에 따르면 다항 로지스틱 회귀 분석이 적합 해 보입니다. 결과가 7 가지 수준 (7 가지 구매 옵션 중 하나)의 요소라고 가정하면 다항 로지스틱 회귀 모델을 사용하여 구성원을 신속하게 예측할 수 있습니다 ( R ?multinomnnet패키지 참조 ). 결과를 7 단계의 요인으로 결합 할 수없는 경우 다항 로지스틱 회귀 분석을 적용하기 전에 항목을 함께 그룹화하려면 군집 분석이 필요합니다.


다항 회귀가 아닙니다. 나는 7 가지 제품을 가지고 있으며, 각 제품에는 최대 4 가지 요소가 있습니다 .... 딸기, 딸기 종류, 우유 및 다른 종류의 우유, 사과 및 다른 종류의 사과가 있으며 올바른 것을 예측해야합니다 장바구니 ... 농사 딸기와 우유, 2 % 우유 등의 녹색 사과
blast00

1
나는 당신의 해결책이 있습니다! 결과는 하나 이상의 잠재 클래스로 그룹화되는 일련의 요인 인 다원 잠재 클래스 분석을 권장합니다. 이 클래스의 멤버십은 다항 로지스틱 회귀를 기반으로 예측됩니다. ?poLCA이 모델 피팅에 대한 자세한 내용 은 R을 참조하십시오 .
statsRus

나는 이것을 통해 읽고 있습니다-statsRus 감사합니다. 그래도 다른 방법이 있어야합니다.
blast00

특히, 머신 러닝 방법은 확률 분포에 맞지 않아도되기 때문에 블랙 박스 모델에서는 괜찮습니다
blast00

많은 통계 모델이 실제로는 감독되지 않은 머신 러닝 모델이라는 점을 명심하십시오. 그러나 일반적으로 이러한 모델의 입력에 관심이 있습니다. 많은 입력과 결과 (및 블랙 박스 품질)를 갖춘 감독 기계 학습을 위해 신경 네트워크 ( ?nnetR)를 제안 합니다.
statsRus

5

각 학급이 항목 그룹 인 임의의 숲을 만들 수 있습니다 (예 : "농장 딸기가있는 녹색 사과, 우유 2 %). 그런 다음 구매자의 특성 또는 예측 변수에 따라 각 항목 그룹에 대해 예상 구매 확률을 제공 할 수 있습니다. R의 randomForest 패키지 ( https://cran.r-project.org/web/packages/randomForest/index.html )를 사용 하여이 작업을 수행합니다.


3

하나의 옵션은 모든 제품 구매 조합의 빈도를 얻는 것입니다. 가장 일반적인 몇 가지 조합을 선택하십시오. 그런 다음 각 개인의 선택된 조합을 예측하는 회귀 모델을 작성하십시오. 예를 들어, 이항 로지스틱 회귀 분석을 통해 a) 화이트 와인, 브리, 딸기 및 포도의 구매 대 b) 레드 와인, 체다 및 구다의 구매를 예상 할 수 있습니다. 이러한 조합이 두 개 이상이거나 "위의 어느 것도 아닌"범주를 포함하려는 경우 다항 로지스틱 회귀 분석이 선택 방법 일 수 있습니다.

공통 콤보 만 포함하면 각각 더 많은 수의 작업을 수행 할 수 있지만 적어도이 절차에서 나머지는 제외해야합니다. 적어도 몇 사람이 선택한 수십 개의 콤보를 만드는 7 개의 아이템을 상상할 수 있습니다. 표본 크기에 비해 범주가 너무 많을 수 있습니다. 더욱이 소수의 사람들 만 콤보를 선택했다면, 작업 할 정보가 거의 없을 것입니다.

다른 옵션은 군집 분석을 사용하여 함께 구매하는 몇 가지 품목 세트에 도착하는 것입니다. 7 개의 항목을 사용하면 클러스터가 4 개 미만이되어 작업이 쉬워 질 수 있습니다. 군집 분석을 시도하여 결과가 작동하지 않는 경우,이를 사용해야 할 이유가 없습니다. 위에서 설명한 빈도 기반 접근 방식으로 돌아가십시오. 이 경우, 내가 당신을 올바르게 읽으면, 당신은 가장 묘사적이고 흥미로운 범주의 배열을 찾고 있습니다. 그리고 그것을 확립 할 때, 자유 도나 다중 비교 또는 적용 가능한 그러한 우려에 대해 걱정할 필요가 없습니다. 일부 추론 테스트를 수행하는 데 여러 방법을 시도한 경우.


이 제안에 감사드립니다. 다변량 머신 러닝 방법이 있어야합니다. "보다 쉬운"회귀 모형에 2 개의 종속 변수가있을 수있는 방법과 비슷합니다. lm (y + z ~ ...) .. 생각합니다.
blast00

0

다음과 유사한 상황을 분석하고 싶다고 가정합니다.

Yi = f (X), 여기서 f ()는 비선형 링크이고 X는 공변량의 벡터이며 Yi는 i- 종속 변수이며 본질적으로 서수입니다 (범주 형인 경우 Yi는 두 개를 초과 할 수 없음) 모델에서 i = 1, 2, ... 5라고 말하고 각 Yi는 서로 관련이 있습니다 ... 그렇다면 다변량 Probit를 확실히 사용할 수 있습니다. R, Mplus 및 SAS는 MVP를 추정 할 수 있습니다

반대로 Y = f (X)이고 Y (Y가 하나만 있음)는 범주 형이며 예를 들어 N 범주를 가지므로 N 범주에 대한 선택은 배타적이고 철저합니다. 다항식 로짓 모형에 적합해야합니다. 다항식 로빗과 유사한 다항식 프로 빗도 있습니다.

도움이 되었기를 바랍니다. 감사합니다 Sanjoy

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.