로지스틱 회귀 분석을 위해 데이터를 분할하는 수단으로 클러스터링


11

로지스틱 회귀 모델의 일부 기능을 기반으로 학생의 성공 또는 실패를 예측하려고합니다. 모델의 성능을 향상시키기 위해 나는 명백한 차이를 기반으로 학생들을 여러 그룹으로 나누고 각 그룹에 대해 별도의 모델을 만드는 것에 대해 이미 생각했습니다. 그러나 시험을 통해 이러한 그룹을 식별하는 것이 어려울 수 있으므로 학생들을 기능별로 묶어서 분할하는 것을 생각했습니다. 이러한 모델을 구축 할 때 이것이 일반적인 관행입니까? 내가 그것을 명백한 그룹으로 나눈 다음 (예를 들어, 첫 학기 대 재학생) 그 그룹에서 클러스터링을 수행하거나 처음부터 클러스터링을 제안 하시겠습니까?

명확히하려고 :

의미하는 것은 로지스틱 회귀에 대한 훈련 세트를 그룹으로 나누기 위해 클러스터링 알고리즘 사용을 고려하고 있다는 것 입니다. 그런 다음 각 그룹에 대해 별도의 로지스틱 회귀 분석을 수행합니다. 그런 다음 로지스틱 회귀를 사용하여 학생의 결과를 예측할 때 가장 적합한 그룹에 따라 사용할 모델을 선택합니다.

아마도 학생이 돌아 오는 경우 1, 그렇지 않으면 0과 같은 그룹 식별자를 포함 시켜서 같은 일을 할 수 있습니다.

이제 각 모집단에 대해 별도의 로지스틱 회귀 모델을 작성하는 대신 훈련 데이터 세트를 클러스터링하고 로지스틱 회귀 분석의 기능으로 클러스터 레이블을 사용하는 것이 유리한지에 대해 생각해 보았습니다.

재학생 대 신입생을위한 그룹 식별자를 포함하는 것이 유용한 경우 그룹 목록을 확장하는 것이 도움이 될 수 있습니까? 클러스터링은이를 수행하는 자연스러운 방법 인 것 같습니다.

나는 그것이 분명하기를 바랍니다 ...


"클러스터링"과 로지스틱 회귀 모델이 어떻게 상호 작용하거나 서로 영향을 미치는지 파악하지 못한다고 생각합니다. 이 문맥에서 "클러스터링"과 회귀 분석에 설명 변수로 그룹 식별자를 포함시키는 것의 차이점을 설명해 주시겠습니까?
whuber

답변:


4

클러스터 사이의 종속 변수에 큰 차이가 있다면 먼저 클러스터링 방법이 도움이 될 것이라고 믿습니다. 선택한 학습 알고리즘에 관계없이

전체 기반에서 learnign 알고리즘을 실행하면 낮은 수준의 집계에서 의미있는 차이를 커버 할 수 있다고 생각합니다.

심슨의 역설에 대해 들어 본 사람이라면, 더 큰 샘플 노이즈 또는 더 큰 그룹의 약한 상관 관계에 의해 커버되는 다른 그룹의 서로 다른 상관 관계가있는 더 깊은 문제의 어려운 경우입니다.


당신이 옳을 지 모르지만 나는 당신의 주장을 따르지 않습니다. OP가 찾은 클러스터에서 별도의 LR을 실행 하고 공변량 에 추가 하거나 공변량 대신 클러스터 인덱스 를 추가 한다고 주장하고 있습니까? 공변량은 관측 연구에서 변수가 생략되어 혼란 스러울 수 있지만 CA가 실행되는 변수에없는 정보를 생성 할 수 있다고 말하는가? 심슨의 역설에 관해서는 관심이 있다면 여기 CV 에서 논의됩니다 .
gung-모니 티 복원

감독되지 않은 분석은 임의의 IV 세트 (독립 변수)로 균질 그룹을 끌어낼 것을 제안합니다. 그런 다음 LR을 사용하여 모델링의 다음 단계에 대해 동일한 varbs 세트 또는 새로운 세트 또는 조합 세트로 진행할 것인지 스스로 결정할 수 있습니다. 목적은 클러스터 당 1 개의 LR을 구축하고 조정하는 것입니다 (클러스터의 DV 값 또는 주파수가 상당히 다른 경우).
clancy

나는 생명 보험 상품을 교차 판매하기위한 테이크 업 모델의 맥락에서 실제로 이것을 직접 수행했으며 3 클러스터에 의해 희석 된 2 클러스터에 대한 향상된 예측을 발견했습니다.
clancy

모델에 스플라인 항이 필요한지 궁금합니다. 일부 데이터, 기본 적합, CA 및 최종 (개선 된) 적합 / 군집 표시기 시뮬레이션을 포함 할 수 있습니까? 나는 이것을보고, 무슨 일이 일어나고 있는지 이해하기 위해 조금 가지고 놀고 싶습니다.
gung-Monica Monica 복원

안녕하세요, 나는 시간을 찾고 싶지만. 나는 가족, 일, 모델링 기술 향상에 많은 투자를 해왔고 이제 막 MARS 모델링 작업을 시작했으며 이것이 설명 된 클러스터 + LR 앙상블과 동일한 원하는 결과를 만족 시킬지 확신 할 수 없습니다.
clancy

8

잠재 된 파티션을 사용하여 다른 데이터 분류를 다른 기본 분류 자에 할당하는 제안 된 일반적인 접근 방식은 분류에 대해 잘 연구 된 접근 방식입니다.

이러한 방법이 널리 사용되지 않는 이유는 로지스틱 회귀 또는 SVM보다 상대적으로 복잡하고 실행 시간이 길기 때문일 수 있습니다. 많은 경우 분류 성능이 향상 될 수 있습니다.

다음은 참고 문헌입니다.

  • Shahbaba, B. and Neal, R. "Dirichlet 공정 혼합물을 사용한 비선형 모델"

  • Zhu, J. 및 Chen, N. 및 Xing, EP "분류 및 멀티 태스킹 학습을위한 무한 Latent SVM"

  • Rasmussen, CE 및 Ghahramani, Z. "가우스 공정 전문가의 무한 혼합물"

  • Meeds, E. 및 Osindero, S. "가우스 프로세스 전문가의 대체 무한 혼합"


1

나는 클러스터링에 대해 상대적으로 거의 알지 못한다는 것을 처음부터 인정하고 싶다. 그러나 나는 당신이 묘사 한 절차의 요점을 보지 못했습니다. 예를 들어, 첫 학기와 재학생이 다를 수 있다고 생각한다면,이를 색인하는 공변량을 포함하지 않는 이유는 무엇입니까? 마찬가지로 학생들의 다른 특징이 적절하다고 생각되면이를 포함시킬 수 있습니다. 관심있는 주요 예측 변수와 성공률 사이 의 관계 가 다를 것으로 우려되는 경우 해당 예측 변수와 첫 번째 용어 대 재귀 등의 상호 작용도 포함 할 수 있습니다. 로지스틱 회귀 분석은 모형의 항.

반면에 이러한 기능을 클러스터링하고 응답을 보지 않고 먼저 수행하는 한 문제가 발생하지 않습니다. 이 방법은 데이터의 하위 집합에만 적합하기 때문에 각 모델의 전력이 낮은 비효율적이라고 생각하지만 매개 변수를 바이어스하거나 테스트를 무효화 할 것이라고 생각하지 않습니다. 그래서 당신이 정말로 원한다면 이것을 시도 할 수 있다고 생각합니다.

최신 정보:

내 생각에 하나의 모델을 모든 데이터에 맞추는 것이 가장 좋을 것입니다. 일차 관심사 이외의 추가 공변량 (예 : 복귀 vs. 그렇지 않음)과 미리 클러스터 분석을 실행하여 발견 한 그룹화 지표를 포함 할 수 있습니다. 그러나 군집 분석에 사용 된 공변량을 로지스틱 회귀 모형에서도 사용할 수 있다면 LR 모델에 모든 공변량을 포함하여 얻을 수있는 것이 무엇인지 알 수 있는지 확실 하지 않습니다.클러스터 표시기. 클러스터 분석 전문가가 아니기 때문에 익숙하지 않은 이점이있을 수 있지만 이것이 무엇인지 모릅니다. CA가 공변량에 아직없는 추가 정보를 생성하지 않으므로 LR 모델에 아무것도 추가하지 않는 것 같습니다. 시도해 볼 수 있습니다. 어쩌면 내가 틀렸을 수도 있습니다. 그러나 내 생각 엔 당신이 자유를 몇 번 더 태울 것입니다.

다른 접근법은 클러스터 지표를 기반 으로 하는 공변량 대신 LR 모델에 클러스터 지표를 입력 하는 것입니다. 이것이 도움이 될지 의심됩니다. CA는 다른 어떤 분석보다도 완벽하지 않으므로 원래 공변량에서 파생 된 클러스터 표시기로 이동하면 약간의 정보 손실이 발생할 수 있습니다 . (다시 말하지만, 나는 그것이 사실이라고 강력하게 생각합니다.) 다시, 당신은 두 가지 방법을 시도하고 학업 운동으로 비교할 수 있습니다. 결과를 진지하게 받아들이고 싶다면

나는 단지 클러스터 분석에 잉어를하고 싶지 않습니다. 일반적으로 이들의 이점이 많을 수 있으며 여기에서 유용하게 사용될 수 있습니다. 그러나 귀하의 상황을 이해함에 따라 적절하다고 생각되는 공변량으로 LR 모델을 작성하는 것이 좋습니다.


1

로지스틱 회귀 분석에 묶이지 않으면 임의의 클러스터 분류 기가 내장되어 있기 때문에 임의 포리스트 분류기를 사용하는 것이 좋습니다. 아이디어는 근접 매트릭스를 사용하여 클러스터링하는 것입니다. 근접 행렬은 관측치가 동일한 터미널 노드에있는 백 트리 외부의 분수에 대한 N_Obs by N_Obs 행렬입니다. 그런 다음 요소가 근접 행렬의 분수의 평균 인 기능 수준 행렬을 기준으로 기능 수준으로 집계 할 수 있습니다. 그런 다음 임계 값을 지났을 때 모든 레벨을 함께 묶어 예측이 향상되는지 확인합니다. 최적의 군집을 찾기 위해 단계별 반복 접근 방식을 취하는 것이 가장 좋지만 다른 방법으로 임계 값을 선택할 수 있습니다. 이 클러스터링이 완료되면 기능을 클러스터 레이블로 바꾸거나 클러스터 레이블을 새 기능으로 추가 할 수 있습니다. 이 시점에서 정말로 원한다면 로지스틱 회귀로 다시 전환 할 수 있다고 생각합니다.


0

다중 세그먼트 모델을 작성할 때 가장 좋은 방법은 기본 분포의 실제 차이를 나타내는 세그먼트를 작성하는 것입니다. 이 두 모집단의 경우 예측 변수 분포가 매우 다를 수 있으므로 1 학기 학생들과 재학생은 좋은 예입니다. 더 중요한 것은 이러한 차이점은 직관적 인 설명입니다.


직관적 인 설명의 가치를 얻습니다. 모델 해석에 도움이됩니다. 그러나 사용 가능한 기능의 관점에서 유사성을 기반으로 사람들을 그룹으로 묶을 경우, 해석이 동일하지 않더라도 유사한 이점을 얻을 수 있다고 생각할 이유가 없습니까? 클러스터링 사용의 기본 개념은 일상 생활에서 사용하는 카테고리와 깔끔하게 일치하지 않는 그룹을 식별 할 때 기계가 인간보다 낫다는 것입니다.
dave

또한 유사한 학생 세트에 대해 회귀 모델을 학습하는 경우 해당 모델은 광범위한 학생 세트를 사용하여 훈련 된 모델보다 해당 학생의 성공을 예측하는 데 더 정확합니다.
dave
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.