로지스틱 회귀 모델의 일부 기능을 기반으로 학생의 성공 또는 실패를 예측하려고합니다. 모델의 성능을 향상시키기 위해 나는 명백한 차이를 기반으로 학생들을 여러 그룹으로 나누고 각 그룹에 대해 별도의 모델을 만드는 것에 대해 이미 생각했습니다. 그러나 시험을 통해 이러한 그룹을 식별하는 것이 어려울 수 있으므로 학생들을 기능별로 묶어서 분할하는 것을 생각했습니다. 이러한 모델을 구축 할 때 이것이 일반적인 관행입니까? 내가 그것을 명백한 그룹으로 나눈 다음 (예를 들어, 첫 학기 대 재학생) 그 그룹에서 클러스터링을 수행하거나 처음부터 클러스터링을 제안 하시겠습니까?
명확히하려고 :의미하는 것은 로지스틱 회귀에 대한 훈련 세트를 그룹으로 나누기 위해 클러스터링 알고리즘 사용을 고려하고 있다는 것 입니다. 그런 다음 각 그룹에 대해 별도의 로지스틱 회귀 분석을 수행합니다. 그런 다음 로지스틱 회귀를 사용하여 학생의 결과를 예측할 때 가장 적합한 그룹에 따라 사용할 모델을 선택합니다.
아마도 학생이 돌아 오는 경우 1, 그렇지 않으면 0과 같은 그룹 식별자를 포함 시켜서 같은 일을 할 수 있습니다.
이제 각 모집단에 대해 별도의 로지스틱 회귀 모델을 작성하는 대신 훈련 데이터 세트를 클러스터링하고 로지스틱 회귀 분석의 기능으로 클러스터 레이블을 사용하는 것이 유리한지에 대해 생각해 보았습니다.
재학생 대 신입생을위한 그룹 식별자를 포함하는 것이 유용한 경우 그룹 목록을 확장하는 것이 도움이 될 수 있습니까? 클러스터링은이를 수행하는 자연스러운 방법 인 것 같습니다.
나는 그것이 분명하기를 바랍니다 ...