통계 모델에서 여러 범주를 입력 (예측 자)으로 사용하기 위해 여러 범주를 축소 (또는 풀링)하는 데 사용할 수있는 기술은 무엇입니까?
대학생 전공 (학부생이 선택한학과) 과 같은 변수를 고려하십시오 . 순서가없고 범주 형이지만 수십 가지의 고유 한 수준을 가질 수 있습니다. 회귀 모델에서 메이저를 예측 변수로 사용하고 싶다고 가정 해 봅시다.
모델링을 위해 이러한 수준을 그대로 사용하면 너무 많은 종류가 있기 때문에 모든 종류의 문제가 발생합니다. 그것들을 사용하기 위해 많은 통계적 정밀도가 버려 질 것이며 결과를 해석하기가 어렵습니다. 우리는 특정 전공에 거의 관심이 없습니다. 광범위한 전공 (하위 그룹)에 관심이있을 가능성이 높습니다. 그러나 레벨을 이러한 상위 레벨 카테고리로 나누는 방법 또는 사용할 상위 레벨 카테고리 수를 항상 명확하지는 않습니다.
일반적인 데이터의 경우 요인 분석, 행렬 분해 또는 불연속 모델링 기법을 사용하게되어 기쁩니다. 그러나 전공은 상호 배타적 인 범주이므로 모든 것에 대한 공분산을 악용하는 것이 주저합니다.
또한 나는 주요 범주에 대해서는 신경 쓰지 않습니다. 회귀 결과와 관련하여 높은 수준의 범주를 만드는 데 관심이 있습니다 . 이진 결과의 경우 차별적 성능을 극대화하는 상위 수준의 범주를 생성하는 선형 판별 분석 (LDA)과 같은 것을 제안합니다. 그러나 LDA는 제한된 기술이며 더러운 데이터 준설처럼 느껴집니다. 또한 지속적인 솔루션은 해석하기 어렵습니다.
한편 다중 대응 분석 (MCA)과 같은 공분산을 기반으로하는 것은 상호 배타적 인 더미 변수 사이의 고유 한 의존성 때문에이 경우에 의심스러운 것 같습니다. 같은 변수.
편집 : 분명히하기 위해, 이것은 범주 를 축소 하는 것 (선택하지 않음)에 관한 것이며 범주는 예측 변수 또는 독립 변수입니다. 뒤늦은 시각에서이 문제는 "모든 것을 정규화하고 신이 분류하도록"적절한시기처럼 보인다. 이 질문이 많은 사람들에게 흥미 롭다는 것을 알게되어 기쁩니다!