순서 또는 명목 데이터에서 범주를 병합 / 축소하는 방법은 무엇입니까?


14

명목 또는 서수 데이터에서 범주 수를 줄이는 방법을 찾기 위해 고심하고 있습니다.

예를 들어, 여러 명목 및 순서 요인이있는 데이터 집합에 회귀 모델을 작성한다고 가정 해 보겠습니다. 이 단계에는 아무런 문제가 없지만, 종종 공칭 기능이 훈련 세트에서 관찰되지 않지만 유효성 검사 데이터 세트에 존재하는 상황이 자주 발생합니다. 이로 인해 모델에 보이지 않는 경우가 제시 될 때 자연스럽게 오류가 발생합니다. 범주를 결합하려는 또 다른 상황은 관측치가 거의없는 범주가 너무 많을 때입니다.

그래서 내 질문은 :

  • 나는 그들이 대표하는 이전의 실제 배경 정보를 기반으로 많은 명목 (및 서수) 범주를 결합하는 것이 가장 좋을 수도 있지만 체계적인 방법 ( R패키지가 바람직 함)이 있습니까?
  • 컷오프 임계 값 등과 관련하여 어떤 지침과 제안을 하시겠습니까?
  • 문학에서 가장 인기있는 해결책은 무엇입니까?
  • 소규모 명목 카테고리를 새로운 "기타"카테고리로 결합하는 것 외에 다른 전략이 있습니까?

다른 제안이 있으시면 언제든지 차임하십시오.


답변:


11

두 번째 질문에 대한 답변입니다.

이러한 종류의 결정에 대한 올바른 접근 방식은 주로 징계 규범과 의도 한 작업 대상의 기대치에 의해 결정될 것으로 생각 됩니다. 사회 과학자로서 나는 종종 설문 조사 (또는 설문 조사와 같은) 데이터로 작업하며 순서 스케일이나 범주 변수를 축소 할 때 실질적이고 데이터 중심 논리의 균형을 유지하려고합니다. 다시 말해, 나는 아이템의 붕괴와 반응의 분포뿐만 아니라 물질의 조합에서 어떤 아이템의 조합이 "함께 매달려있는"지를 고려하기 위해 최선을 다할 것입니다.

다음은 5 포인트 주파수 척도를 포함하는 특정 (일반) 설문 조사 질문의 예입니다.

당신은 얼마나 자주 지역 사회에서 클럽이나 단체의 회의에 참석합니까?

  • 일년에 몇 번
  • 한달에 한번
  • 한 달에 몇 번
  • 일주일에 한 번 이상

현재 사용할 수있는 데이터가 없지만 결과는 "절대적으로"규모의 끝으로 치우쳐있었습니다. 그 결과 공동 저자와 나는 "한 달에 한 번 이상"과 "한 달에 한 번 미만"이라는 두 그룹으로 응답을 모으기로 결정했습니다. 그 결과 (바이너리) 변수가 더 고르게 분포되었다 실제적인 측면에서 의미있는 차이를 반영 : 많은 클럽과 조직보다 한 달에 한 번 이상 충족하지 않기 때문에, 종종 적어도 회의에 참석하는 사람을 믿을만한 이유가있다 그러한 그룹의 "활동적인"회원은 덜 자주 (또는 전혀 참여하지 않는) 사람들은 "비 활동적"입니다.

내 경험상, 이러한 결정은 적어도 과학만큼이나 예술적입니다. 즉, 다른 데이터가 (마이너스) 데이터 마이닝 및 비 과학적 (재미있는 시간)으로 간주되는 분야에서 일하기 때문에 일반적으로 모델을 피팅하기 전에이 작업을 수행하려고합니다.

이 점을 염두에두고이 작품에 대해 어떤 종류의 청중을 염두에 두어야한다면 도움이 될 수 있습니다. 또한 해당 연구 커뮤니티에서 "정상적인"행동에 대한 통과 점을 명확하게 설명 할 수 있으므로 해당 분야의 몇 가지 중요한 방법론 교과서를 검토하는 것이 가장 좋습니다.


5

Ashaw가 논의하는 접근 방식은 비교적 체계적인 방법론으로 이어질 수 있습니다. 그러나 나는 체계적으로 당신이 알고리즘을 의미한다고 생각합니다. 여기서 데이터 마이닝 도구는 차이를 채울 수 있습니다. 하나의 예로, SPSS의 의사 결정 트리 모듈에 내장 된 카이 제곱 자동 상호 작용 탐지 (CHAID) 절차가 있습니다. 사용자가 설정 한 규칙에 따라 예측 변수가 순서 변수 또는 공칭 범주인지 여부에 따라 결과 변수에 유사한 값이 표시 될 때 예측 변수의 순서 또는 명목 범주를 축소 할 수 있습니다. 그룹의 크기에 따라 수 이러한 규칙은 붕괴되고 또는 붕괴에 의해 생성되는, 또는에 P관련 통계 테스트의 값. 일부 분류 및 회귀 트리 (CART) 프로그램이 동일한 작업을 수행 할 수 있다고 생각합니다. 다른 응답자는 신경망 또는 다양한 데이터 마이닝 패키지를 통해 제공되는 다른 응용 프로그램에서 수행하는 유사한 기능에 대해 말할 수 있어야합니다.


요점은 @rolando입니다. 원래 게시물은 교육 및 유효성 검사 데이터 세트를 참조하기 때문에 귀하의 응답이 실제로 @Figaro에 더 유용 할 것으로 생각됩니다.
ashaw

소중한 의견을 보내 주셔서 감사합니다. @ rolando2 모호한 표현에 대해 알고리즘이 내가 목표로하는 방향이었습니다.
Figaro
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.