임의 포리스트 (또는 다른 분류기)를 사용한 계층화 된 분류


12

저는 약 60 x 1000의 행렬을 가지고 있습니다. 저는 1000 개의 특징을 가진 60 개의 물체로보고 있습니다; 60 개의 객체는 3 개의 클래스 (a, b, c)로 그룹화됩니다. 각 클래스에 20 개의 개체가 있으며 실제 분류를 알고 있습니다. 이 60 가지 교육 예제 세트에 대해지도 학습을하고 싶습니다. 분류기 정확도 (및 관련 메트릭)와 1000 가지 기능의 기능 선택에 관심이 있습니다.

먼저, 명명법은 어떻습니까?

이제 실제 질문 :

언급 한대로 임의의 숲을 던지거나 다른 많은 분류자를 던질 수 있습니다. 그러나 미묘한 점이 있습니다. 클래스 c와 클래스 a 및 b를 구별하는 것만 중요합니다. 클래스 a와 b를 풀링 할 수는 있지만 모든 비 c 객체가 두 개의 별개의 클러스터를 형성한다는 사전 지식 을 사용하는 좋은 방법이 있습니까? 무작위 포리스트 또는 그 변형을 사용하는 것이 좋습니다. 왜냐하면 내 포리스트와 유사한 데이터에 효과적이라는 것이 밝혀졌습니다. 그러나 나는 다른 접근법을 시도 할 것이라고 확신 할 수 있습니다.


나는 당신의 명명법에 어떤 문제도 보지 못했습니다. 이 60 개의 개체가 있습니까? 그런 다음 분류 정확도를 계산하려면 데이터 세트를 기차, 테스트 (및 유효성 검사) 세트로 분할해야합니다. 여러 가지 방법이 있지만 폴드 교차 검증이 가장 일반적이라고 생각합니다. k
emrea

1
예,이 60 개입니다. 그러나 임의 포리스트의 경우 각 의사 결정 트리가 샘플의 하위 집합으로 생성되므로 기존 60 개 샘플 각각을 포리스트 내의 트리에만 적용하여 추정 된 일반화 오류를 얻을 수 있습니다. 시공 중에 그 샘플을 보지 못했습니다. ( stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#ooberr ) 따라서 일반적인 교차 검증이 필요하지 않을 수 있습니다.
user116293

여기에 너무 많이 끼는 것에 대해 걱정해야합니다. 60 개의 객체가있는 1000 개의 변수가 있습니다. 다른 qay 인 경우 훨씬 나아질 것입니다. 아직 말하지만, 초과 피팅에 대해 걱정해야합니다. 분석을 수행하기 전에 변수 수를 줄이기위한 논리적 또는 의미 적 방법이 있습니까?
jank

답변:


8

c가 아닌 모든 객체가 두 개의 별개의 클러스터를 형성한다는 선험적 지식을 사용하는 좋은 방법이 있습니까?

트리 기반 방법을 사용하는 경우 이러한 분류 기준이 피처 공간을 분할 한 다음 각 클래스의 샘플 비율을 살펴 보는 것이 중요하지 않다고 생각합니다. 중요한 것은 각 터미널 노드에서 클래스 c의 상대적 발생입니다.

그러나 노멀, LDA 등의 혼합과 같은 것을 사용하는 경우 두 클러스터를 결합하는 것은 좋지 않습니다 (클래스 a와 b가 고유 클러스터를 가정한다고 가정). 여기서는 a, b 및 c에 매핑되는 피처 공간을 정확하게 설명하기 위해 클래스 구조를 유지해야합니다. 이 모델에서는 각 클래스의 기능이 서로 다른 정규 분포를 가지고 있다고 가정합니다. a와 b를 결합하면 단일 정규 분포가 혼합물에 적합하게됩니다.

나무를 요약하면 다음과 같은 경우별로 중요하지 않습니다.

I. 3 가지 분류기 (1. a vs b, 2. a vs c 및 3. b vs c)를 만든 다음 투표 기반 방법으로 예측합니다.

II. 클래스 a와 b를 병합하여 2 클래스 문제를 형성하십시오.

III. 세 클래스를 모두 예측 한 다음 예측을 두 클래스 값에 매핑합니다 (예 : f (c) = c, f (a) = not c, f (b) = not c).

그러나 각 클래스에 분포를 맞추는 방법을 사용하는 경우 II를 피하십시오. I 또는 III 중 어느 것을 테스트합니다. 문제에 더 잘 작동합니다


III는 양호하게 들립니다. 분류자가 샘플이 .33 a, .33 b 및 .34 c라고 말하면 아마도 a와 b에 대한 확률을 합산하여 'c가 아닌'을 선택해야합니다.
user116293

1
(I)의 경우, 분할 투표 (1 : a, 2 : c, 3 : b)를위한 좋은 절차는 무엇입니까?
user116293

III. 당신이 제안하는 것이 맞습니다. I. 3 클래스 데이터에 대해서는 전이 재산을 위반해야하기 때문에 투표를 분할 할 조치가 없다고 생각합니다 (각각 1 개). 그러나 4+ 클래스의 경우 맨 위에 유대가있을 수 있습니다.이 경우 승 / 손실 대신 숫자를 사용할 수 있습니다. 즉, 가중치를 합하면 최대 가중치 클래스를 사용합니다.
muratoa
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.