어플리케이션에 가장 적합한 2 등급 분류기는 무엇입니까? [닫은]


15

규칙 :

  • 답변 당 하나의 분류 자
  • 동의하면 투표
  • 중복을 제거 / 제거합니다.
  • 의견에 당신의 응용 프로그램을 넣어

답변:


14

임의의 숲

  • 복잡한 구조 / 비선형 관계를 쉽게 포착
  • 변수 척도에 불변
  • 범주 형 예측 변수에 대한 더미 변수를 만들 필요가 없습니다.
  • 변수 선택은별로 필요하지 않습니다
  • 과적 합하기 어려운

앱 타머 능동 모티프 선택, 삼림 지습 예측, 숫자 OCR, 다중 스펙트럼 위성 이미지 분석, 음악 정보 검색, 화학 측정 ...

13

로지스틱 회귀 :

  • 대부분의 데이터 세트에서 빠르고 우수한 성능
  • 튜닝 할 매개 변수가 거의 없음
  • 불연속 / 연속 기능 모두 처리
  • 모델은 쉽게 해석 가능
  • (실제로 이진 분류로 제한되지 않음)

튜닝 할 매개 변수는 없지만 연속성이없는 변수 (변형, 스플라인 등)를 사용하여 비선형 성을 유도해야합니다.
B_Miner

12

벡터 기계 지원


아무것도 없다 정말 이 정규화에 대해 생각하는 사용자를 강제하지 않고, SVM에 대한 특별한 다른. 대부분의 실제 문제에서 [커널] 능선 회귀도 마찬가지로 작동합니다.
Dikran Marsupial

2
@dikran 나는 SVM이 희귀하고 특이 치에 강하기 때문에 훌륭한 분류기라고 생각한다-이것은 로지스틱 회귀에는 해당되지 않는다! 이것이 바로 SVM이 최신 분류 기인 이유입니다. 문제가 될 수있는 유일한 문제는 시간 복잡성입니다.하지만 괜찮습니다.
suncoolsu

@suncoolsu 희소성을 원하면 SVM보다 LASSO를 사용하여 정규화 된 로지스틱 회귀 분석을 통해 더 희소성을 얻습니다. SVM의 희소성은 손실 함수의 부산물이므로 희소성이 설계 목표 인 알고리즘을 사용하는 것만 큼 효과가 없습니다. 또한 종종 SVM dissapears의 희소성 대부분이 hyper-parameter의 최적 값 (예 : cross-validation을 통해 선택된)으로 나타납니다. SVM은 정규화 된 로지스틱 회귀보다 더 이상치에 강하지 않습니다. 이는 주로 경첩 손실이 아니라 중요한 정규화입니다.
Dikran Marsupial

@Dikran-내 요점은 정확하게-어떤 종류의 벌칙이 중요하다는 것입니다. Priors, Penalty 등을 사용하여 얻을 수 있습니다.
suncoolsu

1
@suncoolsu이 경우 SVM은 훌륭한 분류 기가 아니며 능선 회귀, 정규화 된 로지스틱 회귀, 가우시안 프로세스와 같은 많은 정규화 된 분류기 중 하나 일뿐입니다. SVM의 주요 장점은 전산 학습 이론의 매력입니다. 실제로 다른 손실 함수가 우월 할 가능성이있는 확률 분류 기가 필요한지 여부와 같은 다른 고려 사항이 더 중요합니다. IMHO는 더 넓은 커널 방법 모음보다는 SVM에 너무 많은 관심을 기울이고 있습니다.
Dikran Marsupial

7

시끄러운 데이터의 감독 문제에 대한 정기적 인 판별

  1. 계산 효율
  2. 데이터의 노이즈 및 이상치에 강함
  3. LD (Linear Discriminant) 및 QD (Quadratic Discriminant) 분류기 모두 동일한 구현에서 LD 분류기의 경우 정규화 매개 변수 '[lambda, r]'을 '[1 0]', '[0 0]'을 설정하여 동일한 구현에서 얻을 수 있습니다. QD 분류기-참조 목적으로 매우 유용합니다.
  4. 해석 및 내보내기가 쉬운 모델
  5. 클래스 공분산 행렬이 잘 정의되지 않은 희소 및 '와이드'데이터 세트에 적합합니다.
  6. 각 클래스의 판별 값에 softmax 함수를 적용하여 각 샘플에 대한 사후 클래스 확률의 추정치를 추정 할 수 있습니다.

Friedman 등의 1989 원본에 링크 하십시오 . 또한 Kuncheva의 저서 " Combining pattern classifiers " 에 대한 설명이 아주 좋습니다 .


5

그라디언트 부스트 트리.

  • 많은 응용 분야에서 최소한 RF만큼 정확
  • 결 측값을 완벽하게 통합
  • Var의 중요성 (RF는 지속적이고 많은 수준의 명목상의 편의를 위해 편향 될 수 있음)
  • 부분 의존도
  • R에서 GBM과 randomForest : 더 큰 데이터 세트를 처리합니다.

4

가우시안 프로세스 분류기 -확률 적 예측을 제공합니다 (작동 상대 클래스 주파수가 훈련 세트의 주파수와 다르거 나 위양성 / 거짓 음수 비용을 알 수 없거나 가변적 일 때 유용함). 또한 유한 데이터 세트에서 "모델 추정"의 불확실성으로 인해 모델 예측에서 불확실성을 비활성화합니다. 공분산 함수는 SVM의 커널 함수와 동일하므로 벡터가 아닌 데이터 (예 : 문자열 또는 그래프 등)에서 직접 작동 할 수도 있습니다. 수학적 프레임 워크도 깔끔합니다 (하지만 Laplace 근사값은 사용하지 마십시오). 한계 우도를 최대화하여 자동 모델 선택.

로지스틱 회귀 및 SVM의 우수한 기능을 기본적으로 결합합니다.


이것을 구현하도록 권장하는 R 패키지가 있습니까? 이 방법에 대해 선호하는 구현은 무엇입니까? 감사!
줄리엣

MATLAB 사용자 (GPML 패키지 gaussianprocess.org/gpml/code/matlab/doc 사용)가 두려워서 R 구현에 대해 조언 할 수는 없지만 gaussianprocess.org/#에서 적합한 것을 찾을 수 있습니다. 코드 . 만약 R이 GP를위한 알맞은 패키지를 가지고 있지 않다면 누군가는 그것을 작성해야합니다!
Dikran Marsupial

알았어 고마워. 이 방법을 사용하면 "임의 포리스트의 변수 중요성 또는 SVM을 사용한 재귀 기능 제거와 같은 중요한 변수를 선택할 수 있습니까?"
Julieth

예, "자동 관련성 결정"공분산 함수를 사용하고 모형에 대한 베이지안 증거를 최대화하여 하이퍼 파라미터를 선택할 수 있습니다 (SVMS에서 발생하는 것과 동일한 종류의 과적 합 문제가 발생할 수 있지만 종종 기능 선택없이 모델 성능이 향상됩니다).
Dikran Marsupial

4

L1 정규화 된 로지스틱 회귀.

  • 계산 속도가 빠릅니다.
  • 직관적 인 해석이 있습니다.
  • 크로스 밸리데이션에 의해 자동으로 조정될 수있는 이해하기 쉬운 하이퍼 파라미터가 하나 뿐이며, 이는 종종 좋은 방법입니다.
  • 계수는 선형으로 표시되며 하이퍼 파라미터와의 관계는 간단한 도표로 즉각적이고 쉽게 표시됩니다.
  • 변수 선택을위한 덜 모호한 방법 중 하나입니다.
  • 또한 정말 멋진 이름이 있습니다.

+1 하이퍼 파라미터도 분석적으로 통합 할 수 있으므로 많은 응용 분야에서 교차 검증이 필요하지 않습니다 (예 : theoval.cmp.uea.ac.uk/publications/pdf/nips2006a.pdf생물 정보학 참조) .oxfordjournals.org / content / 22 / 19 / 2348.full.pdf .
Dikran Marsupial

3

kNN


3

나이브 베이랜덤 나이브 베이


2
RNB가 당신에게 좋은 결과를 주었다고 설명 할 수 있습니까?
카슈 우 Lew

아니요 ;-) 풀을 되살리기위한 것입니다.

1

비지도 학습을위한 K- 평균 군집.


이 질문은 구체적으로 분류자를 요구합니다.
Prometheus
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.