로지스틱 회귀 분석 vs. LDA 2 클래스 분류기


36

선형 판별 분석로지스틱 회귀 분석 의 통계적 차이를 둘러 보려고합니다 . 두 클래스 분류 문제의 경우 LDA가 교차하는 선형 경계를 만드는 두 개의 정규 밀도 함수 (각 클래스마다 하나씩)를 예측하는 반면, 로지스틱 회귀는 두 클래스 사이의 로그 홀드 함수 만 예측 한다는 것을 이해하고 있습니까? 경계를 만들지 만 각 클래스의 밀도 함수를 가정하지 않습니까?



답변:


35

당신이 맞다는 소리가 들립니다. 로지스틱 회귀는 실제로 예측 변수의 공간에서 특정 형태의 밀도를 가정하지 않지만 LDA는 그렇지 않습니다. 다음은 두 분석의 차이점입니다.

이항 로지스틱 회귀 분석 (BLR) 대 선형 판별 분석 (2 군 : 피셔의 LDA라고도 함) :

  • BLR : 최대 우도 추정을 기반으로합니다. LDA : 최소 제곱 추정에 기초 함; 이항 예측을 사용한 선형 회귀와 같습니다 (계수는 비례하며 R- 제곱 = 1-Wilk 's lambda).

  • BLR : (그룹 구성원의) 확률을 즉시 (예측 및 그 자체가 확률로 간주되며) 조건부로 추정합니다. LDA : 조건 적 정보와 한계 정보를 모두 사용하는 분류 장치 (예 : 순진한 베이 즈)를 통해 확률을 중간에 예측합니다 (예측 및 비닝 된 연속 변수, 판별 자로 간주).

  • BLR : 척도 수준과 예측 변수 분포의 형태로 그리 시급하지 않습니다. LDA : 다변량 정규 분포를 사용하는 예측 간격 구간이 바람직합니다.

  • BLR : 예측 변수의 군내 공분산 행렬에 대한 요구 사항이 없습니다. LDA : 그룹 내 공분산 행렬은 모집단에서 동일해야합니다.

  • nn

  • BLR : 특이 치에 민감하지 않습니다. LDA : 특이 치에 매우 민감합니다.

  • BLR : 더 젊은 방법. LDA : 이전 방법.

  • BLR : 일반적으로 선호됩니다. 덜 긴급하고 강력하기 때문입니다. LDA : 모든 요구 사항이 충족되면 종종 BLR보다 분류가 우수합니다 (점근 비교 효율이 3/2 배 높음).


21

@ttnphns 멋진 목록에 몇 가지 요점을 추가하겠습니다.

  • LDA의 후반 멤버십 확률에 대한 베이 즈 예측은 로지스틱 곡선을 따릅니다.
    [Efron, B. 정상적인 판별 분석과 비교 한 로지스틱 회귀의 효율성, J Am Stat Assoc, 70, 892-898 (1975).]

  • 이 논문은 통계 학습의 요소에 따르면 LDA의 가정이 충족되면 LDA의 상대 효율이 LR보다 우수하다는 것을 보여 주지만 (실제로 위의 Ettron 논문, @tthnps의 마지막 요점) 실제로 차이는 거의 없습니다.
    [Hastie, T. 및 Tibshirani, R. 및 Friedman, J. 통계 학습의 요소; 데이터 마이닝, 추론 및 예측 Springer Verlag, New York, 2009]

  • LDA의 상대 효율이 크게 증가하면 절대 오차가 실제로 무시할 수있는 점근 적 경우에 주로 발생합니다.
    [Harrell, FE & Lee, KL 다변량 정규성 하에서 판별 분석 및 로지스틱 회귀의 차별 비교, 생물 통계 : 생의학, 공중 보건 및 환경 과학의 통계, 333-343 (1985).]

  • 실제로 LDA가 우수 해 보이는 고차원의 작은 표본 크기 상황에 직면했지만 (다변량 정규성과 동일한 공분산 행렬 가정이 모두 눈에 띄지 않음에도 불구하고).
    [ Beleites, C .; 가이거, K .; 커쉬, 엠. 소 보트 카, SB; Schackert, G. & Salzer, R. Raman 성상 세포종 조직의 분광 등급 : 소프트 참조 정보 사용, Anal Bioanal Chem, 400, 2801-2816 (2011). DOI : 10.1007 / s00216-011-4985-4 ]

  • 그러나 우리의 논문에서 LR은 (거의) 완벽한 분리 성을 가진 방향을 찾을 수 있다는 문제로 어려움을 겪고 있음을 주목하십시오. 반면에 LDA는 과도하게 덜 적합 할 수 있습니다.

  • LDA에 대한 유명한 가정은 최적 성을 증명하기 위해서만 필요합니다. 이들이 충족되지 않으면 절차는 여전히 좋은 휴리스틱이 될 수 있습니다.

  • 실제로 작업하는 분류 문제가 때때로 / 자주 발생하는 분류 문제 때문에 실제로 분류 문제가 전혀 발생하지 않기 때문에 실제로 중요한 차이가 있습니다. 결국, 그것은 회귀 기술입니다.
    [위의 링크 된 논문 참조]

  • LR이 클래스 경계 근처의 예제에 LDA보다 더 집중하고 기본적으로 분포의 "뒷면"에있는 경우를 무시한다고 말할 수 있습니다.

  • 이것은 왜 LDA보다 특이 치 (즉, 뒷면에있는 것)에 덜 민감한 지 설명합니다.

  • (지원 벡터 머신은이 방향으로 끝까지가는 분류기입니다. 여기에서 경계를 제외한 모든 경우는 무시됩니다)

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.