LDA 대 퍼셉트론

9

LDA가 다른지도 학습 기술 내에서 어떻게 '적합'하는지 느끼려고 노력하고 있습니다. LDA에 대한 LDA-esque 게시물을 이미 읽었습니다. 나는 이미 퍼셉트론에 익숙하지만 지금은 LDA를 배우고 있습니다.

LDA는지도 학습 알고리즘 제품군에 어떻게 적합합니까? 다른 방법에 비해 단점은 무엇이며 더 잘 사용할 수있는 방법은 무엇입니까? 예를 들어 퍼셉트론을 사용할 수있을 때 왜 LDA를 사용합니까?

— 크레아 트론
소스

1

지도 학습이 무엇인지 혼동 할 수 있습니다. K- 평균은 비지도 학습 학습 클러스터링 알고리즘입니다. 퍼셉트론 (Perceptron)은 긍정적 인 관찰과 부정적인 것을 구분하는 초평면 (hyperplane)을 찾으려는지도 학습 분류 알고리즘입니다. LDA는 감독 분류에 사용할 수 있지만 감독 기능 선택에 더 일반적으로 사용되는 방법입니다. LDA 분류기의 가정은 @AdamO의 답변을 참조하십시오.

— Bitwise

@Bitwise 죄송합니다! 왜 K- 평균을 넣었는지 모르겠습니다. 예, 감독되지 않은 알고리즘입니다. 편집에서 제거하겠습니다.

— Creatron

@Bitwise LDA와 Perceptron에 대해 말한 내용에 관해서는 그렇습니다. LDA는 데이터를 투영 할 수있는 초평면을 찾아서 클러스터 간 분산을 최대화하면서 클러스터 간 분산을 최대화합니다. 그런 다음 테두리에 분류자가 있습니다. Perceptron은 레이블이있는 데이터를 분리하기위한 최적의 초평면을 찾기 위해 비슷한 작업을 수행합니다. 왜 다른 것을 사용합니까?

— Creatron

15

AdamO가 위의 의견에서 제안했듯이 LDA를 다른 선형 분류 방법과 비교하고 많은 예제를 제공하고 사용법을 논의하는 통계 학습의 요소 (HTF라고 함) 의 4 장을 읽는 것보다 실제로 더 잘 할 수는 없습니다. ttnphns가 지적한 것처럼 PCA의 정맥에서 치수 감소 기술로서 LDA의 다소 인기가 있습니다.

분류의 관점에서 볼 때 주요 차이점은 이것입니다. 두 개의 클래스가 있고이를 분리하려고한다고 가정하십시오. 각 클래스에는 확률 밀도 함수가 있습니다. 이러한 밀도 함수를 알고있는 경우 가능한 가장 좋은 상황은 해당 시점에서 클래스 별 밀도를 평가하여 포인트가 속하는 클래스를 예측할 수 있기 때문입니다.

어떤 종류의 분류기는 클래스의 밀도 함수에 대한 근사값을 찾아서 작동합니다. LDA는 다음 중 하나입니다. 밀도가 동일한 공분산 행렬로 다변량 법선이라고 가정합니다. 이것은 강력한 가정이지만 대략적으로 정확하면 좋은 분류기를 얻게됩니다. 다른 많은 분류 자들도 이런 종류의 접근 방식을 취하지 만 정규성을 가정하는 것보다 더 유연하게 노력합니다. 예를 들어, HTF의 108 페이지를 참조하십시오.

반면에 210 페이지에서 HTF는 다음과 같이 경고합니다.

분류가 궁극적 인 목표라면 별도의 클래스 밀도를 잘 학습하는 것이 불필요 할 수 있으며 실제로 오도 할 수 있습니다.

또 다른 접근법은 단순히 두 계급 사이의 경계를 찾는 것입니다. 이것이 퍼셉트론이하는 것입니다. 이것의보다 복잡한 버전은 서포트 벡터 머신입니다. 이러한 방법은 커널 화라는 기술을 사용하여 데이터에 기능을 추가하는 것과 결합 될 수도 있습니다. LDA는 정규성을 유지하지 않기 때문에 작동하지 않지만 분리 초평면을 찾고있는 분류 자에게는 문제가되지 않습니다.

LDA와 분리 초평면을 찾는 분류기의 차이점은 일반적인 통계에서 t- 검정과 비모수 적 대안의 차이와 같습니다. 후자는 예를 들어 이상치에 비해 강력하지만 가정이 만족되면 전자가 최적입니다.

한 가지 더 언급 : 일부 사람들은 LDA 또는 로지스틱 회귀와 같은 방법을 사용해야하는 문화적 이유가있을 수 있으며, 이는 분산 분석표, 가설 검정 및 그와 같은 것들을 강제로 분출 할 수 있습니다. LDA는 Fisher가 발명했습니다. 퍼셉트론은 원래 인간 또는 동물 뉴런의 모델이었으며 통계와 관련이 없었습니다. 다른 방법으로도 작동합니다. 어떤 사람들은 서포트 벡터 머신과 같은 방법을 선호 할 수 있습니다. 왜냐하면 20 세기의 방법과는 비교할 수없는 최첨단 소식통이 있습니다. 그들이 더 낫다는 의미는 아닙니다. (이것의 좋은 예는 내가 올바르게 기억한다면 해커를위한 기계 학습 에서 논의 됩니다.)

— under 치
소스

"일부 사람들은 20 세기의 방법으로는 비교할 수없는 최첨단 힙 스터 신념을 가지고 있기 때문에지지 벡터 머신과 같은 방법을 선호 할 것입니다." 롤! 그렇습니다. Btw에는 일을 매우 명확하고 정확하게 설명하는 요령이 있습니다. 감사합니다! 나는 일들이 어떻게 조화를 이루고 당신이 그것을 제공했는지에 대한 '지도'가 필요했습니다.

— Creatron

2

직관을 위해 다음 경우를 고려하십시오.

여기에 이미지 설명을 입력하십시오

선은 두 클래스 o와 x 사이의 "최적 경계"를 나타냅니다.

LDA는 클러스터 간 분산을 최소화하고 클러스터 내 분산을 최대화하는 초평면을 찾은 다음 경계가 해당 초평면과 직교하도록합니다. 클러스터가 같은 방향으로 큰 분산을 가지고 있기 때문에 이것은 아마도 작동하지 않을 것입니다.

반면에 퍼셉트론은 우수한 분리 초평면을 찾을 가능성이 더 높습니다.

퍼셉트론은에 대해 보증을 제공하지 않고, 데이터와 일치하는 분리 초평면 발견 이후 가우스 분포가 클래스의 경우, 그래도 LDA 아마 더 잘 할 것입니다 어느 것이 선택 초평면 (무한대가 될 수있다 일관된 초평면의). 그러나 더 복잡한 버전의 퍼셉트론은 클래스 간 여백을 최대화하는 것과 같이 최적의 속성을 가진 하이퍼 플레인을 선택할 수 있습니다 (이것은 기본적으로 Support Vector Machines가 수행하는 것임).

또한 LDA와 퍼셉트론은 커널 트릭을 통해 비선형 결정 경계까지 확장 될 수 있습니다 .

— 비트 단위
소스

1

LDA와 다른 방법의 가장 큰 차이점 중 하나는 정규 분포로 가정되는 데이터에 대한 기계 학습 기술이라는 것입니다. 데이터가 누락되거나 잘린 경우 EM 알고리즘을 사용하여 매우 이상하고 흥미로운 상황에서 가능성을 최대화 할 수 있습니다. 주의의 위험 부담은 같은 복합 데이터로 모델 misspecifications 때문에, K-수단이 잘 할 것이다 클러스터링 실적이 저조한 예측으로 이어질 수 있습니다. EM으로 다중 모드 데이터를 고려하여 LDA에서 잠재 변수 또는 군집을 탐지 할 수 있습니다.

예를 들어, CD4 수를 기준으로 5 년 내에 AIDS의 양성 진단이 발생할 가능성을 측정한다고 가정합니다. CD4 수에 큰 영향을 미치고 추가 면역 억제와 관련된 특정 바이오 마커의 가치를 모른다고 가정하십시오. 400 미만의 CD4 수는 가장 저렴한 분석법에서 검출 한계보다 낮습니다. EM 알고리즘을 사용하면 LDA 및 바이오 마커 할당 및 절단되지 않은 DF에 대한 CD4의 평균 및 공분산을 반복적으로 계산할 수 있습니다.

— AdamO
소스

고마워 아담, 지금은 더 혼란스러워합니다. :-) LDA가 퍼셉트론 또는 기타지도 학습 기술에 대해 어떻게 더 좋을까요? EM algo와 관련하여 EM algo를 사용하여 LDA를 해결할 수 있다고 말하는 범위에서 사용 하고 있습니까?

— Creatron

1

@AdamO, 데이터 축소 기술 로서 LDA 가 PCA 가하지 않는 것처럼 정규성에 의존하지 않는다는 것을 명확히하고 싶습니다. LDA 내에서의 정규성은 1) 통계 테스트 (Box 's M test 등), 2) 분류에 대한 가정입니다.

— ttnphns

정규성을 가정 할 때 @ttnphns는 LDA가 ML 기술임을 의미합니다. ML은 좋은 것입니다. 앞서 언급 한 예에서 특정 경고는 ML을 사용하여 어려운 문제를 해결합니다. 이러한 솔루션은 정교한 시뮬레이션 및 / 또는 버그에서만 가능합니다.

— AdamO

@TheGrapeBeyond LDA는 Mahal 거리 btn 두 그룹을 최대화합니다. SLP (단일 레이어 퍼셉트론 또는 nnet)는 최대 분류 정확도를 생성하는 피처 공간에 초평면을 그립니다. 좋은 출발점은 Tibs / Hastie 책을 읽는 것입니다. 나는 그 것을 스스로 닦아야 할 수도 있습니다.

— AdamO