판별 분석에서 범주 형 독립 변수를 사용할 수 있습니까?


답변:


14

판별 분석은 일반적으로 예측 변수로 간주되는 항목이 실제로 다변량 종속 변수이며 그룹화 변수가 예측 변수로 간주되므로 다변량 정규 분포를 가정합니다. 이는 원하는 의미에서 예측 변수로 취급되는 범주 형 변수가 제대로 처리되지 않음을 의미합니다. 이것은 나 자신을 포함하여 많은 사람들이 로지스틱 회귀 분석에 의해 판별 분석이 쓸모없는 것으로 간주하는 이유 중 하나입니다. 로지스틱 회귀는 모형의 왼손 또는 오른편에 분포 분포 가정을하지 않습니다. 로지스틱 회귀는 직접 확률 모델이며 판별 분석과 마찬가지로 결과를 확률로 변환하기 위해 Bayes의 규칙을 사용할 필요가 없습니다.


프랭크 하렐 씨의 답변에 감사드립니다. 실제로 나는 동일한 변수 세트를 사용하여 차별 분석 및 로지스틱 회귀 (로짓 모델)의 결과를 비교하고 싶습니다. 따라서 식별 목적으로 범주 형 변수를 독립 변수로 사용해야하는 경우 어떤 방법이 있습니까?
kuwoli

6

짧은 대답은 그렇습니다.

예비 메모 하나. 판별 기능을 생성하는 변수를 "독립"또는 "종속"이라고해야하는지 말하기는 어렵습니다. LDA는 기본적으로 정식 상관 분석의 특정 사례이므로 모호합니다. MANOVA (클래스 변수를 독립 인자로 사용) 또는 클래스가 이분법 적일 때 종속 변수로 클래스의 선형 회귀로 볼 수 있습니다. 이다 확실히하지 항상 같은 물류 하나 하나의 방향 회귀와 LDA를 반대하는 것이 법적.

LDA는 변수 ( "독립적"이라고 함)가 다변량 정규 분포에서 나온 것으로 가정합니다. 이 가정은 (1) LDA의 분류 단계 및 (2) 추출 단계에서 생성 된 판별 변수의 테스트 중요성에 중요합니다. 판별 자 자체 추출에는 가정이 필요하지 않습니다.

그러나 LDA는 이진 데이터 에 대한 보증으로 간주되는 가정 위반에 대해 상당히 강력합니다 . 실제로 어떤 사람들은 그렇게합니다. 두 세트 모두 이진 또는 더미 이진 변수로 구성되는 경우 정식 상관 관계 (LDA가 특정한 경우 임)를 수행 할 수 있습니다. 다시 한 번, 잠복 기능의 추출에는 문제가 없습니다. 이러한 응용 프로그램의 문제는 p- 값 또는 객체 분류가 호출 될 때 잠재적으로 발생합니다.

이진 / 연산 변수로부터 테트라 코릭 / 폴리 코릭 상관을 계산하고이를 LDA에 제출할 수 있습니다 (프로그램이 데이터 대신 상관 매트릭스를 입력 할 수있는 경우). 그러나 사건 수준에서 판별 점수를 계산하는 것은 문제가 될 것입니다.

보다 유연한 접근법은 최적의 스케일링 / 양자화에 의해 범주 형 (명목, 명목) 변수를 연속으로 변환하는 것 입니다. 비선형 표준 상관 분석 (OVERALS). 그것은 양측 (클래스 변수와 범주 "예측 자") 사이의 정식 상관 관계를 최대화하기 위해 수행 될 것이다. 그런 다음 변환 된 변수로 LDA를 시도 할 수 있습니다.

(다항식 또는 이항식) 로지스틱 회귀는 LDA의 또 다른 대안 일 수 있습니다.


이는 상황에 맞는 모델을 사용하는 것보다 훨씬 더 복잡합니다 (물류 회귀). 판별 분석은 생각만큼 강력하지 않습니다. da 형식의 사후 확률이 매우 정확하지 않다는 이진수 인 단일 범주 형 예측 변수를 사용하여 쉽게 표시 할 수 있습니다 (예 : 대상의 성별이 주어진 사건의 확률을 예측).
Frank Harrell
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.