전처리 단계로 LDA를 사용할 때 기능 표준화


9

다중 등급 선형 판별 분석 (또는 다중 판별 분석이라고도 함)을 차원 축소 (또는 PCA를 통한 차원 축소 후 변환)에 사용하는 경우 일반적으로 "Z- 점수 정규화"(또는 표준화) 완전히 다른 스케일로 측정 되더라도 기능이 필요하지 않습니까? LDA에 이미 표준화 된 유클리드 거리를 암시하는 Mahalanobis 거리와 유사한 용어가 포함되어 있기 때문에?

따라서 꼭 필요한 것은 아니지만 표준화 된 기능과 표준화되지 않은 기능에 대한 LDA 결과는 정확히 동일해야합니다!


1
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales아니요,이 진술은 정확하지 않습니다. LDA를 사용한 표준화 문제는 다변량 방법과 동일합니다. 예를 들어 PCA입니다. 마할 라 노비스 거리는 그 주제와 관련이 없습니다.
ttnphns

예를 들어 PCA에서이 "표준화 문제"에 대해 언급 할 수 있다면 좋을 것입니다. 기능이 PCA에 대해 표준화되지 않은 경우, 일부 기능이 다른 척도로 측정되고 완전히 다른 구성 요소 축을 제공하는 경우 더 많은 기여 (가중치)가되지 않습니까? 그리고 LDA의 경우 왜 필요하지 않습니까? 그렇지 않은 경우 결과 (선형 판별 기)가 다른 이유는 무엇입니까?

2
표준화 (즉, 중심, 스케일)하면 실제로 상관 관계를 분석하게됩니다. 표준화하지 않고 중심 만 있다면 실제로 공분산을 분석하게됩니다. 결과는 다를 수 있습니다. 이는 다른 데이터를 다루는 것과 같기 때문에 정상입니다. 이 사실은 걱정하지 않아도됩니다. 스레드 통계 stats.stackexchange.com/q/62677/3277을 읽을 수 있습니다 .
ttnphns

2
@SebastianRaschka, amoeba : 내 의견을 재고해야합니다 The issue of standardization with LDA is the same as in any multivariate method. 사실, LDA (예를 들어, PCA 반대)로 결과를해야 하지 만 중심으로 한 (LDA는 내부적으로 항상 추출 판별 식에 변수를 센터) 또는 데이터를 z는-표준화 여부를 다릅니다.
ttnphns

2
(계속) 고유 값, 표준화 된 계수, 구조 상관, 판별 점수-모든 것이 동일합니다. 고유 벡터 만 다릅니다. 표준화가 LDA의 주요 결과에 영향을 미치지 않는 이유는 LDA가 군간 공분산 비율 을 분해 하고 공분산 자체가 그 크기를 갖지 않기 때문입니다 (PCA처럼).
ttnphns

답변:


13

이 답변에 대한 크레딧은 위의 의견에 모든 것을 설명 한 @ttnphns에게 전달됩니다. 아직도, 나는 확장 된 답변을 제공하고 싶습니다.

귀하의 질문에 : 표준화 및 비표준 기능에 대한 LDA 결과는 정확히 동일합니까? --- 대답은 입니다. 먼저 비공식적 인 주장을 한 다음 약간의 수학을 진행합니다.

풍선의 한면에 산점도로 표시되는 2D 데이터 세트를 상상해보십시오 (원본 풍선 사진은 여기 에서 촬영 ). baloon에 LDA

여기서 빨간색 점은 한 클래스이고 녹색 점은 다른 클래스이며 검은 선은 LDA 클래스 경계입니다. 이제 또는 축의 조정 하면 풍선을 가로 또는 세로로 늘릴 수 있습니다. 이러한 스트레칭 후에 검은 선의 기울기가 변하더라도 클래스는 이전과 정확하게 분리 될 수 있으며 검은 선의 상대 위치는 변하지 않을 것임이 직관적입니다. 각 시험 관측치는 스트레칭 전과 동일한 클래스에 할당됩니다. 따라서 스트레칭이 LDA의 결과에 영향을 미치지 않는다고 말할 수 있습니다.xy


이제 수학적으로 LDA는 고유 벡터를 계산하여 판별 축 세트를 찾습니다. 여기서 및 은 클래스 내 및 클래스 간 산란 행렬. 마찬가지로, 이들은 된 고유 값 문제 의 일반 고유 벡터입니다 .W1BWBBv=λWv

총 산란 행렬이 로 제공되도록 열에 변수가 있고 행에 데이터 점이 있는 중심 데이터 행렬 을 고려하십시오 . 데이터를 표준화하면 의 각 열을 특정 숫자 로 스케일링합니다 . 즉, 대체합니다 . 여기서 는 대각선에 스케일링 계수 (각 열의 표준 편차의 역수)가있는 대각선 행렬입니다. 이러한 스케일링 후에 같이 변경됩니다 분산 행렬은 다음과 같다 : , 및 일어날 것 같은 변형XT=XXXXnew=XΛΛTnew=ΛTΛWnew 및 .Bnew

하자 원래 문제의 고유 벡터, 즉 수이 방정식 에 왼쪽의 를 곱하고 앞에 양쪽에 을 삽입 하면 즉 이는v

Bv=λWv.
ΛΛΛ1v
ΛBΛΛ1v=λΛWΛΛ1v,
BnewΛ1v=λWnewΛ1v,
Λ1v는 이전과 정확히 동일한 고유 값 로 크기를 재조정 한 후의 고유 벡터 입니다.λ

따라서 고유 축 (고유 벡터로 제공)은 변경되지만 클래스가 얼마나 분리되어 있는지를 나타내는 고유 값은 정확히 동일하게 유지됩니다. 또한 원래 제공된이 축에 대한 투영 은 이제 즉, 정확히 동일하게 유지됩니다 (최대 스케일링 계수까지 가능).XvXΛ(Λ1v)=Xv


2
+1. 전체 이야기의 "도덕적"은 유일한 중심 데이터 와 표준화 된 데이터 가 고유 벡터에 완전히 어긋나 있다는 것입니다. 따라서 데이터에 해당 고유 벡터를 곱하여 판별 점수를 생성 하면 표준화의 효과가 취소됩니다. XXΛΛ
ttnphns
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.