이 답변에 대한 크레딧은 위의 의견에 모든 것을 설명 한 @ttnphns에게 전달됩니다. 아직도, 나는 확장 된 답변을 제공하고 싶습니다.
귀하의 질문에 : 표준화 및 비표준 기능에 대한 LDA 결과는 정확히 동일합니까? --- 대답은 예 입니다. 먼저 비공식적 인 주장을 한 다음 약간의 수학을 진행합니다.
풍선의 한면에 산점도로 표시되는 2D 데이터 세트를 상상해보십시오 (원본 풍선 사진은 여기 에서 촬영 ).
여기서 빨간색 점은 한 클래스이고 녹색 점은 다른 클래스이며 검은 선은 LDA 클래스 경계입니다. 이제 또는 축의 조정 하면 풍선을 가로 또는 세로로 늘릴 수 있습니다. 이러한 스트레칭 후에 검은 선의 기울기가 변하더라도 클래스는 이전과 정확하게 분리 될 수 있으며 검은 선의 상대 위치는 변하지 않을 것임이 직관적입니다. 각 시험 관측치는 스트레칭 전과 동일한 클래스에 할당됩니다. 따라서 스트레칭이 LDA의 결과에 영향을 미치지 않는다고 말할 수 있습니다.xy
이제 수학적으로 LDA는 고유 벡터를 계산하여 판별 축 세트를 찾습니다. 여기서 및 은 클래스 내 및 클래스 간 산란 행렬. 마찬가지로, 이들은 된 고유 값 문제 의 일반 고유 벡터입니다 .W−1BWBBv=λWv
총 산란 행렬이 로 제공되도록 열에 변수가 있고 행에 데이터 점이 있는 중심 데이터 행렬 을 고려하십시오 . 데이터를 표준화하면 의 각 열을 특정 숫자 로 스케일링합니다 . 즉, 대체합니다 . 여기서 는 대각선에 스케일링 계수 (각 열의 표준 편차의 역수)가있는 대각선 행렬입니다. 이러한 스케일링 후에 같이 변경됩니다 분산 행렬은 다음과 같다 : , 및 일어날 것 같은 변형XT=X⊤XXXnew=XΛΛTnew=ΛTΛWnew 및 .Bnew
하자 원래 문제의 고유 벡터, 즉 수이 방정식 에 왼쪽의 를 곱하고 앞에 양쪽에 을 삽입 하면 즉 이는v
Bv=λWv.
ΛΛΛ−1vΛBΛΛ−1v=λΛWΛΛ−1v,
BnewΛ−1v=λWnewΛ−1v,
Λ−1v는 이전과 정확히 동일한 고유 값 로 크기를 재조정 한 후의 고유 벡터 입니다.
λ
따라서 고유 축 (고유 벡터로 제공)은 변경되지만 클래스가 얼마나 분리되어 있는지를 나타내는 고유 값은 정확히 동일하게 유지됩니다. 또한 원래 제공된이 축에 대한 투영 은 이제 즉, 정확히 동일하게 유지됩니다 (최대 스케일링 계수까지 가능).XvXΛ(Λ−1v)=Xv
in general a "Z-score normalization" (or standardization) of features won't be necessary, even if they are measured on completely different scales
아니요,이 진술은 정확하지 않습니다. LDA를 사용한 표준화 문제는 다변량 방법과 동일합니다. 예를 들어 PCA입니다. 마할 라 노비스 거리는 그 주제와 관련이 없습니다.