주성분 분석을 수행하기 전에 데이터를 로그 변환하는 이유는 무엇입니까?


16

PCA에 대한 이해를 높이려면 http://www.r-bloggers.com/computing-and-visualizing-pca-in-r/ 튜토리얼을 따르십시오 .

학습서는 Iris 데이터 세트를 사용하고 PCA 이전에 로그 변환을 적용합니다.

[1] 세트에 의해 제안 공지 다음 코드에서는 연속 변수 로그 변환을 적용하는 것이 centerscale동일 TRUE하도록 호출 prcomp전에 PCA를 적용하여 변수의 표준화.

누군가 Iris 데이터 세트의 처음 네 열에서 로그 함수를 먼저 사용하는 이유를 일반 영어로 설명해 주시겠습니까? 데이터를 상대적으로 만드는 것과 관련이 있지만 로그, 중심 및 스케일의 기능이 정확히 무엇인지 혼란 스럽습니다.

위의 참고 문헌 [1]은 S-PLUS 섹션 11.1의 Venables and Ripley, Modern 응용 통계 에 대한 간략한 설명입니다.

데이터는 물리적 측정치이므로 올바른 초기 전략은 로그 스케일에서 작동하는 것입니다. 이것은 전체적으로 수행되었습니다.


답변:


19

홍채 데이터 세트는 PCA를 배우는 좋은 예입니다. 즉, sepals와 꽃잎의 길이와 너비를 설명하는 처음 네 개의 열은 강하게 치우친 데이터의 예가 아닙니다. 따라서 주 구성 요소의 결과 회전이 로그 변환에 의해 크게 변하지 않기 때문에 데이터를 로그 변환하면 결과가 크게 변경되지 않습니다.

다른 상황에서는 로그 변환이 좋은 선택입니다.

우리는 데이터 세트의 일반적인 구조에 대한 통찰력을 얻기 위해 PCA를 수행합니다. 우리는 PCA를 지배 할 수있는 몇 가지 사소한 영향을 걸러 내기 위해 중심을 맞추고 크기를 조정하고 때때로 로그 변환합니다. PCA의 알고리즘은 각 제곱 잔차, 즉 샘플에서 PC까지의 제곱 수직 거리의 합을 최소화하기 위해 각 PC의 회전을 찾습니다. 큰 값은 레버리지가 높은 경향이 있습니다.

홍채 데이터에 두 개의 새로운 샘플을 주입한다고 상상해보십시오. 꽃잎 길이는 430 cm이고 꽃잎 길이는 0.0043 cm입니다. 두 꽃 모두 평균 예보다 각각 100 배 더 크고 1000 배 더 작습니다. 첫 번째 꽃의 레버리지는 크므로 첫 번째 PC는 대부분 큰 꽃과 다른 꽃의 차이점을 설명합니다. 그 특이 치 때문에 종의 군집이 불가능합니다. 데이터가 로그 변환 된 경우 절대 값은 이제 상대 변형을 나타냅니다. 이제 작은 꽃이 가장 비정상적인 꽃입니다. 그럼에도 불구하고 하나의 이미지에 모든 샘플을 포함하고 종의 공정한 클러스터링을 제공 할 수 있습니다. 이 예제를 확인하십시오.

data(iris) #get data
#add two new observations from two new species to iris data
levels(iris[,5]) = c(levels(iris[,5]),"setosa_gigantica","virginica_brevis")
iris[151,] = list(6,3,  430  ,1.5,"setosa_gigantica") # a big flower
iris[152,] = list(6,3,.0043,1.5  ,"virginica_brevis") # a small flower

#Plotting scores of PC1 and PC" without log transformation
plot(prcomp(iris[,-5],cen=T,sca=T)$x[,1:2],col=iris$Spec)

여기에 이미지 설명을 입력하십시오

#Plotting scores of PC1 and PC2 with log transformation
plot(prcomp(log(iris[,-5]),cen=T,sca=T)$x[,1:2],col=iris$Spec)

여기에 이미지 설명을 입력하십시오


2
좋은 데모와 음모.
shadowtalker

3

다른 대답은 로그 변환을 사용하여 극단적 인 값이나 특이 치의 영향을 줄이는 경우를 보여줍니다.
당신이 데이터를 분석 할 때 또 다른 일반적인 인수는 발생 상승적으로 구성 대신 addititively 자신의 수학 등의 첨가제 조성에 의해 PCA와 FA 모델을 -. 곱셈구성은 가장 간단한 경우에 표면과 같은 물리적 데이터에서 발생하며 신체의 체적 (기능적으로), 예를 들어 길이, 너비, 깊이의 세 가지 매개 변수에 따라 다릅니다. 초기 PCA의 역사적인 예의 구성을 재현 할 수 있다고 생각합니다. "Thurstone 's Ball- (또는 'Cubes'-) 문제"등이라고합니다. 일단 그 예제의 데이터를 가지고 놀았고 로그 변환 된 데이터가 3 차원 측정으로 측정 된 부피와 표면 데이터의 구성에 대해 훨씬 더 좋고 명확한 모델을 제공한다는 것을 알게되었습니다.

이러한 간단한 예 외에도 사회 연구 데이터 상호 작용을 고려한다면 , 우리는 그것들을 더 기초적인 항목에 대한 곱셈으로 구성된 측정뿐만 아니라 일반적으로 생각합니다. 따라서 상호 작용을 구체적으로 살펴보면 로그 변환이 분해에 대한 수학적 모델을 얻는 데 유용한 도구가 될 수 있습니다.


"다각적 인"작곡을 더 잘 설명 할 수있는 참고 문헌을 적어 주시겠습니까? 고마워요!
Amatya

1
@ Amatya-나는 "thurstone-box-problem"을 찾지 못했지만 기본 항목 및 표면으로 너비, 길이, 높이 및 곱셈 결합 된 추가 항목으로 볼륨, 부피, 높이를 포함하는 큐브에서 (독일어) 사이트 토론 pca. 아마도 정의에 포함 된 수식으로 충분합니다. sgipt.org/wisms/fa/Quader/q00.htm
Gottfried Helms

1
아, 그리고 나는 잊었다 –이 go.helms-net.de/stat/fa/SGIPT_Quader.htm
Gottfried Helms

@GottfriedHelms 변수를 표준화하는 경우 왜 변수를 로그 변환해야 하는지를 여전히 이해하지 못합니다. 극단적 인 특이 치의 원치 않는 영향을 줄이는 일반적인 원칙을 이해하지만 이미 표준화 (중심, 스케일링)하면 로그를 변환하는 것이 실제로 데이터를 왜곡하는 것처럼 보입니다.
Yu Chen

@YuChen-모든 로그 변환은 곱셈 구성을 추가 구성으로 변환 하고, 추가 구성은 모든 유형의 구성 요소 및 요인 분석의 기본 가정 (선형성 등 제외)입니다. 따라서 데이터에 곱셈 구성이있는 경우 로그 변환을 고려해야합니다.
Gottfried Helms
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.