PCA / 대응 분석에서 "말발굽 효과"및 / 또는 "아치 효과"란 무엇입니까?


20

다차원 데이터의 탐색 적 데이터 분석을위한 생태 통계에는 많은 기술이 있습니다. 이것을 '조정'기술이라고합니다. 대부분 통계의 다른 곳에서 공통 기술과 동일하거나 밀접하게 관련되어 있습니다. 아마도 프로토 타입 예제는 주성분 분석 (PCA) 일 것입니다. 생태 학자들은 PCA와 관련 기술을 사용하여 '그라데이션'을 탐색 할 수 있습니다 (그라데이션이 무엇인지 완전히 명확하지는 않지만 조금 그것에 대해 읽었습니다).

이 페이지 아래의 마지막 항목 주성분 분석 (PCA)를 읽습니다

  • PCA는 식생 데이터에 심각한 문제가있다 : 말굽 효과. 이것은 구배에 따른 종 분포의 곡선으로 인해 발생합니다. 종 반응 곡선은 일반적으로 단봉 형 (즉, 매우 강렬한 곡선)이기 때문에 말굽 효과가 일반적입니다.

페이지 아래의 대응 분석 또는 상호 평균화 (RA) 에서 "아치 효과"를 나타냅니다.

  • RA에는 아치 효과라는 문제가 있습니다. 또한 그라디언트를 따라 분포의 비선형 성으로 인해 발생합니다.
  • 구배의 끝이 뒤얽 히지 않기 때문에 아치는 PCA의 말굽 효과만큼 심각하지 않습니다.

누군가 이것을 설명 할 수 있습니까? 최근에 저 차원 공간 (즉, 대응 분석 및 요인 분석)에서 데이터를 나타내는 플롯에서이 현상을 보았습니다.

  1. "그라데이션"이 더 일반적으로 (즉, 비 생태적 맥락에서) 무엇에 해당합니까?
  2. 데이터에서 이런 일이 발생하면 "문제"( "심각한 문제")입니까? 무엇을 위해?
  3. 말굽 / 아치가 나타나는 곳에서 출력물을 어떻게 해석해야합니까?
  4. 구제책을 적용해야합니까? 뭐? 원본 데이터의 변환이 도움이됩니까? 데이터가 서수 등급이면 어떻게 되나요?

답변은 해당 사이트의 다른 페이지 (예 : PCA , CADCA ) 에 존재할 수 있습니다 . 나는 그것들을 통해 일하려고 노력했다. 그러나 토론은 충분히 익숙하지 않은 생태 용어와 문제를 이해하기가 더 어렵다는 예에 기초하고 있습니다.


1
(+1) ordination.okstate.edu/PCA.htm 에서 합리적인 답변을 찾았습니다 . 당신의 인용문에있는 "curvilinearity"설명은 완전히 틀리기 때문에 혼란 스럽습니다.
whuber

2
Diaconis, et al. (2008), 다차원 스케일링 및 로컬 커널 방법의 말굽 , Ann. Appl. 통계 , vol. 2 번 3, 777-807.
추기경

나는 당신의 질문에 대답하려고 노력했지만 생태 학자와 그라디언트를 보는 것이 내가 이런 것들을 어떻게 생각하는지 내가 얼마나 잘 달성했는지 잘 모르겠습니다.
복원 Monica Monica-G. Simpson

@ whuber : 인용 된 "curvilinearity"설명은 혼란스럽고 명확하지 않을 수도 있지만, "완전히 틀렸다"고 생각하지 않습니다. 실제 "그라데이션"을 따라 위치의 함수로서 종의 풍부함 (링크에서 예를 사용하여)이 모두 선형 (아마도 약간의 소음에 의해 손상됨) 인 경우 점의 구름은 (대략) 1 차원이고 PCA가됩니다 그것을 찾을 것입니다. 함수가 선형이 아니기 때문에 점 구름이 구부러 지거나 구부러집니다. 이동 된 가우시안의 특별한 경우는 말굽으로 이어집니다.
amoeba는

그럼에도 불구하고 말굽 효과는 종 구배의 곡선에서 비롯된 것이 아니라 분포 비율의 비선형 성에서 비롯됩니다 . 그라디언트 자체의 모양에 영향을 미치는 인용은 현상의 원인을 정확하게 식별하지 못합니다.
whuber

답변:


19

Q1

생태 학자들은 항상 그라디언트에 대해 이야기합니다. 많은 종류의 그라디언트가 있지만 원하는 변수 또는 응답에 중요한 변수의 조합으로 생각하는 것이 가장 좋습니다. 따라서 구배는 시간, 공간, 토양 산도, 영양분 또는 어떤 식 으로든 반응에 필요한 다양한 변수의 선형 조합과 같은 더 복잡한 것일 수 있습니다.

우리는 공간이나 시간에있는 종을 관찰하기 때문에 그라디언트에 대해 이야기하고 전체 사물은 그 공간이나 시간에 따라 다릅니다.

2 분기

대부분의 경우 PCA의 말굽이 심각한 문제가 아니라고 나는 결론에 도달 한 경우에 당신이 발생하는 방법을 이해하고 "그라데이션이"실제로 PC1과 PC2 (잘으로 표시됩니다 걸릴 PC1 바보 같은 일을하지 않습니다 더 높은 PC로도 분할되지만 2 차원 표현은 괜찮습니다.)

CA에서 나는 똑같이 생각한다고 생각합니다 (지금 그것에 대해 조금 생각해야합니다). 이 솔루션은 데이터에 강한 2 차원이없는 경우 아치 축을 형성 할 수 있으므로 CA 축의 직교성 요구 사항을 만족하는 첫 번째 축의 접힌 버전이 데이터의 다른 방향보다 더 많은 "관성"을 설명합니다. 이것은 PCA를 사용하여 아치가 단일 지배적 구배를 따라 현장에서 종의 풍부함을 나타내는 방법 일뿐 인 구조로 만들어지기 때문에 더 심각 할 수 있습니다.

나는 사람들이 왜 강력한 말굽으로 PC1의 잘못된 주문에 대해 그렇게 많이 걱정하는지 이해하지 못했습니다. 이런 경우 PC1 만 가져 가지 말아야한다는 점에 반대하고 문제는 사라집니다. PC1과 PC2의 좌표 쌍은이 두 축 중 하나의 반전을 제거합니다.

Q3

PCA biplot에서 말굽을 보면 데이터가 단일 지배적 그라디언트 또는 변형 방향을 갖는 것으로 해석합니다.

아치를 보았을 때 아마도 같은 결론을 내릴 수 있지만 CA 축 2를 전혀 설명하려고 시도하는 것은 매우 조심 스러울 것입니다.

나는 DCA를 적용하지 않을 것입니다-그것은 아치를 비틀어 (최상의 상황에서) 2 차원 플롯에서 이상한 것을 보지 못하지만 많은 경우에 다이아몬드 또는 트럼펫 모양과 같은 다른 가짜 구조를 생성합니다. DCA 공간에서 샘플 배열. 예를 들면 다음과 같습니다.

library("vegan")
data(BCI)
plot(decorana(BCI), display = "sites", type = "p") ## does DCA

여기에 이미지 설명을 입력하십시오

우리는 플롯의 왼쪽으로 샘플 포인트에서 일반적인 패닝을 봅니다.

Q4

m

이것은 데이터의 고차원 공간에서 비선형 방향을 찾는 것을 제안합니다. 그러한 방법 중 하나는 Hastie & Stuezel의 주요 곡선이지만 충분할 수있는 다른 비선형 매니 폴드 방법을 사용할 수 있습니다.

예를 들어, 일부 병리학 적 데이터의 경우

여기에 이미지 설명을 입력하십시오

우리는 강한 말굽을 봅니다. 주 곡선은 데이터의 m 차원에서 부드러운 곡선을 통해 이러한 기본 기울기 또는 샘플의 배열 / 순서를 복구하려고합니다. 아래 그림은 반복 알고리즘이 기본 그래디언트를 근사하는 것으로 수렴하는 방법을 보여줍니다. (나는 더 높은 차원의 데이터에 더 가깝게하기 위해 플롯의 맨 위에있는 데이터에서 멀어지고 부분적으로 곡선이 주 곡선으로 선언되는 자기 일관성 기준으로 인해 생각합니다.)

여기에 이미지 설명을 입력하십시오

이미지를 가져온 블로그 게시물의 코드를 포함한 자세한 내용 이 있습니다. 그러나 여기서 중요한 점은 주요 곡선이 알려진 샘플의 순서를 쉽게 복구하는 반면 PC1 또는 PC2 자체는 그렇지 않습니다.

PCA의 경우 생태학에 변형을 적용하는 것이 일반적입니다. 인기있는 변환은 유클리드 거리가 변환 된 데이터에서 계산 될 때 비 유클리드 거리를 반환한다고 생각할 수있는 변환입니다. 예를 들어, Hellinger 거리는

DHellinger(x1,x2)=j=1p[y1jy1+y2jy2+]2

yijjiyi+i

말굽은 생태학에서 오랫동안 알려져 왔으며 연구되었습니다. 초기 문헌 중 일부 (더 현대적인 모습)는

주요 주 곡선 참조는

전자는 매우 생태 학적 표현이다.


고마워 개빈 다음과 같은 질문이있는 데이터 세트에서 서수 등급 1 : 5를 고려하십시오. 이들은 공간 또는 시간에 의미있게 분산되지 않습니다. 여기서 '그라데이션'은 무엇입니까?
gung-Monica Monica 복원

5x5 테이블 및 높은 N에서 데이터를 시각화하는 한 가지 방법은 CA입니다. 데이터는 서수이지만 CA는이를 인식하지 못합니다. 인접한 행 / 열이 더 멀리 떨어져 있는지 확인할 수 있습니다. 두 점 세트 모두 적절한 순서로 명확한 선을 따라 떨어지지 만 선은 2D 공간의 중간 점보다 극단이 서로 가깝도록 곡선을 이룹니다. 어떻게 해석해야합니까?
gung-Monica Monica 복원

CA는 샘플 "점수"의 분산을 최대화하는 행 (샘플) 및 변수 (콜)에 대한 순서를 찾습니다. 분산을 최대화하는 잠재 변수 (변수의 선형 조합)를 찾습니다. 우리는 그 잠재 변수를 그라디언트라고 부릅니다.
복원 모니카

압축은 다시 축의 스케일에서 유클리드 거리와 관련하여 CA 축 1에서 서로 더 가깝거나 서로 더 가깝다는 것을 의미합니까? 어느 쪽이든, 이것은 데이터를 저 차원 공간으로 투영 할 때 실제로 문제가됩니다. DCA는 비 추세 DCA 축 1의 끝에서 샘플을 분리하고 원점 근처에서 샘플을 압축하여이 효과를 취소하려고합니다. 따라서 그렇습니다. 문제이지만 기본 그래디언트를 적절하게 캡처하는 방법의 유연성이 없기 때문입니다. 우리는 그것과 함께 살거나 더 유연한 접근법을 사용할 수 있습니다 (적어도 생태학에서는).
복원 모니카

1
더 많은 차원에서 이것을 보면 문제가 사라질 것입니다. 나는 이것이 방법의 한계라고 생각한다. 많은 경우에는 문제가 없지만 다른 경우에는 실패합니다.
복원 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.