개별 데이터 및 PCA의 대안


9

밀접하게 관련된 여러 종류의 곤충에 형태 학적 날개 문자를 설명하는 불연속 (선정적, meristic 및 명목) 변수에 대한 데이터 세트가 있습니다. 제가하고자하는 것은 형태 학적 특성에 따라 다른 종의 유사성을 시각적으로 나타내는 일종의 분석을 수행하는 것입니다. 떠올랐다 것을 우선 (이 내가 만들 찾고 있어요 시각화의 유형입니다) PCA했지만, 같은 특히 다른 질문 (그것으로 찾고 후 : 캔 주성분 분석은 연속의 혼합을 포함하는 데이터 세트에 적용 할 수 범주 형 변수?) PCA가 불연속 데이터에 적합하지 않은 것 같습니다 (PCA는 이러한 유형의 연구에서 문헌에 사용되지만 항상 지속적인 데이터를 사용함). 이 데이터가 왜 부적절한 지에 대한 통계적 배경을 무시하면서, PCA는 나의 생물학적 질문에 관해 상대적으로 완벽한 결과를 제공합니다 (하이브리드 관심 그룹은 부모 그룹의 중간에 있습니다).

또한 통계를 완화하기 위해 다중 대응 분석을 시도했지만 (적어도 내 이해는 가능한 한) PCA에서 얻을 수있는 것과 비슷한 음모를 얻을 수없는 것 같습니다. 다른 그룹 (생물학적으로 말하기, 다른 종)을 보여주기 위해 색으로 구분됩니다. 이 분석은 변수 (여기서, 나의 형태 학적 특성)가 개별 관측치가 아니라 서로 관련되는 방식을 설명하는 것으로 보입니다. 그리고 그룹별로 채색 된 관측치를 플롯하면 전체 개인 집합을 설명하는 단일 값 (아마도 평균) 만 얻습니다. 나는 R에서 분석을 했으므로 음모에 대한 나의 아이디어가 작동하기에 R이 충분하지 않을 수도 있습니다.

내 데이터로 이런 종류의 분석을 시도하는 것이 맞습니까? 당신이 말할 수 없다면, 나의 통계 전문 지식이 제한되어 있기 때문에, 이러한 분석에서 일어나는 방정식은 내 머리 위로 끝납니다. 나는이 분석을 완전히 묘사 적으로 수행하려고 노력하고 있습니다 (더 이상 다운 스트림 번호 크 런칭을 할 필요가 없습니다).이 경우 PCA로 충분하다는 것을 읽었지만 너무 많은 통계적 가정을 위반했습니다.


1
다중 대응 일치 분석을 통해 원하는 종류의 도표를 얻을 수 있어야합니다. 귀하의 데이터에 대한 링크를 제공 할 수 있으면 살펴볼 수 있습니다. 다차원 스케일링은 또 다른 가능성이지만 MCA는 일종의 다차원 스케일링으로 볼 수 있습니다
kjetil b halvorsen

잠재 클래스 클러스터링은 또 다른 방법 론적 옵션입니다. 기본적으로 LCA는 클러스터링에 사용되는 잔차에서 이종성을 '모델'로 만듭니다. 역사적으로 문헌에는 사회학적인 두 가지 광범위한 연구 흐름이있었습니다. 원래 LCA는 50 년대 콜롬비아의 Lazarsfeld로 거슬러 올라 갔으며, 감독되지 않았으며 범주 형 데이터를 사용했습니다. R의 poLCA가 그 예입니다. 보다 최근에 감독 된 LCA 용 유한 혼합 모델이 개발되었습니다. 나는 R 모듈을 모르지만 그것을하는 저렴한 상용 소프트웨어가 있습니다 ( Latent Gold ). LG 웹 사이트는 LCA에 관한 좋은 논문을 가지고 있습니다
Mike Hunter

답변:


1

목적에 따라 약간 다르지만 시각화 도구를 사용하는 경우 임의의 숲 근접 촬영 결과에 다차원 스케일링을 적용하여 예쁜 그림을 생성하고 범주 형 데이터와 연속적인 데이터를 혼합하여 사용할 수있는 트릭이 있습니다. 여기에서는 예측 변수에 따라 종을 분류합니다. 그러나 이것은 큰 경고입니다. 누군가가 이러한 시각화의 결과가 무엇인지 실제로 아는지는 모르겠습니다.

다른 대안은 다차원 스케일링을 Gower 유사성과 같은 것에 적용하는 것입니다.

매달려있는 질문이 있습니다. 궁극적 인 목적은 무엇입니까? 어떤 질문에 대답 하시겠습니까? 이러한 기술을 탐색 도구로 사용하여 더 많은 질문을하도록 유도 할 수는 있지만, 그들이 설명하거나 스스로 설명하는 내용이 확실하지 않습니다.

어쩌면 나는 당신의 질문을 너무 많이 읽고 있지만, 어떤 예측 변수에 두 가지 순수한 종 사이에있는 하이브리드에 대한 값을 가지고 있는지 탐색하려면 예측 변수에 대한 값을 추정하는 모델을 더 잘 구축하는 것이 좋습니다 종과 잡종에게 직접. 변수가 서로 어떻게 관련되어 있는지 측정하려면 상관 관계 매트릭스를 작성하십시오. 이에 대한 깔끔한 시각화가 많이 있습니다.


입력 해 주셔서 감사합니다. 궁극적으로,이 분석에서 원하는 것은 다른 종과 비교하여 일부 종의 유사성을 정량적으로 측정하는 것입니다. 고대 하이브리드 화 제안). 이 연구 문제의 주요 요점은 그룹의 유전학을 조사하는 것이며,이 형태 학적 분석은 단순히 전체 생물학적 이야기에 추가 될 것입니다. 이 다차원 적 스케일링이 PCA와 유사한 시각화로 이어질까요?
JD

비슷한 시각화를 얻습니다. MDS의 아이디어 / 직관은 고차원 공간에서의 거리가 "대부분의 저 차원 공간과 동일합니다. 그런 다음 2D 평면을 플롯 할 수 있습니다. 그러나 어딘가에서 높은 차원의 공간에 대한 거리 측정치를 얻는 데 달려 있습니다.
Patrick
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.