국가 유형을 식별하는 데이터 축소 기술


11

나는 입문 경제 지리 과정을 가르칩니다. 학생들이 현대 세계 경제에서 발견되는 국가의 종류에 대한 이해와 데이터 축소 기술에 대한 이해를 높이기 위해 다른 종류의 국가 (예 : 고소득 고소득층)의 유형학을 생성하는 과제를 구성하고 싶습니다. 부가 가치는 장수명 기대, 고소득 천연 자원 수출 중반 고수 명 기대, 독일은 첫 번째 유형의 요소, 예멘은 두 번째 유형의 예). 이것은 공개적으로 사용 가능한 UNDP 데이터를 사용할 것입니다 (200 개국 미만의 사회 경제적 데이터가 올바르게 기억되면 지역 데이터를 사용할 수 없습니다).

이 과제 이전에는 동일한 변수들 사이의 상관 관계를 조사하기 위해 (동일한 간격 또는 비율 수준 --- 데이터를 사용하여) 요청하는 또 다른 방법이 있습니다.

나는 그들이 서로 다른 변수들 사이의 관계에 대한 직관을 발전시키기를 희망한다 (예를 들어, 기대 수명과 부의 다양한 지표 사이의 긍정적 인 관계, 부와 수출 다양성 사이의 긍정적 인 관계). 그런 다음 데이터 축소 기술을 사용할 때 구성 요소 또는 요소는 직관적으로 이해됩니다 (예 : 요소 / 구성 요소 1은 부의 중요성을 포착하고 요소 / 구성 요소 2는 교육의 중요성을 포착 함).

이들은 일반적으로 분석적 사고에 더 일반적으로 제한적으로 노출되는 2 학년에서 4 학년 학생들이라는 것을 고려할 때, 두 번째 과제에 가장 적합한 단일 데이터 축소 기술을 제안 할 것입니까? 이들은 모집단 데이터이므로 추론 통계 (p-vlaues 등)는 실제로 필요하지 않습니다.

답변:


10

탐색 적 방법으로서, PCA는이 IMO와 같은 과제에 우선적으로 적합합니다. 그들에게 노출되는 것도 좋을 것입니다. 많은 사람들이 이전에 주요 구성 요소를 보지 못했을 것 같습니다.

데이터 측면에서 http://data.worldbank.org/indicator 라는 세계 은행 지표 (World Bank Indicators)를 소개 합니다.


5

JMS에 동의하며 PCA는 각 카운티의 변수 사이의 초기 상관 관계 및 산점도를 검토 한 후 좋은 생각처럼 보입니다. 이 스레드 에는 비 수학적 용어로 PCA를 도입하는 데 유용한 제안이 있습니다.

또한 작은 다중 맵을 사용하여 각 변수의 공간 분포를 시각화하는 것이 좋습니다 ( gis.se 사이트 에는 이 질문 에 대한 좋은 예가 있습니다). 나는 비교할 영역 단위 수가 제한되어 있고 좋은 색 구성표를 사용하는 경우 ( 예 : Andrew Gelman의 블로그의 와 같이) 특히 효과적이라고 생각합니다 .

불행히도 필자가 생각하는 "세계 국가"데이터 세트의 특성상 종종 희소 데이터 (예 : 많은 국가가 누락 됨)가 발생하여 지리적 시각화가 어려워집니다. 그러나 이러한 시각화 기술은 다른 상황에서도 강의에 유용합니다.


+1, 좋은 참고 자료. 변수의 맵과 PCA 점수의 맵을 비교하는 것도 흥미로울 수 있습니다.
JMS

비 수학적 용어로 PCA 도입에 대한 링크는 PCA와 요인 분석의 미묘한 차이에 대한 느낌을 얻는 데 도움이 되었기 때문에 유용했습니다. 변수의 공간 분포를 시각화하는 것에 대해 생각하지 않았기 때문에 GIS / 매핑 제안도 매우 유용합니다. 이 학생들은 저의 모든 저서가 아닌 방식으로 세계 경제의 기본 구조를 파악하는 데 도움이 될 것입니다.
rabidotter

1
좋은 음모는 종종 blah blah blah를 이겼습니다 :)
JMS

4

빠른 추가 참고 사항 : 위의 기술 중 어느 것을 사용하든 변수 분포를 먼저 확인해야합니다. 변수의 대부분은 로그를 사용하여 먼저 변수를 변환해야하기 때문입니다. 그렇게하면 원래 변수를 사용하는 것보다 훨씬 나은 관계가 드러날 것입니다.


3
+1 일반적으로 이와 같은 답변은 의견으로 게시되어야하지만, 모든 강조에서 혜택을 받을 수있는 조언이 매우 중요합니다. 변수가 적절히 재 발현 될 때까지 PCA 결과는 특히 정보가 없을 것입니다.
whuber

2

PCA의 대안으로 CUR 분해를 사용할 수 있습니다. CUR 분해에 대해서는 [1] 또는 [2]를 참조하십시오. CUR 분해에서 C는 선택된 열을 나타내고 R은 선택된 행을 나타내고 U는 연결 행렬입니다. [1]에 주어진 CUR decompsosition의 직관을 바꾸어 말하겠습니다.

나는V나는

[(1/2)age − (1/ √2)height + (1/2)income]

사람들의 특징의 데이터 세트에서 중요한 상관 관계가없는 "인자"또는 "기능"중 하나가되는 것은 특별히 유익하거나 의미가 없습니다.

CUR의 좋은 점은 기본 열이 실제 열 (또는 행)이며 PCA (절정 된 SVD를 사용)와 달리 해석하는 것이 더 낫다는 것입니다.

[1]에 제공된 알고리즘은 구현하기 쉽고 오류 임계 값을 변경하여 다른 수의 염기를 얻을 수 있습니다.

[1] MW Mahoney와 P. Drineas,“데이터 분석을 개선하기위한 CUR 매트릭스 분해.”미국 국립 과학원 논문집, vol. 106, 2009 년 1 월, 697-702 쪽.

[2] J. Sun, Y. Xie, H. Zhang, C. Faloutsos,“더 적은 것 : 큰 희소 그래프를위한 소형 매트릭스 분해” . 366.


2

목표에 따라 그룹의 레지스트리 분류는 일부 클러스터링 방법으로 가장 잘 수행 될 수 있습니다. 상대적으로 적은 수의 경우 계층 적 클러스터링은 일반적으로 적어도 탐색 단계에서 가장 적합하지만 더 세련된 솔루션의 경우 K- 평균과 같은 반복 프로세스를 볼 수 있습니다. 사용중인 소프트웨어에 따르면 SPSS에있는 프로세스를 사용할 수도 있지만 2 단계 클러스터링이라고하는 곳은 모르겠지만 불투명하지만 빠르며 좋은 결과를 얻는 것으로 보입니다.

군집 분석은 그룹 간 분산을 최대화하면서 그룹 간 분산을 최대화하는 분류 솔루션을 생성합니다. 또한 해석하기 쉬운 결과를 얻을 수도 있습니다.



1

다른 옵션은 자체 구성 맵 (SOM)을 사용하는 것입니다. 학생들이 어떤 소프트웨어를 사용할지 알고 있습니까? 예를 들어 R에는 몇 가지 SOM 구현이 있습니다. 그러나 SOM은 "구성 요소 요소가 직관적으로 이해가되는지"테스트에 실패 할 수 있습니다. (PCA에서도 반드시 그런 것은 아닙니다 ...)


응답이 지연되어 죄송합니다. 학생들은 위에서 언급 한 좀 더 전통적인 데이터 축소 기술이있는 Minitab 16을 사용합니다. 자율지도를 살펴볼 것이지만, 2 학년 학부 과정에서 수강하는 학생들에게 적합한 지 의심 스럽습니다.
rabidotter
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.