숫자 데이터를 자연스럽게 형성되는 "브래킷"으로 그룹화하려면 어떻게해야합니까? (예 : 소득)


14

다음은 내가 달성하려는 것을 설명하지만 다른 문제 진술이 내 목표를 설명 할 수 있습니다.

하고 싶다

  1. 각 그룹 내 숫자의 분산이 너무 크지 않고 그룹 평균 간의 차이가 너무 작지 않은 그룹으로 다음 숫자를 나눕니다.

  2. 마지막에 얻은 분포를 "완벽한"분포와 비교하고 그것이 "완벽한"것과 얼마나 다른지보십시오.


레이맨의 목표 설명

소득 분포를 계산 하고 각 모집단이 속한 "소득층"을 결정 하려고합니다 . 소득층은 입력 데이터를 기반으로 자체 조정됩니다.

나의 목표는 궁극적으로 소득 괄호의 차이를 측정하거나 계산하는 것입니다. 나는 많은 괄호가있을 것이라고 가정하고, 각 계층이 얼마나 ""떨어져 있는지 "보고 싶다.

다음은 모집단 20의 표본 세트와 총 소득 3587의 시간별 소득 샘플입니다.

Population= 10                   pop=2   population=5              population =3
10, 11,13,14,14,14,14,14,15,20,  40,50  ,90,91,92,93,94      999,999,900 

수학 개념을 사용하여 특정 인구의 소득 분포와 같은 데이터를 그룹화, 정렬 및 분석하려면 어떻게해야합니까?

계산이 끝나면 완벽한 분배가 다음과 같이 보이는 계층 적 소득 분배를 결정하고 싶습니다.

(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279

아니면 이거:

(evenly distributed groups of people make the same per hour) 
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99   129 129 129   159 159 159   199 199 199  229 229 229  269 269 269 

질문

모집단을 분석하고 위에 나열된 마지막 두 모델 세트와 비교하여 얼마나 필요한지 알려주는 방식으로 차이를 측정해야하는 방법은 무엇입니까?


제안에 대한 @svidgen 감사 대신 Programmers.SE의 여기에 게시합니다
goodguys_activate

참고 :이 질문을 It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.
하면서이

나는라는 데이터를 비닝 ... 내가 원하는 것과 매우 비슷한 찾을 것으로 보인다 : msdn.microsoft.com/en-us/magazine/dn342876.aspx
goodguys_activate

예, 질문을 마이그레이션하십시오 (가능한 경우 의견에서 더 나은 설명을 포함하십시오).
goodguys_activate

소득 분포에 차이가 있는지 살펴보십시오. 운이 좋으면 괄호로 사용할 수있는 인공 피크를 찾을 수 있습니다. 이것은 아마도 저소득층에 비교적 효과적입니다.
Marc Claesen

답변:


18

단일 변수를 사용한 군집 분석은 값을 정렬 할 수있는 차원이있을 때마다 완벽하게 이해됩니다. 이것은 측정 스케일 , 시간 또는 공간 일 수 있습니다 .

측정 척도 에 대한 정렬 된 데이터가 주어지면 주파수 분포 내에서 상대적인 브레이크를 찾는 데 관심이있을 수 있습니다 (한 가지 용어로 안티 모드).

주의 사항 : 그러나 임의의 것으로 보이는 빈을 정의하는 것은 일반적으로 통계 과학의 여러 영역에서 널리 금지되어 있으며, 동일한 간격으로 빈을 비우는 것이 선호되고 선호되는 경우가 많으며 가능한 경우 비닝을 피하는 경우가 많습니다. . 이는 부분적으로 미각의 문제이며, 일부는 관습 중 하나입니다. 데이터 세트를 전체적으로 저장하기가 더 쉬워지면서 관행이 바뀌 었습니다.

시간 시리즈는 주문, 신 (新) 시대, 기간으로 나눌 수있다 이상적으로 하위 회의에서 상대적으로 작은 차이와 하위 회의 사이의 비교적 큰 차이 무엇이든. 단일 공간 차원 (수평 또는 수직)이 세분 될 때마다 공간에 대해 동일한 문제가 발생합니다 . 지질학 및 기타 과학에서, 이것은 종종 구역화 제목 아래에서 연구됩니다.

공식적인 군집은 항상 데이터의 적절한 도표 (예를 들어, 점 또는 Quantile 또는 선 도표를 사용)를 수반해야하며, 실제로는 공식적인 군집이 단순히 장식 적이라는 점을 분명히 알 수 있습니다. 설득력있는 휴식은 존재하지 않으므로 공식적인 클러스터링은 무의미 할 수 있습니다.

크기별로 정렬 된 값의 장난감 예제를 고려하십시오.

    14 15 16 23 24 25 56 57 58 

3 그룹 클러스터링이 분명한 곳

    14 15 16 | 23 24 25 | 56 57 58 

케이케이1케이1=21(1케이1)케이21

주어진 그룹 수에 대해 마커를 최소화하여 문제를 정확하게 만들 수 있습니다 (Fisher 1958; Hartigan 1975).

그룹 센터 주변의 변동 그룹에 대한 합.

그룹 평균에서 제곱 된 편차의 합이 가장 명백한 가능성으로 떠오를 것입니다. 그룹 중앙값과 다른 측정 값으로부터의 절대 편차의 합이 재미있을 수 있습니다.

Hartigan (1975)은 동적 프로그래밍 접근법이 어떻게 이러한 계산을 간단하게 수행하고 Fortran 코드를 제시했는지 보여주었습니다. Stata 구현 (Cox 2007)은 group1dSSC에서 설치됩니다.

Cox, NJ 2007. GROUP1D : 한 차원에서 그룹화 또는 클러스터링하기위한 Stata 모듈. http://ideas.repec.org/c/boc/bocode/s456844.html

Fisher, WD 1958. 최대 동질성을위한 그룹화. 저널, 미국 통계 협회 53 : 789-98.

Hartigan, JA 1975. 클러스터링 알고리즘. 뉴욕 : 존 와일리. 6 장.

Postscript 이 접근법은 특정 질문의 첫 부분과 일치하는 것 같습니다. 나는 공식이 일반적인 관심사라고 생각하기 때문에 (그리고 Cox 2007 문서의 일부를 재활용하는 것이 쉬웠 기 때문에) 일반적으로 투구했다. 그러나 특정 목표가 소득 분포를 참조 균일 분포와 비교하는 것이라면 비닝이 전혀 역할을하지 않는다는 것을 알 수 없습니다. 이는 Lorenz 곡선과 불평등 척도가 시작점 인 경제학의 표준 문제입니다. 본질적으로 Quantile 대 Quantile 또는 Percent Point to Percent Point를 비교할 수 있습니다.


1

Jenks Natural Break를 살펴보십시오.

https://en.wikipedia.org/wiki/Jenks_natural_breaks_optimization

나는 그것이 당신이 필요한 것이라고 생각하고 많은 언어로 구현이 있습니다.


5
이것이 명백하지는 않지만, 이것은 "그룹 수단과의 제곱 편차의 합이 가장 명백한 가능성으로 떠오를 것"이라고 Nick Cox의 제안입니다. 그는 부분적으로 그보다 더 일반적이었습니다 (소득으로 인해 이것은 좋지 않은 해결책이 될 것입니다. 일반적으로 로그 소득 측면에서 계산을 수행하는 것이 좋습니다.
whuber
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.