다음은 내가 달성하려는 것을 설명하지만 다른 문제 진술이 내 목표를 설명 할 수 있습니다.
하고 싶다
각 그룹 내 숫자의 분산이 너무 크지 않고 그룹 평균 간의 차이가 너무 작지 않은 그룹으로 다음 숫자를 나눕니다.
마지막에 얻은 분포를 "완벽한"분포와 비교하고 그것이 "완벽한"것과 얼마나 다른지보십시오.
레이맨의 목표 설명
소득 분포를 계산 하고 각 모집단이 속한 "소득층"을 결정 하려고합니다 . 소득층은 입력 데이터를 기반으로 자체 조정됩니다.
나의 목표는 궁극적으로 소득 괄호의 차이를 측정하거나 계산하는 것입니다. 나는 많은 괄호가있을 것이라고 가정하고, 각 계층이 얼마나 ""떨어져 있는지 "보고 싶다.
다음은 모집단 20의 표본 세트와 총 소득 3587의 시간별 소득 샘플입니다.
Population= 10 pop=2 population=5 population =3
10, 11,13,14,14,14,14,14,15,20, 40,50 ,90,91,92,93,94 999,999,900
수학 개념을 사용하여 특정 인구의 소득 분포와 같은 데이터를 그룹화, 정렬 및 분석하려면 어떻게해야합니까?
계산이 끝나면 완벽한 분배가 다음과 같이 보이는 계층 적 소득 분배를 결정하고 싶습니다.
(each person makes $10 more per hour than the previous; total is 3587)
89, 99, 109, 119, 129, 139, 149, 159, 169, 179, 189, 199, 209, 219, 229, 239, 249, 259, 269, 279
아니면 이거:
(evenly distributed groups of people make the same per hour)
(gaps between income groups is consistent and not "too far")
(income total is 3587)
99 99 99 129 129 129 159 159 159 199 199 199 229 229 229 269 269 269
질문
모집단을 분석하고 위에 나열된 마지막 두 모델 세트와 비교하여 얼마나 필요한지 알려주는 방식으로 차이를 측정해야하는 방법은 무엇입니까?
It may seem you are interested in cluster analysis, but the problem with real-life distributions is they are nearly continuous, and hence the straightforward clusterization won't apply.