2D 정사각형에서 점 분포의 균일 성을 측정


11

2D 사각형이 있고 그 안에 1000 점과 같은 점이 있습니다. 정사각형 내부의 점 분포가 넓게 분포되어 있는지 (또는 다소 균일하게 분포되어 있는지) 정사각형 내부의 일부 지점에서 함께 모이는 경향이 있는지 확인할 방법이 필요합니다.

이것을 결정하기 위해 수학 / 통계 (프로그래밍이 아닌) 방법이 필요합니다. 나는 구글 검색, 적합도, Kolmogorov 등과 같은 것을 발견했으며, 이것을 달성하기위한 다른 접근법이 있는지 궁금합니다. 학급 논문에 필요합니다.

입력 : 2D 정사각형 및 1000 포인트. 출력 : 예 / 아니오


1
"균일하게 분배 된"내용을 정확하게 설명하지 않았습니다. 균일하게 바둑판 식으로 배열 된 2D 균일 큐브 또는 다른 것을 의미합니까? 예를 들어, 균일 한 간격의 점 체인? 또는 점의 원? 어떤 의미에서는이 수치들도 균일 한 스프레드입니다.
ttnphns

3
@ttnphns 이러한 맥락에서, "균일 한"은 잘 알려진 기존의 의미를 가지고 있습니다. 일정한 강도의 포아송 프로세스에 해당합니다. 공간적으로 랜덤 한 "CSR"이라고도 합니다.
whuber

2
@Van "공간 점 프로세스"를 연구하려고합니다. 좋은 키워드로는 "Ripley K function", "CSR"및 "Poisson"이 있습니다. 접근 가능한 참고 문헌은 지리 정보 분석 O'Sullivan & Unwin 입니다. 고전은 Ripley, Spatial Statistics입니다 . 포인트 프로세스에 중점을 둡니다. 애플리케이션의 경우 CrimeStat을 간단히 살펴 보십시오 . 에 익숙하다면 이 작업을위한 많은 도구R있습니다 .
whuber

답변:


5

chi = square 테스트에 대한 @John의 아이디어는 한 가지 방법이라고 생각합니다.

1000

그러나 다른 수의 세포가 다른 결론을 내릴 수 있습니다.

또 다른 가능성은 점 사이의 평균 거리를 계산 한 다음이를 해당 평균의 시뮬레이션 결과와 비교하는 것입니다. 그것은 임의의 수의 셀의 문제를 피합니다.

편집 (평균 거리에 대한 추가 정보)

10009992

그런 다음 균일하게 분포 된 1000 개의 점으로 구성된 N (대수) 세트를 생성 할 수 있습니다. 이들 N 세트 각각은 또한 포인트 사이의 평균 거리를 갖는다.

실제 포인트에 대한 결과를 시뮬레이션 포인트와 비교하여 p- 값을 얻거나 해당 포인트가 떨어지는 위치를 확인하십시오.


1- 표본 카이-제곱 ( "계약 카이-제곱 테스트")이 합리적인 방법에 속한다는 데 동의합니다. 그러나 "평균 거리"제안에 대해 더 자세히 설명 할 수 있습니까? 나는 그것을 이해하지 못했습니다.
ttnphns

공간 분석에 사용되는 @ttnphns는 가장 가까운 이웃 테스트 (일명 Clark 및 Evans 테스트) 또는 Ripley 's K입니다. 예를 보려면 R 라이브러리 스팻 트랙 또는 CrimeStat 설명서 를 참조하십시오 . 시뮬레이션을 기반으로 한 또 다른 가능성은 "스캔"테스트이지만 평균 거리를 기반으로하지는 않습니다.
Andy W

3

또 다른 가능성은 카이-제곱 검정입니다. 정사각형을 동일한 크기의 겹치지 않는 패치로 나누고 균일 성 가설 하에서 패치에 떨어지는 점의 수를 예상 횟수와 비교하여 테스트하십시오 (패치에 대한 기대치는 모두 같은 크기 인 경우 total_points / total_patches입니다) 카이 제곱 테스트를 적용합니다. 1000 포인트의 경우 9 패치이면 충분하지만 데이터의 모양에 따라 더 세분성을 사용하려고 할 수 있습니다.


1
나는 당신이 무언가에 있다고 생각하지만 각 셀의 실제 카운트를 동일한 셀의 예상 카운트와 비교하는 것이 바람직한 카이 제곱의 장점이라고 생각합니다. 우연성 테스트를 사용하면 행이 열에 의존하는 경우에만 셀간에 균일 한 분포가 있는지 테스트하지 않습니다.
John

또한 카이 제곱 검정은 선택한 셀에서 균일하지 않은 경우에만 알려줍니다. 그들이 균일한지 알려주지 않습니다.
John

예, 균일성에 대한 귀무 가설 하에서 예상 카운트에 대한 카운트를 의미했습니다. 명확하지 않으면 사과드립니다. 당신은 처음에 무슨 일이 일어나고 있는지 이해하는 데 도움이되는 표로 시각화 할 수 있습니다! 그리고 분명히 당신은 추상적 인 의미에서 균일 성이 아니라 선택한 세포에 대한 테스트로 제한됩니다
Ben Allison

@John, 일반적으로이 "분산 테스트"를 수행 할 때 일반적으로 양면 테스트를 수행합니다. 패턴이 우연히 예상보다 더 균일한지 확인하려면 카이 제곱 검정이 분포의 왼쪽 꼬리에 있는지 확인하십시오 (원하는 컷오프에서).
Andy W

앤디,이 양측 적합도 검정을 자세히 설명하는 답변을 제공해야합니다. 일반적으로 양면 테스트는 null에 대한 두 가지 대안을 테스트하지만 여전히 null을 보여줄 수는 없습니다. 당신의 제안은 흥미 롭습니다.
John

1

Kolmogorov-Smirnov 테스트를 사용하지 않으시겠습니까? 특히 샘플 크기가 전력 부족을 보상 할만큼 충분히 크다는 점을 고려하면 제가하는 것입니다.

또는 일부 시뮬레이션을 수행 할 수도 있습니다. 그것은 엄격하지는 않지만 데이터가 균일하게 분포되어 있는지에 대한 증거를 제공합니다.


@whuber KS의 2 차원 확장은 잘 알려져 있습니다 ( 여기 참조 ). 이 경우, 우리는이 1000 개의 드로우 (좌표 (x, y))가 2 차원 적으로 균일 한 분포에서 도출 될 수 있는지를 조사하고 있습니다. @John 나는 나 자신을 서투르게 표현했을지도 모른다 (수학이나 영어도 나의 첫 언어는 아니다). 필자가 의미하는 바는 정확한 p- 값은 KS와 같은 테스트를 사용하여 계산할 수있는 반면 p- 값 (또는 그에 상응하는 것)은 시뮬레이션을 수행 할 때 무증상으로 만 나타납니다.


왜 시뮬레이션이 엄격하지 않습니까?
John

1
연속 랜덤 변수의 iid 결과로 가정되는 실수 세트에 대한 KS 테스트가이 공간 데이터 세트에 어떻게 적용되는지 설명 할 수 있습니까?
whuber

@ whuber 귀하의 답변에 대한 답변을 제공하고 제공하기 위해 답변을 편집했습니다. 베스트.
abaumann

@ 존 나는 내가 의미하는 바를 설명하려고 노력했다. 베스트.
abaumann
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.