2D 정사각형에서 점 분포의 균일 성을 측정

2D 사각형이 있고 그 안에 1000 점과 같은 점이 있습니다. 정사각형 내부의 점 분포가 넓게 분포되어 있는지 (또는 다소 균일하게 분포되어 있는지) 정사각형 내부의 일부 지점에서 함께 모이는 경향이 있는지 확인할 방법이 필요합니다.

이것을 결정하기 위해 수학 / 통계 (프로그래밍이 아닌) 방법이 필요합니다. 나는 구글 검색, 적합도, Kolmogorov 등과 같은 것을 발견했으며, 이것을 달성하기위한 다른 접근법이 있는지 궁금합니다. 학급 논문에 필요합니다.

입력 : 2D 정사각형 및 1000 포인트. 출력 : 예 / 아니오

— 봉고차
소스

"균일하게 분배 된"내용을 정확하게 설명하지 않았습니다. 균일하게 바둑판 식으로 배열 된 2D 균일 큐브 또는 다른 것을 의미합니까? 예를 들어, 균일 한 간격의 점 체인? 또는 점의 원? 어떤 의미에서는이 수치들도 균일 한 스프레드입니다.

— ttnphns

@ttnphns 이러한 맥락에서, "균일 한"은 잘 알려진 기존의 의미를 가지고 있습니다. 일정한 강도의 포아송 프로세스에 해당합니다. 공간적으로 랜덤 한 "CSR"이라고도 합니다.

— whuber

@Van "공간 점 프로세스"를 연구하려고합니다. 좋은 키워드로는 "Ripley K function", "CSR"및 "Poisson"이 있습니다. 접근 가능한 참고 문헌은 지리 정보 분석 O'Sullivan & Unwin 입니다. 고전은 Ripley, Spatial Statistics입니다 . 포인트 프로세스에 중점을 둡니다. 애플리케이션의 경우 CrimeStat을 간단히 살펴 보십시오 . 에 익숙하다면 이 작업을위한 많은 도구R 가 있습니다 .

— whuber

답변:

chi = square 테스트에 대한 @John의 아이디어는 한 가지 방법이라고 생각합니다.

$\frac{1000}{N}$

그러나 다른 수의 세포가 다른 결론을 내릴 수 있습니다.

또 다른 가능성은 점 사이의 평균 거리를 계산 한 다음이를 해당 평균의 시뮬레이션 결과와 비교하는 것입니다. 그것은 임의의 수의 셀의 문제를 피합니다.

편집 (평균 거리에 대한 추가 정보)

$\frac{1000*999}{2}$

그런 다음 균일하게 분포 된 1000 개의 점으로 구성된 N (대수) 세트를 생성 할 수 있습니다. 이들 N 세트 각각은 또한 포인트 사이의 평균 거리를 갖는다.

실제 포인트에 대한 결과를 시뮬레이션 포인트와 비교하여 p- 값을 얻거나 해당 포인트가 떨어지는 위치를 확인하십시오.

— 피터 플 로움
소스

1- 표본 카이-제곱 ( "계약 카이-제곱 테스트")이 합리적인 방법에 속한다는 데 동의합니다. 그러나 "평균 거리"제안에 대해 더 자세히 설명 할 수 있습니까? 나는 그것을 이해하지 못했습니다.

— ttnphns

공간 분석에 사용되는 @ttnphns는 가장 가까운 이웃 테스트 (일명 Clark 및 Evans 테스트) 또는 Ripley 's K입니다. 예를 보려면 R 라이브러리 스팻 트랙 또는 CrimeStat 설명서 를 참조하십시오 . 시뮬레이션을 기반으로 한 또 다른 가능성은 "스캔"테스트이지만 평균 거리를 기반으로하지는 않습니다.

— Andy W

또 다른 가능성은 카이-제곱 검정입니다. 정사각형을 동일한 크기의 겹치지 않는 패치로 나누고 균일 성 가설 하에서 패치에 떨어지는 점의 수를 예상 횟수와 비교하여 테스트하십시오 (패치에 대한 기대치는 모두 같은 크기 인 경우 total_points / total_patches입니다) 카이 제곱 테스트를 적용합니다. 1000 포인트의 경우 9 패치이면 충분하지만 데이터의 모양에 따라 더 세분성을 사용하려고 할 수 있습니다.

— 벤 앨리슨
소스

나는 당신이 무언가에 있다고 생각하지만 각 셀의 실제 카운트를 동일한 셀의 예상 카운트와 비교하는 것이 바람직한 카이 제곱의 장점이라고 생각합니다. 우연성 테스트를 사용하면 행이 열에 의존하는 경우에만 셀간에 균일 한 분포가 있는지 테스트하지 않습니다.

— John

또한 카이 제곱 검정은 선택한 셀에서 균일하지 않은 경우에만 알려줍니다. 그들이 균일한지 알려주지 않습니다.

— John

예, 균일성에 대한 귀무 가설 하에서 예상 카운트에 대한 카운트를 의미했습니다. 명확하지 않으면 사과드립니다. 당신은 처음에 무슨 일이 일어나고 있는지 이해하는 데 도움이되는 표로 시각화 할 수 있습니다! 그리고 분명히 당신은 추상적 인 의미에서 균일 성이 아니라 선택한 세포에 대한 테스트로 제한됩니다

— Ben Allison

@John, 일반적으로이 "분산 테스트"를 수행 할 때 일반적으로 양면 테스트를 수행합니다. 패턴이 우연히 예상보다 더 균일한지 확인하려면 카이 제곱 검정이 분포의 왼쪽 꼬리에 있는지 확인하십시오 (원하는 컷오프에서).

— Andy W

앤디,이 양측 적합도 검정을 자세히 설명하는 답변을 제공해야합니다. 일반적으로 양면 테스트는 null에 대한 두 가지 대안을 테스트하지만 여전히 null을 보여줄 수는 없습니다. 당신의 제안은 흥미 롭습니다.

— John

Kolmogorov-Smirnov 테스트를 사용하지 않으시겠습니까? 특히 샘플 크기가 전력 부족을 보상 할만큼 충분히 크다는 점을 고려하면 제가하는 것입니다.

또는 일부 시뮬레이션을 수행 할 수도 있습니다. 그것은 엄격하지는 않지만 데이터가 균일하게 분포되어 있는지에 대한 증거를 제공합니다.

@whuber KS의 2 차원 확장은 잘 알려져 있습니다 ( 여기 참조 ). 이 경우, 우리는이 1000 개의 드로우 (좌표 (x, y))가 2 차원 적으로 균일 한 분포에서 도출 될 수 있는지를 조사하고 있습니다. @John 나는 나 자신을 서투르게 표현했을지도 모른다 (수학이나 영어도 나의 첫 언어는 아니다). 필자가 의미하는 바는 정확한 p- 값은 KS와 같은 테스트를 사용하여 계산할 수있는 반면 p- 값 (또는 그에 상응하는 것)은 시뮬레이션을 수행 할 때 무증상으로 만 나타납니다.

— 아 바우만
소스

왜 시뮬레이션이 엄격하지 않습니까?

— John

연속 랜덤 변수의 iid 결과로 가정되는 실수 세트에 대한 KS 테스트가이 공간 데이터 세트에 어떻게 적용되는지 설명 할 수 있습니까?

— whuber

@ whuber 귀하의 답변에 대한 답변을 제공하고 제공하기 위해 답변을 편집했습니다. 베스트.

— abaumann

@ 존 나는 내가 의미하는 바를 설명하려고 노력했다. 베스트.

— abaumann