서로 다른 유형의 이벤트 (2D 위치로 정의) 간의 관계를 찾는 방법은 무엇입니까?


9

같은 기간 동안 발생한 이벤트 데이터 세트가 있습니다. 각 이벤트에는 유형 (10 개 미만의 유형이 거의 없음)과 위치가 있으며 2D 포인트로 표시됩니다.

이벤트 유형 사이 또는 유형과 위치 사이에 상관 관계가 있는지 확인하고 싶습니다. 예를 들어, A 유형의 이벤트는 일반적으로 B 유형의 이벤트가 발생하는 경우 발생하지 않을 수 있습니다. 또는 일부 지역에서는 대부분 C 유형의 이벤트가 있습니다.

이를 수행하기 위해 어떤 도구를 사용할 수 있습니까? 통계 분석의 초보자이기 때문에 첫 번째 아이디어는이 데이터 세트에서 일종의 PCA (Principal Component Analysis)를 사용하여 각 유형의 이벤트에 자체 구성 요소가 있는지 또는 일부가 같은지 공유했는지 여부를 확인하는 것이 었습니다 (예 : 상관 관계)?

내 데이터 세트의 순서는 500,000 포인트입니다. (x,y,type)따라서 처리하기가 조금 더 어려워집니다.

편집 : 아래 답변과 의견에서 언급 했듯이이 워크샵 방법에 자세히 설명 된 대로이 방법을 표시 된 포인트 프로세스로 모델링 한 다음 R을 사용하여 모든 무거운 작업을 수행합니다 . /www.csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html


원격으로 감지 된 (처리 된) 이미지와 같은 래스터 데이터 집합입니까, 아니면 불규칙한 데이터 집합입니까?
whuber

주어진 한 달 동안 영국에서 일어난 범죄의 그것의 녹음, 여기 avaiable이다 : 글쎄, 난 당신이 불규칙한 호출 거라고 생각 police.uk/data .
Wookai

한 달에 영국에서 @Wookai 500,000,000 범죄 ?? 언론에 의해 보도되지 않은 영국 제도의 무정부 상태가 마침내 경찰서에 공개 될까? :-) 나는 그 양의 약 100 분의 1 정도만 믿을 수있었습니다.
whuber

와,이 "오타";) 정말 죄송합니다;)! 실제로 1000 배 적은 5 만 건의 범죄 ( "차량 범죄", 즉 고속 티켓 등).
Wookai

1
예, R은 갈 길을 찾습니다! 나는 R의 spatstat 모듈에 대한 워크샵에 대한 매우 완벽한 보고서를 찾았습니다. csiro.edu.au/resources/Spatial-Point-Patterns-in-R.html
Wookai

답변:


3

설명하는 데이터 유형은 일반적으로 "마킹 된 포인트 패턴"이라고하며, R은 이러한 유형의 분석에 적합한 여러 가지 패키지를 제공하는 공간 통계에 대한 작업보기를 가지고 있으며, 대부분은 사용자가 그런 종류의 엄청난 데이터를 처리 할 수 ​​없습니다. 있다 :(

예를 들어, A 유형의 이벤트는 일반적으로 B 유형의 이벤트가 발생하는 경우 발생하지 않을 수 있습니다. 또는 일부 지역에서는 대부분 C 유형의 이벤트가 있습니다.

다음은 상당히 다른 두 가지 유형의 질문입니다. 두 번째는 한 가지 유형의 마크 / 이벤트 위치를 묻습니다. 이러한 맥락에서 찾을 수있는 용어는 군집화 (종류의 이벤트가 함께 그룹화되는 경향이 있음) 또는 반발 (종류의 이벤트가 분리되는 경향이 있음) 패턴을 발견하려는 경우 fe 강도 추정 또는 K- 함수 추정입니다. 첫 번째는 다른 유형의 이벤트 간의 상관 관계에 대해 묻습니다. 이것은 일반적으로 마크 상관 함수로 측정됩니다.

더 다루기 쉬운 데이터 크기를 얻기 위해 데이터를 서브 샘플링하는 것은 위험하다고 생각하지만 (@hamner의 답글에 대한 주석 참조) 데이터를 집계 할 수 있습니다. 관찰 창을 같은 크기의 셀 수로 분할하고 이벤트 수를 마다. 그런 다음 각 셀은 중심 위치와 10 마크 유형에 대한 10- 벡터 카운트로 설명됩니다. 이 집계 된 프로세스에서 마크 포인트 프로세스에 표준 방법을 사용할 수 있어야합니다.


마크 포인트 프로세스 및 관련 이론 도구에 익숙합니다. 이전에 생각해 보았습니다. 키워드에 감사드립니다. 이것에 대한 몇 가지 조언이 있습니까? 집계 아이디어에 대해서도 감사합니다. 비슷한 아이디어가 있었 으므로이 작업을 시도합니다.
Wookai

2
Peter Diggle은 "모델 기반 지형 통계"를 작성했습니다. 또한이 페이지의 Lancashire 범죄 데이터에 대한 분석을 제공합니다 . lancs.ac.uk/staff/diggle/MADE 는 좋은 아이디어를 줄 수 있습니다.
fabians

1

먼저 데이터 세트의 크기입니다. 데이터 세트의 작고 다루기 쉬운 샘플을 무작위로 선택하거나 (N 데이터 포인트를 임의로 선택하거나 XY 평면에서 상대적으로 작은 사각형을 무작위로 선택하고 해당 평면 내에있는 모든 점을 가져옴)이 하위 집합에서 분석 기술을 연마하는 것이 좋습니다. 작동하는 분석 형식에 대한 아이디어가 있으면 데이터 세트의 더 큰 부분에 적용 할 수 있습니다.

PCA는 주로 차원 축소 기술로 사용됩니다. 귀하의 데이터 세트는 3 차원 (하나는 범주 형)이므로 여기에 적용되지 않을 것입니다.

Matlab 또는 R로 작업하여 XY 평면에서 분석중인 점 (또는 전체 데이터 세트로 작업하는 경우 상대 밀도)을 개별 유형과 모든 유형의 결합에 대해 시각화하고 어떤 패턴이 시각적으로 나타나는지 확인하십시오. 보다 엄격한 분석을 안내 할 수 있습니다.


1
이것이 적절한 지 여부는 데이터 생성 프로세스에 대해 이미 알고 있거나 가정 한 내용에 따라 다릅니다. 지역별로 데이터를 서브 샘플링하면 (예 : 미리 정의 된 작은 창에서 모든 포인트를 가져옴) 동질이 아닌 경우 (다른 창을 사용하면 결론이 바 would) 위험 할 수 있습니다. 트레이닝 세트에 대한 위치 지정과 관계없이 데이터를 샘플링하면 관찰 된 프로세스를 "감소"하는 효과가 있으며 마크 또는 클러스터링 / 반발 프로세스 간의 상관 범위에 대해 원하는 결론을 무효화합니다.
fabians

예, PCA가 차원 축소를위한 것임을 알고 있습니다. 이것이 PC에 데이터 세트를 적용하는 방법에 대해 혼란 스러웠던 이유입니다. 아이디어는 각 이벤트 유형에 고유 한 "방향"이 있는지 또는 일부가 "같은 방향"을 공유했는지 확인하는 것입니다. 그러나 나는 단순히 상관 관계를 생각하고 있다고 생각합니다.
Wookai
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.