공간 데이터에 적합한 분포

mathoverflow에서 내 질문을 교차 게시 하여 통계 관련 도움말을 찾으십시오.

음수가 아닌 값으로 2 차원으로 훌륭하게 투영되는 데이터를 생성하는 물리적 프로세스를 연구하고 있습니다. 각 프로세스에는 - 포인트 의 (투영 된) 트랙이 있습니다 (아래 이미지 참조). $x$ $y$

샘플 트랙은 파란색이며, 귀찮은 유형의 트랙은 녹색으로 손으로 그려졌으며 관심 영역은 빨간색으로 그려졌습니다. 트랙과 관심 영역

각 트랙은 독립적 인 실험의 결과입니다. 몇 년 동안 2 천만 건의 실험이 이루어졌지만이 중 2 천 건만 우리가 추적 한 특징을 나타냅니다. 우리는 트랙을 생성하는 실험에만 관심이 있으므로 데이터 세트는 (대략) 이천 트랙입니다.

트랙이 관심 영역에 진입 할 수 있으며 트랙 중 순서 가 그렇게 될 것으로 예상합니다 . 그 숫자를 추정하는 것이 당면한 문제입니다. $1$ $10^4$

임의의 트랙이 관심 영역에 진입 할 가능성을 어떻게 계산할 수 있습니까?

관심 지역에 진입하는 트랙이 얼마나 자주 생성되는지 확인할 수있을 정도로 신속하게 실험을 수행 할 수 없으므로 사용 가능한 데이터를 외삽해야합니다.

이 지정된 값 을 예로 녹색 트랙과 같은 데이터를 충분히 처리 할 수는 없습니다. 두 차원을 모두 포함하는 모델이 필요합니다. $x$ $y\ge200$

각 트랙에서 관심 영역까지의 최소 거리를 맞췄지만 이것이 정당한 결과를 낳고 있다고 확신하지 못합니다.

1) 외삽을 위해이 유형의 데이터에 분포를 맞추는 알려진 방법이 있습니까?

-또는-

2)이 데이터를 사용하여 트랙을 생성하기위한 모델을 만드는 확실한 방법이 있습니까? 예를 들어, 트랙에서 주요 구성 요소 분석을 넓은 공간의 점으로 사용하고 해당 구성 요소에 투사 된 트랙에 분포 (Pearson?)를 맞 춥니 다.

— 제프 스나이더
소스

특정 프로세스에 대한 추가 정보를 제공해서는 안되지만 데이터 수집 방법에 대해 질문을 업데이트합니다.

— Jeff Snider

보다 구체적으로 노력하고 언어를 업데이트했습니다. 우리가 열린 최상층 창문에 자갈을 던지고 있다고 상상해보십시오. 창문을 통과하는 자갈이 바닥에서 어떻게 튀어 오르는 지에 대해서만 신경을 씁니다. 우리는 수백만 개의 자갈을 던져서 약 2000 년이 창문을 통과했습니다. 조약돌이 창문을 통과 할 때 바닥에 걸쳐 진행 상황을 추적합니다. 조약돌이 창문을 통과 할 때, 우리는 그것이 관심 영역을 통과 할 가능성을 추정하려고합니다.

— Jeff Snider

트랙 형성을 시뮬레이션 한 다음 Monte Carlo 시뮬레이션을 수행하여 빨간색 영역에 몇 개의 트랙이 있는지 확인하는 것처럼 들립니다. 이를 위해 먼저 선을 두 트랙으로 변환합니다. 하나는 방향을 제공하고 다른 하나는 해당 트랙의 한 지점에서 다음 지점으로 거리를 지정합니다. 이제이 두 함수와 관련된 확률 분포를 연구 할 수 있습니다. 예를 들어, 이동 한 거리가 특정 분포를 따른다는 것을 알 수 있습니다 (시간에 따라 분포가 변하지 않도록주의하십시오). 변수가 시간이 지남에 따라 변경되면 시계열 분석을 탐구해야합니다 (내 분야가 아니라 죄송합니다).

염두에 두어야 할 또 다른 생각은 xy의 이동 방향이 대부분의 트랙에서 점진적으로 변경되므로 트랙의 방향과 시간의 변화를 더 잘 조사 할 수 있다는 것입니다.

또한 주어진 방향과 주어진 xy 좌표에서 트랙이 시작될 확률을 추정해야합니다. 커널 밀도 추정을 사용하여 결과 PDF를 스무딩하거나 분석 모델이있는 분포를 따르는 경우 해당 분포를 데이터에 맞추기 위해 기대 최대화를 사용할 수 있습니다.

그런 다음 Monte Carlo 시뮬레이션은 이러한 분포에서 무작위 샘플을 추출하여 트랙의 모양을 시뮬레이션합니다. 그런 다음 많은 수의 트랙을 시뮬레이션하고 해당 트랙이 빨간색 영역을 통과하는 빈도를 확인해야합니다. 이 트랙은 수천 또는 수백만 개의 트랙 일 수 있습니다. 트랙을 추가 할 때 배포가 변경되는 시점을 확인해야합니다.

— 칩피
소스