mathoverflow에서 내 질문을 교차 게시 하여 통계 관련 도움말을 찾으십시오.
음수가 아닌 값으로 2 차원으로 훌륭하게 투영되는 데이터를 생성하는 물리적 프로세스를 연구하고 있습니다. 각 프로세스에는 - 포인트 의 (투영 된) 트랙이 있습니다 (아래 이미지 참조).
샘플 트랙은 파란색이며, 귀찮은 유형의 트랙은 녹색으로 손으로 그려졌으며 관심 영역은 빨간색으로 그려졌습니다.
각 트랙은 독립적 인 실험의 결과입니다. 몇 년 동안 2 천만 건의 실험이 이루어졌지만이 중 2 천 건만 우리가 추적 한 특징을 나타냅니다. 우리는 트랙을 생성하는 실험에만 관심이 있으므로 데이터 세트는 (대략) 이천 트랙입니다.
트랙이 관심 영역에 진입 할 수 있으며 트랙 중 순서 가 그렇게 될 것으로 예상합니다 . 그 숫자를 추정하는 것이 당면한 문제입니다.
임의의 트랙이 관심 영역에 진입 할 가능성을 어떻게 계산할 수 있습니까?
관심 지역에 진입하는 트랙이 얼마나 자주 생성되는지 확인할 수있을 정도로 신속하게 실험을 수행 할 수 없으므로 사용 가능한 데이터를 외삽해야합니다.
이 지정된 값 을 예로 녹색 트랙과 같은 데이터를 충분히 처리 할 수는 없습니다. 두 차원을 모두 포함하는 모델이 필요합니다.
각 트랙에서 관심 영역까지의 최소 거리를 맞췄지만 이것이 정당한 결과를 낳고 있다고 확신하지 못합니다.
1) 외삽을 위해이 유형의 데이터에 분포를 맞추는 알려진 방법이 있습니까?
-또는-
2)이 데이터를 사용하여 트랙을 생성하기위한 모델을 만드는 확실한 방법이 있습니까? 예를 들어, 트랙에서 주요 구성 요소 분석을 넓은 공간의 점으로 사용하고 해당 구성 요소에 투사 된 트랙에 분포 (Pearson?)를 맞 춥니 다.