기차 도착 시간에 대한 일부 데이터를 모델링하려고합니다. "기다리는 시간이 길수록 열차가 나타날 가능성이 높다"는 내용 의 배포판을 사용하고 싶습니다 . P (train show up | 60 분 기다림)가 1에 가까워 지도록 그러한 분포가 CDF처럼 보일 것 같습니다. 여기서 사용하기에 적합한 분포는 무엇입니까?
기차 도착 시간에 대한 일부 데이터를 모델링하려고합니다. "기다리는 시간이 길수록 열차가 나타날 가능성이 높다"는 내용 의 배포판을 사용하고 싶습니다 . P (train show up | 60 분 기다림)가 1에 가까워 지도록 그러한 분포가 CDF처럼 보일 것 같습니다. 여기서 사용하기에 적합한 분포는 무엇입니까?
답변:
t 와 t + d t (대기 시간) 사이의 시간에 처음 도착할 확률 은
후자의 용어는 다음과 관련이 있습니다.
또는
기부:
대기 시간에 대한 확률 분포는 다음과 같습니다.
또는 시간이 t 인 조건부 에서 하나 미만의 도착 확률에 대한 표현식을 사용할 수 있습니다.
시간 와 사이에 도달 할 확률 은 도함수와 같습니다.
이러한 접근법 / 방법은 예를 들어 포아송 프로세스에서 n 번째 도착을위한 대기 시간으로서 감마 분포를 도출하는데 유용하다. ( 포아송 프로세스 시간-감마-분포 대기 시간 )
이것을 대기 역설과 관련시킬 수 있습니다 (대기 역설을 설명하십시오 ).
지수 분포 : 도착이 포아송 프로세스와 같이 임의 인 경우 는 일정합니다. 다음 도착 확률은 도착하지 않은 이전 대기 시간과 무관합니다 (예를 들어 6없이 공정한 주사위를 여러 번 굴리면 다음 롤의 경우 갑자기 6에 대한 확률이 더 높지 않습니다. 도박꾼의 오류를 참조하십시오 ) . 지수 분포를 얻게되고 대기 시간에 대한 pdf는 다음과 같습니다.
따라서 두 번째 경우입니다. "그러면 누군가가 이미 일정 시간 동안 기다렸을 때 도착 확률이 높아지고 있습니다"는 귀하의 질문과 관련이 있습니다.
상황에 따라 약간의 조정이 필요할 수 있습니다. 더 많은 정보 를 가지고 기차가 특정 순간에 도착할 확률 는 더 복잡한 기능 일 수 있습니다.
대기 시간을 모델링하기위한 고전적인 분포는 지수 분포 입니다.
지수 분포는 균일 한 포아송 프로세스에서 도착 간 시간의 길이를 설명 할 때 자연스럽게 발생합니다.