분포 시뮬레이션


9

Capacity Planning 과제를 진행 중이며 일부 책을 읽었습니다. 이것은 특히 분포에 관한 것입니다. 나는 R을 사용합니다.

  1. 내 데이터 배포가 무엇인지 식별하기 위해 권장되는 방법은 무엇입니까? 그것을 식별하는 통계적 방법이 있습니까?

이 다이어그램이 있습니다.

확률 론적 접근법 : 시나리오 분석, 결정 트리 및 시뮬레이션

  1. R을 사용하여 사용할 수있는 시뮬레이션 방법은 무엇입니까? 여기서 지수와 같은 특정 분포에 대한 데이터를 생성하고 싶습니다. Java와 통합하려는 경우 r-java가 올바른 접근 방법입니까?

  2. 특정 분포에 대한 데이터를 파이프 할 때 효과 (CPU 사용량 등)에 어떤 분포가 있을지 예측할 수있는 방법이 있습니까? 특정 데이터 배포를 전송하면 다른 효과는 무엇입니까?

이것을 초보자의 질문으로 고려하십시오. 이러한 유형의 시뮬레이션을 다루는 책이나 자료가 있습니까?

노트

이 다이어그램은 http://people.stern.nyu.edu/adamodar/pdfiles/papers/probabilistic.pdf 의 끝 부분에 있습니다.

내가 맞은 기술의 장점

적합도 평가

  1. 카이 제곱
  2. 콜 모고 로프-스 미르 노프,
  3. Anderson-Darling 통계 밀도, cdf, PP 및 QQ 플롯

분포가 정규 또는 지수 등인 경우 해석 또는 다음 단계가 무엇인지 잘 모르겠습니다. 어떻게해야합니까? 예측? 이 질문이 분명하기를 바랍니다.

지수 지연으로 Neil Gunther의 용량 계획 서적에 따라 대기열 변동이 발생할 수 있습니다. 한 점을 알고 있습니다.


다이어그램이 중요하다고 생각되면 사진의 품질을 향상 시키려고 노력해야합니다.
ocram

좋은 질문을하는데 관심을 가져 주셔서 감사합니다. 내 의견으로는 귀하의 요점 2 (3이어야합니다)가 명확해야하거나 스택 오버플로로 옮길 수도 있습니다.
gui11aume

1
내 마지막 질문은 여기에 속한다고 생각합니다. 내 데이터 배포를 식별한다고 가정 해 봅시다. 미래의 분포가이 확률을 따를 것이라고 예측합니까? 여기에 데이터 분석 부분이 없습니다. 상자 수염 그림은 내가 이해하는 사 분위수를 쉽게 보여줍니다. 배포판의 유틸리티를 얻지 못했습니다. 이 분포의 특성이 예측을 위해 조사해야 할 수도 있습니다.
Mohan Radhakrishnan 2016 년

@ocram 품질이 좋지 않으면 브라우저에서 페이지를 확대하십시오. 세부 정보가 있습니다. BTW, 이러한 이미지는 Crystal Ball 설명서 중 일부에서 가져와야 합니다.
whuber

@ whuber : 실제로, 나는 시도조차하지 않았다! 댓글 죄송합니다.
ocram

답변:


7

이것이 내가 알고있는 유일한 것이기 때문에 R 시뮬레이션에 대한 당신의 요점에 대답 할 것입니다. R에는 시뮬레이션 할 수있는 많은 기본 분포가 있습니다. 명명의 논리는 이름이라는 분포를 시뮬레이트한다는 dis것입니다 rdis.

아래는 내가 가장 자주 사용하는 것입니다

# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper

R의 피팅 분포 에서 일부 보완을 찾을 수 있습니다 .

추가 : 포괄적 인 배포 목록과 해당 패키지 가 포함 된 링크 를 제공 한 @jthetzel에게 감사 합니다.

그러나 더 많은 것이 있습니다 : 좋아, @whuber의 의견에 따라 다른 요점을 다루려고 노력할 것입니다. 포인트 1과 관련하여, 나는 적합도 접근법을 절대로 가지 않습니다. 대신 나는 항상 신호의 기원에 대해 생각합니다. 현상의 원인과 같이 신호를 생성하는 데 자연적인 대칭이 있는지 이 있습니다 . 이를 다루기 위해 여러 장의 장이 필요하므로 두 가지 예를 들겠습니다.

  1. 데이터가 카운트이고 상한이 없으면 포아송을 시도합니다. 푸 아송 변수는 매우 일반적인 프레임 워크 인 시간 창에서 독립적 인 연속 횟수로 해석 될 수 있습니다. 분포를 맞추고 분산이 잘 설명되어 있는지 (종종 시각적으로) 확인합니다. 종종 표본의 분산이 훨씬 높기 때문에 음수 이항 법을 사용합니다. 음 이항은 다른 변수를 가진 포아송의 혼합으로 해석 될 수 있는데, 이는 더욱 일반적이므로 샘플에 매우 적합합니다.

  2. 데이터가 평균에 대해 대칭 적이라고 생각합니다. 편차가 양수 또는 음수 일 가능성이 높다고 생각되면 가우시안에 적합하려고합니다. 그런 다음 이상 치가 많이 있는지 ( , 시각적으로) 평균과 매우 멀리 떨어진 데이터 포인트를 확인합니다. 있다면 학생의 t를 대신 사용합니다. 스튜던트 t 분포는 다른 분산을 갖는 가우스 혼합으로 해석 될 수 있으며, 이는 다시 매우 일반적입니다.

이 예제에서 시각적으로 말할 때 QQ 플롯을 사용한다는 의미입니다.

포인트 3은 또한 여러 책의 장을 가질 가치가 있습니다. 다른 배포판 대신 배포판을 사용하는 효과는 무한합니다. 따라서 모든 과정을 거치지 않고 위의 두 가지 예를 계속하겠습니다.

  1. 초기에는 부정적인 이항식이 의미있는 해석을 할 수 있다는 것을 몰랐으므로 Poisson을 항상 사용했습니다 (인간적으로 매개 변수를 해석 할 수 있기 때문에). 종종 포아송을 사용할 때 평균에 잘 맞지만 분산을 과소 평가합니다. 즉, 극단 값을 재현 할 수 없으며 실제로는 아니지만 특이 값 (다른 점과 동일한 분포를 갖지 않는 데이터 점)과 같은 값을 고려하게됩니다.

  2. 다시 초기에, 나는 Student 's가 또한 의미있는 해석을 가지고 있다는 것을 몰랐고 나는 항상 Gaussian을 사용할 것입니다. 비슷한 일이 일어났다. 나는 평균과 분산에 잘 맞을 것이지만, 거의 모든 데이터 포인트가 평균의 3 표준 편차 내에 있어야하기 때문에 여전히 특이 치를 포착하지 않습니다. 같은 일이 일어 났는데, 실제로는 그렇지 않았지만 일부 요점은 "특별"한 결론을 내 렸습니다.


2
예를 들어 R. 유통 관련 기능에 대한 "D, P, Q, R '구문있다로서, 주 gui11aume, 응답에 추가하는 dnorm, pnorm, qnormrnormCDF 역 밀도의 누적 분포 함수 (CDF)이며 정규 분포에 대한 랜덤 변량 생성기 함수. 사용 가능한 분포의 전체 목록은 확률 분포 작업보기 를 참조하십시오 .
jthetzel

그렇습니다. 대단히 감사합니다 (+1). 나는 그런 목록을 오랫동안 찾고있었습니다. 더 잘 보이도록 대답에 넣었습니다.
gui11aume

1
그 배포판의 3 분의 1이 무엇인지 말해 줄 수도 없었습니다. 배우기 훨씬 더 .... +1이지만 근본적인 질문 (나머지 너무 광범위 함)의 나머지 부분을 잊지 말자 : 분포의 선택이 시뮬레이션에 어떤 영향을 미치는가? 이러한 선택을 어떻게해야합니까?
whuber

@ whuber 큐 지연에 지연의 지수 분포가 미치는 영향을 추가했습니다. 보내다. CP 또는 대기열에 관한 책.
Mohan Radhakrishnan

R로 피팅 분포를 읽었으며 QQ 플롯을 한 번도 사용했습니다. 최대 우도 추정은 표본 데이터의 우도 함수로 알려진 수학적 표현으로 시작합니다. 느슨하게 말해서, 데이터 세트의 가능성은 선택된 확률 모델이 주어진 특정 데이터 세트를 얻을 확률입니다. 이것은 분포가 다시 발생할 수 있음을 계산하는 방법이 있다는 것을 의미합니까? 이를 증명하기 위해 몇 번의 측정이 필요합니까?
Mohan Radhakrishnan
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.