이것이 내가 알고있는 유일한 것이기 때문에 R 시뮬레이션에 대한 당신의 요점에 대답 할 것입니다. R에는 시뮬레이션 할 수있는 많은 기본 분포가 있습니다. 명명의 논리는 이름이라는 분포를 시뮬레이트한다는 dis
것입니다 rdis
.
아래는 내가 가장 자주 사용하는 것입니다
# Some continuous distributions.
?rnorm
?runif
?rgamma
?rlnorm
?rweibull
?rexp
?rt
# Some discrete distributions.
?rpoiss
?rbinom
?rnbinom
?rgeom
?rhyper
R의 피팅 분포 에서 일부 보완을 찾을 수 있습니다 .
추가 : 포괄적 인 배포 목록과 해당 패키지 가 포함 된 링크 를 제공 한 @jthetzel에게 감사 합니다.
그러나 더 많은 것이 있습니다 : 좋아, @whuber의 의견에 따라 다른 요점을 다루려고 노력할 것입니다. 포인트 1과 관련하여, 나는 적합도 접근법을 절대로 가지 않습니다. 대신 나는 항상 신호의 기원에 대해 생각합니다. 현상의 원인과 같이 신호를 생성하는 데 자연적인 대칭이 있는지 등 이 있습니다 . 이를 다루기 위해 여러 장의 장이 필요하므로 두 가지 예를 들겠습니다.
데이터가 카운트이고 상한이 없으면 포아송을 시도합니다. 푸 아송 변수는 매우 일반적인 프레임 워크 인 시간 창에서 독립적 인 연속 횟수로 해석 될 수 있습니다. 분포를 맞추고 분산이 잘 설명되어 있는지 (종종 시각적으로) 확인합니다. 종종 표본의 분산이 훨씬 높기 때문에 음수 이항 법을 사용합니다. 음 이항은 다른 변수를 가진 포아송의 혼합으로 해석 될 수 있는데, 이는 더욱 일반적이므로 샘플에 매우 적합합니다.
데이터가 평균에 대해 대칭 적이라고 생각합니다. 즉 편차가 양수 또는 음수 일 가능성이 높다고 생각되면 가우시안에 적합하려고합니다. 그런 다음 이상 치가 많이 있는지 ( 즉 , 시각적으로) 평균과 매우 멀리 떨어진 데이터 포인트를 확인합니다. 있다면 학생의 t를 대신 사용합니다. 스튜던트 t 분포는 다른 분산을 갖는 가우스 혼합으로 해석 될 수 있으며, 이는 다시 매우 일반적입니다.
이 예제에서 시각적으로 말할 때 QQ 플롯을 사용한다는 의미입니다.
포인트 3은 또한 여러 책의 장을 가질 가치가 있습니다. 다른 배포판 대신 배포판을 사용하는 효과는 무한합니다. 따라서 모든 과정을 거치지 않고 위의 두 가지 예를 계속하겠습니다.
초기에는 부정적인 이항식이 의미있는 해석을 할 수 있다는 것을 몰랐으므로 Poisson을 항상 사용했습니다 (인간적으로 매개 변수를 해석 할 수 있기 때문에). 종종 포아송을 사용할 때 평균에 잘 맞지만 분산을 과소 평가합니다. 즉, 극단 값을 재현 할 수 없으며 실제로는 아니지만 특이 값 (다른 점과 동일한 분포를 갖지 않는 데이터 점)과 같은 값을 고려하게됩니다.
다시 초기에, 나는 Student 's가 또한 의미있는 해석을 가지고 있다는 것을 몰랐고 나는 항상 Gaussian을 사용할 것입니다. 비슷한 일이 일어났다. 나는 평균과 분산에 잘 맞을 것이지만, 거의 모든 데이터 포인트가 평균의 3 표준 편차 내에 있어야하기 때문에 여전히 특이 치를 포착하지 않습니다. 같은 일이 일어 났는데, 실제로는 그렇지 않았지만 일부 요점은 "특별"한 결론을 내 렸습니다.