히스토그램으로 분포를 식별하는 데 도움이 필요합니다


13

특정 신호의 등록 된 진폭 최대 값의 샘플 모집단이 있습니다. 인구는 약 1,500 만 개의 샘플입니다. 인구의 히스토그램을 만들었지 만 그러한 히스토그램으로 분포를 추측 할 수는 없습니다.

EDIT1 : 원시 샘플 값이있는 파일은 다음과 같습니다 : 원시 데이터

다음 히스토그램으로 누구나 분포를 추정 할 수 있습니다. 여기에 이미지 설명을 입력하십시오


1
극적으로 중요하지는 않지만 히스토그램을 사용할 때는 일반적으로 y 축에서 절대 주파수 대신 상대 주파수를 유지하는 데 도움이됩니다.
posdef

즉, 세로 축에 120000 / 15000000 = 0.008 대신 120000을 제공하려면?
mbaitoff

@ mbaitoff : schenectady의 답변에 대한 귀하의 의견은 분포 이름을 얻는 데 관심이 없지만 값이 이런 방식으로 분포되는 이유를 찾는 데 관심이 있음을 나타냅니다. 이 올바른지 ?
steffen

1
@mbaitoff, 나는 그것이 당신의 응용에 아주 잘 맞지 않을 것이라고 확신하지만, 관련된 응용 분야에서 소스와 수신기 사이에 (다수의) 무작위 반사를 겪는 파도의 크기는 Rayleigh 분포 또는 라이스와 같은 일반화 중 하나에 의해 모델링됩니다 또는 Nakagami-가 분포. m
추기경

2
이 데이터에 대한 실제 관심은 수십 개 이상의 급증에 있습니다. 데이터의 양은 실제 로컬 모드의 증거라는 점에서 실제 데이터에 비해 충분히 큽니다 . 여기에는 분포를 요약하는 데 사용되는 간단한 파라 메트릭 공식이 간과 된 풍부한 정보가 포함 된 풍부한 데이터 세트가있는 것 같습니다.
whuber

답변:


23

fitdistrplus를 사용하십시오 :

fitdistrplus에 대한 CRAN 링크 는 다음과 같습니다 .

fitdistrplus 의 이전 비네팅 링크 는 다음과 같습니다 .

비 네트 링크가 작동하지 않으면 "라이브러리 fitdistrplus를 사용하여 데이터로부터 분포 지정"을 검색하십시오.

비 네트는 패키지 사용법을 잘 설명합니다. 단기간에 다양한 분포가 어떻게 적용되는지 볼 수 있습니다. Cullen / Frey Diagram도 생성합니다.

#Example from the vignette
library(fitdistrplus)
x1 <- c(6.4, 13.3, 4.1, 1.3, 14.1, 10.6, 9.9, 9.6, 15.3, 22.1, 13.4, 13.2, 8.4, 6.3, 8.9, 5.2, 10.9, 14.4)
plotdist(x1)
descdist(x1)

f1g <- fitdist(x1, "gamma")
plot(f1g)
summary(f1g)      

여기에 이미지 설명을 입력하십시오

여기에 이미지 설명을 입력하십시오


(+1) : 이전에 해당 패키지를 몰랐습니다.
steffen

1
(+1 (Cullen / Frey 다이어그램이라고 불렀습니다. 한 번에 직접
생각해보아야

두 번째 이미지는 plotdistcomamnd입니까? 컬린 / 프라이 다이어그램은 어떻게 구할 수 있습니까?
juanpablo

1
@juanpablo-시도하십시오 descdist(). 위의 게시물을 업데이트하여 일부 코드와 이전 비네팅에 대한 링크를 포함 시켰습니다. 위의 비 네트 링크가 작동하지 않습니다. 따라서 Google은 다음과 같이 말합니다. "라이브러리 fitdistrplus를 사용하여 데이터에서 분포를 지정합니다." .pdf 파일입니다.
bill_080

3
@juanpablo-이 문장 f1g <- fitdist(x1, "gamma")은 감마 분포를 원본 데이터에 맞추고에 x1저장합니다 f1g. 왼쪽 위의 그래프 plot(f1g)는 원본 데이터 x1에 대한 막대 그래프를 막대로 표시하고 감마 밀도 플롯을 f1g연속 선으로 표시합니다. "피트"가 데이터를 얼마나 잘 나타내는지를 나타내는 밀도 플롯 (연속 선)이 히스토그램에 그려집니다.
bill_080

6

인구는 약 1,500 만 개의 샘플입니다.

그런 다음 단순하고 닫힌 양식의 특정 배포를 거부 할 수 있습니다.

그래프 왼쪽의 작은 범프조차도 우리가 '분명히 그렇지 않다'고 말하기에 충분할 것입니다.

반면에, 그것은 많은 공통 분포에 의해 대략적으로 추정 될 것입니다. 명백한 후보는 대수 및 감마와 같은 것들이지만, 다른 많은 것들이 있습니다. 그것은 당신이 x 변수의 로그를보고, 아마도 로그 노멀이 눈에 보이는지 결정할 수 있습니다 (로그를 취한 후 히스토그램은 대칭으로 보일 것입니다).

로그가 비뚤어지면 감마가 괜찮은지, 오른쪽 비뚤어지면 역 감마 또는 더 가늘게 된 가우시안이 올바른지 고려하십시오. 그러나이 연습은 살기에 충분히 가까운 분포를 찾는 것 중 하나입니다. 이러한 제안 중 어느 것도 실제로 존재하는 것으로 보이는 모든 기능이 없습니다.

선택을 뒷받침 할 이론이 있다면, 이 모든 토론을 던져서 사용하십시오.


와우, 그 문제에 대해 어떤 직감이 있습니다. 좋은! :)
onurcanbektas 2016 년

1

왜 그런 표본 크기가 큰 특정 분포로 표본을 분류하려고하는지 잘 모르겠습니다. parsimony, 다른 샘플과 비교하여 매개 변수의 물리적 해석을 찾고 있습니까?

대부분의 통계 패키지 (R, SAS, Minitab)는 데이터가 특정 분포에서 나온 경우 직선을 생성하는 그래프에 데이터를 그릴 수 있습니다. 데이터가 정상 (로그 변환 후 로그 정규화), Weibull 및 카이 제곱이 즉시 나올 경우 직선을 산출하는 그래프를 보았습니다. 이 기술을 사용하면 특이 치를 볼 수 있으며 데이터 포인트가 특이 치인 이유를 지정할 수 있습니다. R에서 정규 확률도는 qqnorm이라고합니다.


qqplot을 제안하는 것이 좋습니다. 그러나 기술에 대한 귀하의 설명은 약간 모호하고 이해하기 어렵다고 생각합니다. 예시적인 R 코드를 제공 할 수 있습니까? 이것은 답변의 가치를 크게 증가시킬 것입니다.
steffen

나는 누군가가 내 것과 같은 그림을 만나고 그 값이 물리적 기반을 가지고 있기 때문에 기본 분포를 조사 할 것으로 기대합니다.
mbaitoff

샘플 분포의 물리적 배경-분포 방법 및 이유를 조사하고 있습니다.
mbaitoff
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.