최소, 평균 및 최대 분포 계산


10

10, 20 및 25와 같은 일부 데이터 세트의 최소, 평균 및 최대가 있다고 가정합니다.

  1. 이 데이터로부터 분포를 만들고

  2. 인구의 몇 퍼센트가 평균보다 높거나 낮은 지 알 수 있습니다

편집하다:

Glen의 제안에 따라 표본 크기가 200이라고 가정합니다.


(1) 많은 솔루션이 있기 때문에 쉽습니다. (2) 분포 형태에 대한 몇 가지 가정의 맥락에서 가장 잘 수행됩니다.
whuber

3
당신은 지금까지 코멘트와 답변에서 문자 그대로 여기에 왔지만 필요한주의 (@whuber의 말에서 암묵적이라고 생각합니다)는 그러한 정보와 호환되는 분포가 너무 많아서 충분한 정보를 가지고 있다고 추론해서는 안된다는 것입니다 이것을 잘 또는 확실하게하기 위해. 특히 표본 크기를 모른다면 불확실성에 대해 생각조차 할 수 없습니다.
Nick Cox

"평균보다 위 또는 아래에있는"모집단의 비율에 대해 질문 할 때 ... 샘플 평균 또는 모집단 평균과 관련하여 묻고 있습니까? 연속 또는 불연속 변수에 대해 이야기하고 있습니까? 샘플 크기를 알고 있습니까?
Glen_b-복지국 Monica

답변:


10

10, 20 및 25와 같은 일부 데이터 세트의 최소, 평균 및 최대가 있습니다.

이 데이터로부터 분포를 만들고

이러한 표본 수량과 일치하는 무한한 분포가 있습니다.

인구의 몇 퍼센트가 평균보다 높거나 낮은 지 알 수 있습니다

정당화되지 않은 일부 가정이 없을 경우, 일반적으로, 적어도 의미가있을 것이라는 의미는 아닙니다. 결과는 가정에 따라 크게 달라집니다 (값 자체에는 많은 정보가 없지만 일부 특정 배열은 유용한 정보를 제공하지만 아래 참조).

비율 질문에 대한 답변이 매우 다른 상황을 생각해내는 것은 어렵지 않습니다. 정보와 일치하는 답변이 매우 다른 경우 현재 상황을 어떻게 알 수 있습니까?

더 자세한 내용은 유용한 단서를 제공 할 수 있지만 (샘플 크기가 없어도 (종종 평균이 끝점 사이의 중간에 있지 않은 경우 2 또는 3 이상일 수는 있지만)) 그 질문에 대한 가치를 충분히 얻을 수있는 것은 아닙니다. . 당신은 한계를 극복하려고 시도 할 수 있지만, 많은 경우에 그들은 사물을 좁히지 않을 것입니다.

* 실제로 평균이 하나의 종점에 가까우면 표본 크기에 대한 하한을 얻을 수 있습니다. 예를 들어 최소 / 평균 / 최대 값이 10,20,25 대신 10 24 25 인 경우n15 세 이상이어야하며 인구의 대부분이 24 세 이상임을 암시합니다. 그 거에요 그러나 10,18,25라고 말하면 평균 이하의 비율을 제외하고 표본 크기가 무엇인지에 대한 유용한 아이디어를 얻는 것이 훨씬 어렵습니다.


2
@DJohnson 나는 그것이 쌍곡선이라고 생각하지 않습니다-그것은 문자 그대로 사실입니다 (실제로 그것들을 나열하는 능력은 실제로 수천 명 후에도 실패 할 수 있지만 계속 나열하는 능력이 수십 후에 실패 할 수도 있습니다, 그것은 의미하지 않습니다 우리가 수행 할 수있는 다른 가정은 없습니다). 내 구절에는 혼돈의 의도가 없었습니다. 실제로 가능한 가정 집합의 진정한 폭을 나타 내기 위해 의도적으로 선택되었습니다. 내가 무엇을 쓰길 원하십니까?
Glen_b-복지 주 모니카

3
1. 가능성을 최대 두 개의 매개 변수로 제한하는 이유는 무엇입니까? 예를 들어 데이터가 3 개의 매개 변수 로그 정규에서 추출 된 경우 어떻게됩니까? 많은 경우에 우리는 데이터로부터 모든 매개 변수를 추정 할 수는 없지만, 그것이 내가 동기를 부여하려는 문제의 일부입니다 (가정의 논의와 관련이 있습니다.) 2. Johnson과 Kotz는 사람들이 명명 한 분포의 일부입니다 나는 어떤 가정이 가능한지 에 대해 원격으로
묶지

4
ctd ... 나는 그들이 여기서 모두 배제되는 것은 아니라고 확신합니다. 지정되지 않은 매개 변수가 없어도 가능한 cdfs는 무한하며,이 정보의 비 제한적인 부분 집합은 지정된 정보에 의해 배제되지 않습니다.
Glen_b-복지 주 모니카

1
@Djohnson 남은 의견 차이가 어느 정도 있더라도 도움이되는 의견에 감사드립니다. 나는 내가 실제로 말하고있는 내용 (실제로 주장 할 수있는 증거는 가능하지만, 적어도 분명하게 진술 할 수는 있음)과 다르게 표현해야하는지 여부를 적어도 더 명확하게 표시 할 것인지 고려할 것입니다.
Glen_b-복지 주 모니카

4
@DJohnson 조건을 충족시키는 두 가지 분포를 취하십시오. 두 가지 혼합은 여전히 ​​상기 조건을 만족시킵니다. 그것은 문자 그대로 무한입니다. 열거 할 수없는 것입니다.
Elvis

8

Glen_b가 이미 언급했듯이 무한히 많은 가능성이 있습니다. 다음 그림을 살펴보면 최소, 최대 및 평균이 같은 8 개의 분포를 보여줍니다.

8 가지 분포

그것들은 서로 매우 다릅니다. 첫째, 균일하고, 삼각형 분포의 이중 모드 혼합물이며, 일곱 번째는 중심 주위에 가장 많은 확률 질량이 집중되어 있지만 여전히 최소와 최대는 매우 작은 확률로 가능합니다. .

그것들은 모두 당신의 기준을 충족시키기 때문에, 당신은 시뮬레이션을 위해 그중 하나를 사용할 수 있습니다. 그러나 주관적인 선택은 시뮬레이션의 결과에 매우 깊은 결과를 가져올 것입니다. 내가 말하고 싶은 것은 최소, 최대 및 평균이 실제로 분포에 대해 알고 있는 유일한 것이라면 실제 (알 수없는) 분포를 모방하려는 경우 시뮬레이션을 수행하기에 정보가 충분하지 않다는 것입니다.

그래서 당신은 무엇을 자신에게 필요 합니까 당신이 분배에 대해 알고 있습니까? 불 연속적입니까 아니면 연속적입니까? 대칭입니까? 유니모 달 또는 바이 모달? 고려해야 할 사항이 많이 있습니다. 연속적이고 불균일하고 단조롭고 최소, 최대 및 평균만을 알고 있다면 가능한 한 가지 선택은 삼각 분포 입니다. 실제로 어떤 것이 그러한 분포를 가질 가능성은 거의 없지만 최소한 간단한 것을 사용하고 있습니다. 모양에 대해 너무 많은 가정을 강요하지 않습니다.


삼각 분포를 가정하면 현재 정보와 함께 모드를 계산할 수 있습니다. 도움이 되겠습니까?
user132053

1
@ user132053에는 최소, 최대 및 평균 만 필요합니다. 삼각 분포의 평균은 (a + b + c) / 3입니다. 간단한 산술을 사용하여 모드에 대해 풀 수 있습니다.
Tim

4

표준 편차를 계산하기위한 다양한 기반 규칙 널리 통계적 문헌에 인용되어있다 (여기에서는 하나의 기준이다 ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). 기본적으로 (최대-분) / 4입니다. 추정치는 매우 거친 것으로 알려져 있습니다.

정규 분포 데이터 를 가정 하려는 정보와 의지를 감안할 때 , 평균과 범위 기반 표준 편차의 두 숫자에서 정규 편차를 생성 할 수 있습니다. 즉, 분포가 첫 번째 또는 두 번째 순간에 뿌리를 둔 한이 두 가지 정보에서 하나 또는 두 개의 매개 변수 분포를 생성 할 수 있습니다.

SD / 평균의 비율을 취함으로써 대략적인 변동 계수가 생성 될 수도있다. 이는 데이터의 단위가없는 가변성을위한 프록시를 제공합니다.

오차 는 모집단의 표본 분포를보다 적절하게 참조 하며 추정을 위해 표본 크기 n 의 설명이 필요합니다 . 귀하의 설명은이 세부 사항을 제공하지 않습니다.


3
(1) 평균은 잠재적으로 (max-min) / 4 규칙을 재정의해야하는 추가 정보를 제공합니다. (2) 세 가지 정보가 제공되므로 일반적으로 두 매개 변수 만 사용하면 유연성이 떨어집니다.
whuber

@whuber이 글타래에 대해 두 개의 암시적인 설명을했습니다. 좋은 점은 정교하게 설명하고 응답을 지정하는 것입니다.
Mike Hunter
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.