Excel의 사 분위수


10

나는 당신이 기본 통계에있을 때 일반적으로 사용되는 사 분위수의 정의에 관심이 있습니다. 나는 Stat 101 유형의 책을 가지고 있으며 직관적 인 정의를 제공합니다. "데이터의 1/4 정도가 1 사 분위수에 해당하거나 그 이하입니다 ..."그러나 데이터 세트에 대해 Q1, Q2 및 Q3을 계산하는 예를 제공합니다.

5, 7, 9, 10, 11, 13, 14, 15, 16, 17, 18, 18, 20, 21, 37

15 개의 데이터가 있기 때문에 15를 중앙값 Q2로 선택합니다. 그런 다음 나머지 데이터를 5-14 및 16-37의 두 반으로 나눕니다. 이들은 각각 7 개의 데이터를 포함하고 각 세트의 중앙값을 각각 Q1 및 Q3으로 찾습니다. 이것이 내가 직접 계산하는 방법입니다.

나는 Wikipedia의 기사를 보았고 두 가지 방법을 제공합니다. 하나는 위의 내용에 동의하며 두 세트 모두에 중앙값 15를 포함시킬 수도 있습니다 (그러나 짝수의 데이터 포인트의 경우 중간 값이 평균 인 경우 중앙값은 포함하지 않음). 이 모든 것이 나에게 의미가 있습니다.

그러나 Excel에서 계산 방법을 확인하기 위해 Excel을 확인했습니다. 3 가지 기능이있는 Excel 2010을 사용하고 있습니다. 사 분위수는 2007 및 이전 버전에서 사용할 수있었습니다. 그들은 2010 년에 이것을 사용하지 않기를 원하지만 여전히 사용할 수 있습니다. Quartile.Inc는 새롭지 만 내가 말할 수있는 한 정확하게 Quartile에 동의합니다. 그리고 Quartile.Exc도 있습니다. 지난 두 가지 모두 2010 년에 새로 나온 것 같습니다. 이번에는 방금 정수 1, 2, 3, ..., 10을 사용해 보았습니다. Excel에서 중앙값 5.5, Q1 3 및 Q3 8을 줄 것으로 기대합니다. 통계 책의 방법도 중앙값이 중간 두 숫자의 평균이기 때문에 Wikipedia의 두 가지 방법 모두 이러한 대답을 제공합니다. 엑셀 제공

quartile number, Quartile.Inc, Quartile.Exc
1,               3.25,         2.75 
2,               5.5,          5.5
3,               7.75,         8.25

이것들 중 어느 것도 내가 이전에 말한 것에 동의하지 않습니다.

Excel 도움말 파일의 설명은 다음과 같습니다.

Quartile.Inc-0..1의 백분위 수 값을 기준으로 데이터 세트의 사 분위수를 반환합니다.

Quartile.Exc-배타적 0..1의 백분위 수 값을 기준으로 데이터 세트의 사 분위수를 반환합니다.

Excel에서 사용하는이 정의를 이해하는 데 도움이 될 수 있습니까?


5
통계를 위해 Excel을 사용하지 않는 이유에 대한 또 다른 훌륭한 예입니다. :-)
Wayne

1
친구는 통계를 위해 친구가 Excel을 사용할 수 없습니다. 슬프지만 사실
크리스 비틀리

답변:


11

일반적으로, 랭크 (간에 및 에 대한 데이터) 퍼센트로 변환되어 화학식 통해1 n n p아르 자형1

=100아르 자형α+12α

과 사이의 일부 미리 결정된 "플로팅 위치" 에 대해 . 관점 에서 을 구하면0 1 r pα01아르 자형

아르 자형=(+12α)(/100)+α.

Excel은 역사적 으로 and 함수에 을 사용했습니다α=1PERCENTILEQUARTILE . 온라인 설명서 를 위해 QUARTILE.INC그리고 QUARTILE.EXC우리가 이러한 기능이 무엇 리버스 엔지니어링 할 수 있도록, 쓸모가 없다.

예를 들어, 데이터 , 우리가 및 세 분위수 대. 위의 수식에서 을 사용하면 , 및 순위가 산출되어에 대한 결과가 재현됩니다 .n = 10 p { 25 , 50 , 75 } α = 1 9 ( 0.25 ) + 1 = 3.25 9 ( 0.50 ) + 1 = 5.5 9 ( 0.75 ) + 1 =(1,2,,4,5,6,7,8,9,10)=10{25,50,75}α=19(0.25)+1=3.259(0.50)+1=5.59(0.75)+1=7.75QUARTILE.INC

대신 설정 하면 해당 순위는 , 및 이며에 대한 결과를 재현합니다 .α=011(0.25)=2.7511(0.50)=5.511(0.75)=8.25QUARTILE.EXC

귀하의 추가 테스트 (최신 버전의 Excel이 없음)는 이 두 버전의 사 분위수 함수가 의 두 가지 (극단적) 값에 의해 결정α 된다는 추측의 유효성을 확립 할 수 있습니다 .

그런데, 소수 보간은 선형 보간법에 의해 데이터 값으로 변환됩니다. 프로세스는 Percentiles 및 EDF Plots의 코스 노트에 설명되어 있으며 페이지 하단 근처에 있습니다. 계산을 보여주는 Excel 스프레드 시트에 대한 링크도 있습니다.

Excel에서 일반 백분위 수 함수를 구현 하려면 VBA 매크로를 사용하십시오.

'
' Converts a percent, computed using plotting position constant A,
' into a percent appropriate for the Excel Percentile() and
' Quartile() functions.  (The default value of A for Excel is 1;
' most values in use are between 0 and 0.5.)
'
Public Function PercentileA(P As Double, N As Integer, A As Double) As Double
    If N < 1 Or A < 0# Or A > 1# Or P < 0# Or P > 1# Then
        Exit Function
    End If
    If N < 2 Then
        PercentileA = 0.5
    Else
        PercentileA = ((N - 2 * A + 1) * P + A - 1) / (N - 1)
    End If
End Function

공칭 백분율 (예 : 25/100)을 Excel PERCENTILE함수가 원하는 값을 리턴하게하는 백분율로 변환 합니다. 에서와 같이 셀 수식에 사용하기위한 것입니다 =PERCENTILE(Data, PercentileA(0.25, Count(Data), 0.5)).


Excel에서 수행하는 작업을 정확히 이해하면 통계 작업에 효과적으로 사용할 수 있습니다.
whuber

5
내가 당신의 의견에 동의하지 않을 경우 : Excel은 통계 작업에 효과적으로 사용될 수 있습니다. 첫 번째 원칙에서 수행해야 할 작업을 입증 할 수있는 통계 마법사 인 경우 실제로 수행중인 작업을 결정하기 위해 Excel의 방법을 리버스 엔지니어링하십시오. 당신이 그렇게 잘하면 대부분의 도구가 할 것입니다. 또한이 스레드에서이 토론에 참여한 마법사의 100 %가 최신 버전의 Excel에 액세스 할 수 없으므로 실제로 사용하지 않을 것임을 지적합니다.
Wayne

Touche ', @Wayne. (그러나 우리 중 일부는 여전히 이전 버전의 Excel을 사용합니다 :-).
whuber

1
Whuber, VBA 솔루션을 공유해 주셔서 감사합니다. 이것은 매우 도움이 될 것입니다. Stats를 수행해야하지만 Excel을 쉽게 사용할 수있는 유일한 도구 (예, R을 시도했지만 내 머리를 사로 잡을 수는 없음)로 Excel에 붙어있는 사람으로서 Excel을 내 요구에 맞게 구부릴 수있는 도구에 감사드립니다.
dav

4

Excel의 동의는 R의 기본 및 기타 정의에 동의 quartile.inc하는 original quartile와 동의합니다.

whuber의 도움이되는 힌트를 통해 Excel의 quartile.excR의 type=6Quantile 정의에 동의하는 것으로 나타났습니다 (1.10의 경우) .

   > For types 4 through 9, Q[i](p) is a continuous function of p, with
    > gamma = g and m given below. The sample quantiles can be obtained
    > equivalently by linear interpolation between the points (p[k],x[k])
    > where x[k] is the kth order statistic. Specific expressions for p[k]
    > are given below.
    > 
    > ...
    > 
    > 
    > Type 6 m = p
    >       .p[k] = k / (n + 1). Thus p[k] = E[F(x[k])].
    >       This is used by Minitab and by SPSS.

"그렇다, Minitab 및 SPSS는."


R은 9 개의 Quantile 정의를 가지고 있지 않습니까? (편집의 경우 +1, btw)
whuber

@ whuber : 커튼 뒤에있는 사람에게주의를 기울이지 마십시오! (내 답변을 편집하겠습니다. 추가 조사에서 R의 다른 정의 중 하나와 일치합니다. 이는 아마도 Minitab과 SPSS가 사용하는 것입니다. 감사합니다!)
Wayne

2

나는 사 분위의 특별한 맛이 5와 37을 무시하고 있다고 생각합니다 (원래 데이터의 최소 및 최대).

Stata에서 기본 버전과 대체 버전 모두이 데이터와 함께 quartile.exc 값을 제공합니다.


이 추측 은 max와 min이 실제로 반환 될 수 있다고 주장하는 문서 와 일치하지 않는 것 같습니다 QUARTILE.EXC.
whuber

내 Excel 2010 버전에서 QUARTILE.EXC (cell range, k)는 #NUM을 반환합니다! 팝업 메뉴에 따라 25, 50 및 75 백분위 수에 해당하는 k = {1,2,3}이 아닌 한. 원래 QUARTILE은 또한 0과 4를 두 번째 인수로 허용합니다. 이는 최소 및 최대에 해당합니다.
Dimitriy V. Masterov

1
문서에 "쿼트 ​​≤ 0 또는 쿼트 ≥ 4 인 경우 QUARTILE.EXC는 #NUM! 오류 값을 반환합니다." 사실 인 것 같습니다. 두 번째 문장 "MIN, MEDIAN 및 MAX는 quart가 각각 0, 2 및 4 인 경우 QUARTILE.EXC와 동일한 값을 반환합니다." 엉망이야!
Dimitriy V. Masterov

11#NUM!PERCENTILE

1
백분위 수의 3 가지 맛은 저의 사 분위수와 같은 방식으로 작동합니다. 5-37 데이터의 경우 PERCENTILE.EXC (range, k)는 #NUM! k = {0,1}의 경우 k = 0.25의 경우 PERCENTILE.EXC는 10을줍니다. 5와 37을 버리면 10.5가되며 이는 다른 두 가지 방법과 일치합니다.
Dimitriy V. Masterov

2

흥미로운 세부 사항이 많이 있지만 원래 질문으로 돌아가려면 정확히 동일한 대답을 제공하지 않을 수있는 두 가지 약간 다른 방법이 실제로 중요하다는 것을 알지 못합니다. 첫 번째 사 분위수는 관측치의 25 %가 그 이하로 떨어지는 지점입니다. 표본 크기에 따라 데이터의 정확한 점일 수도 있고 아닐 수도 있습니다. 따라서 한 점이 아래에 있고 다음 점이 위에 있으면이 첫 번째 사 분위수는 실제로 잘 정의되어 있지 않으며이 두 사 분점 사이의 어떤 점도 똑같이 잘 사용할 수 있습니다. 표본 크기가 짝수 인 경우 중앙값도 마찬가지입니다. 규칙은 위와 아래의 데이터 포인트 사이의 중간 점을 선택합니다. 그러나 실제로 규칙에 의해 주어진 선택이 다른 어떤 점보다 더 낫다는 말은 실제로 없습니다.


α1/1/2

0

Excel을 사용하는 사람들에게는 http://peltiertech.com/WordPress/comparison/ 의 다른 버전 방법에 대한 훌륭한 분류가 있습니다 .


2
답변에 요약하면 더 좋을 것입니다. 링크가 질문에 대한 답변을 제공 할 수 있지만 때로는 최신 정보를 얻을 수없는 경우가있어 향후 독자에게 도움이되지 않습니다.
Andy

0

Excel 2016에서 다음과 같은 경우 올바른 사 분위수 값을 얻을 수 있음을 알았습니다.

  • 데이터 세트에 홀수 개의 항목이 있습니다. QUARTILE.EXC 사용
  • 데이터 세트에 짝수의 항목이 있습니다. 평균 QUARTILE.EXC 및 QUARTILE.INC를 사용하십시오.

1
다른 답변 중 일부에서 입증 된 바와 같이 Quantile에 대한 정의가 몇 개인 경우 올바른 값의 의미를 설명 할 수 있습니까?
mdewey
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.