99 백분위 수 또는 100 백분위 수가 있습니까? 그리고 그들은 숫자의 그룹입니까, 또는 개별 숫자에 대한 분배기 또는 포인터입니까?


27

99 백분위 수 또는 100 백분위 수가 있습니까? 그리고 그들은 숫자 그룹, 구분선 또는 개별 숫자에 대한 포인터입니까?

동일한 질문이 사 분위수 또는 임의의 분위수에 적용될 것이라고 가정합니다.

n 개의 항목이 주어지면 특정 백분위 수 (p)의 숫자 색인이 다음과 같다는 것을 읽었습니다. i = (p / 100) * n

그것은 100 백분위 수가 있다고 제안합니다. 당신이 100 개의 숫자 (i = 1에서 i = 100)를 가지고 있다고 가정하기 때문에, 각각은 인덱스 (1에서 100)를 가질 것입니다.

200 개의 숫자가 있다면 백분위 수가 100 개이지만 각각 두 숫자 그룹을 나타냅니다. 또는 맨 왼쪽 또는 맨 오른쪽 구분선을 제외한 100 개의 구분선은 그렇지 않으면 101 개의 구분선을 얻게됩니다. 또는 개별 숫자에 대한 포인터이므로 첫 번째 백분위 수는 두 번째 숫자 (1/100) * 200 = 2를 참조하고 백분위 수는 200 번째 숫자 (100/100) * 200 = 200을 나타냅니다.

나는 때때로 99 백분위 수가 있다고 들었습니다.

구글은 백분위 수에 대한 옥스포드 사전을 보여줍니다. "특정 변수의 값 분포에 따라 모집단을 나눌 수있는 100 개의 동일한 그룹 각각" 및 "주파수 분포를 100 개의 이러한 그룹으로 나누는 랜덤 변수의 99 개의 중간 값 각각".

Wikipedia에 따르면 "20 번째 백분위 수는 관측치의 20 % 미만이 발견 될 수있는 값보다 작습니다"라고 말하지만 실제로는 "관측치의 20 % 이하가 발견 될 수있는 값보다 작거나 같습니다", 즉 " 값의 %는 "="입니다. 그것이 단지 <=가 아니라 <=라면, 100 번째 백분위 수는 100 % 이하의 값이 될 수있는 값이 될 것입니다. 100 번째 백분위 수가 없다는 주장으로 들었습니다. 그 아래에 100 %의 숫자가있는 숫자를 가질 수 없기 때문입니다. 그러나 100 번째 백분위 수를 가질 수 없다는 주장은 부정확하며 백분위 수 정의에 <= not <이 포함되어 있다는 오류에 근거한 것 같습니다. (또는> = 아님). 따라서 백분위 수는 최종 숫자가되고>


4
나는 그것이 극단적 인 비대칭 적 치료로 인해 100이 합리적인 해답이 아닐 것이라고 생각한다. 99 (귀하의 정의에서와 같이) 또는 101에 대해 사례를 작성할 수 있습니다.
whuber

4
지금까지 일반적으로 말했듯이 역사적으로 Quantile은 첫 번째 요약 포인트였으며, 확장하여 Bin, 클래스 또는 간격이 구분됩니다. 따라서 중앙값을 포함한 3 분위는 4 개의 구간 등을 정의합니다.
Nick Cox

1
@whuber 당신은 "극단적 인 비대칭적인 처리로 인해 100이 합리적인 해답이 될 것 같지 않다"고 썼다. <-좀 더 자세히 설명해 주시겠습니까?
barlop

3
stats.stackexchange.com/questions/235330/… 에서 다양한 Quantile 용어의 초기 사용을 나열 합니다. OED 또는 jstor를 살펴보면 과거 사용량의 예가 표시됩니다.
Nick Cox

2
예 @whuber, 내가 무엇을 참조하고하는 것은 적절 시험 성적표 & C :에 사용되는 "백분위 순위"라고 않은 것 같습니다 en.wikipedia.org/wiki/Percentile , en.wikipedia.org/wiki/Percentile_rank , ncme .org / resources / glossary . 혼란을 더하는 것에 대한 사과. 내 방어에서, 차이는 전치사 "at"와 "in"의 사용법에 달려있는 것으로 보인다 (첫 번째 링크 참조).
Jeff Y

답변:


32

백분위 수 , 사 분위수 등 의 두 가지 감각이 널리 사용됩니다. 사 분위수와의 차이점을 설명하는 것이 가장 쉽습니다.

  1. "분배기"감각-분포 (또는 표본)를 4 개의 동일한 부분으로 나누는 값인 3 개의 사 분위수가 있습니다.

       1   2   3
    ---|---|---|---
    

    (이는 최대 값과 최소값이 포함 된 상태로 사용되기 때문에 0-4의 5 사 분위수가 있습니다. 위의 숫자와 충돌하지 않고 확장 할뿐입니다.)

  2. "빈"의미 : 4 개의 사 분위수가 있으며,이 3 개의 값이 분포 (또는 표본)를 나누는 부분 집합

     1   2   3   4
    ---|---|---|---
    

두 가지 모두 경험이 많은 실무자에 의해 사용되며 많은 권위있는 출처 (교과서, 기술 사전 등)에 나타납니다.

사 분위수의 경우, 사용되는 감각은 일반적으로 맥락에서 명확 합니다. 3 분위의 값을 말하는 것은 "빈"감각 일 수 있지만 , 3 분위 이하모든 값 을 말하는 것은 "분배기"감각을 의미 할 가능성이 높습니다. 백분위 수를 사용하면 구별이 더 불분명하지만 분포의 1 %가 너무 작기 때문에 대부분의 목적에는 그다지 중요하지 않습니다. 좁은 띠는 대략 선입니다. 80 번째 백분위 수를 초과하는 모든 사람에 대해 말하는 것은 상위 20 % 또는 상위 19 %를 의미 할 수 있지만, 큰 차이가 아닌 비공식적 맥락에서 그리고 엄격한 작업에서 필요한 의미는 나머지 맥락에서 분명히 밝혀 져야합니다.

(이 답변의 일부는 https://math.stackexchange.com/questions/1419609/are-there-3-or-4-quartiles-99-or-100-percentiles 에서 수정되었으며 인용문 + 참조도 제공합니다.)


2
(+1)이 늦은 답변은 문제의 핵심에 잘 들어갑니다.
Nick Cox

무엇에 대한 en.wikipedia.org/wiki/Percentile 것은 < "모든 점수가 100 퍼센트에"말한다 -, 빈 (bin) 전체 데이터 세트의 크기와 같은 그 소리 당신의 쓰레기통은 모두 동일한 크기 인 반면
barlop을

1
Wikipedia 항목은 그렇게 말합니다. 나는 그런 말에 대한 방어를 생각할 수 없다. Wikipedia는 오해의 소지가 있거나 잘못한 경우를 제외하고는 훌륭합니다. 플립 팬트 소리가 들리지만, 내가 할 수있는 일은 위키피디아에서 활동중인 사람을보고있는 사람이 참가를 개선하도록 장려하는 것입니다. 모든 사람은 자신이하는 것과하지 않는 것에 대한 규칙을 가져야하며 여기와 다른 몇 곳에서 활동하는 것이 나의 개인적인 한계입니다.
Nick Cox

5

소금 한 덩어리 로이 대답을 취하십시오-그것은 상당히 잘못 시작되었으며 여전히 소금으로 무엇을 해야할지 결정하고 있습니다.

질문은 부분적으로 언어와 사용법에 관한 것이지만이 답변은 수학에 중점을 둡니다. 수학이 다른 사용법을 이해하기위한 프레임 워크를 제공하기를 바랍니다.

이것을 처리하는 좋은 방법은 간단한 수학부터 시작하여 더 복잡한 실제 데이터 사례로 거꾸로 작업하는 것입니다. PDF, CDF 및 역 CDF (quantile 함수라고도 함)부터 시작하겠습니다. pdf f 및 cdf F 를 갖는 분포 의 엑스 번째 분위수 는 F - 1 ( x ) 입니다. z 번째 백분위 수가 F - 1 ( z / 100 ) 이라고 가정합니다 . 이를 통해 식별 한 모호성을 파악할 수 있습니다. F가 있는 상황을 볼 수 있습니다.에프에프에프1(엑스)에프1(/100)에프 1) 불가역하지 않음, 2) 특정 도메인에서만 불가역 함, 또는 3) 가역적이지만 그 역수는 결코 특정 값을 달성하지 못함.

1) 예 : 마지막으로 남겨 두겠습니다. 계속 읽으세요.

2) 예 : 균일 한 0.1 분포의 경우, CDF는 [0, 1]로 제한 될 때 되돌릴 수 없으므로 100 번째 및 0 번째 백분위 수는 주어진 에프1(1)에프1(0) 으로 정의 될 수 있습니다. 그 경고. 그렇지 않으면 에프(0.5) (예 :) 도 0 이므로 잘못 정의됩니다 .

2)의 다른 예 : 0에서 1까지 그리고 2에서 3까지의 두 개의 분리 간격에 대한 균일 분포의 경우 CDF는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

이 분포의 대부분의 Quantile은 존재하며 고유하지만 중앙값 (50 번째 백분위 수)은 본질적으로 모호합니다. R에서는 반쯤 quantile(c(runif(100), runif(100) + 2), 0.5)갑니다 : 약 1.5를 반환합니다.

3 예) : 정규 분포를 들어, 100 및 0 번째 백분위 수 (또는 그들이 "있다"존재하지 않는 ± ). 정상적인 CDF가 0 또는 1을 달성하지 못하기 때문입니다.

1)에 대한 논의 : 극단적이지 않은 Quantile 또는 연속 분포와 같은 "nice"cdf의 경우 백분위 수가 존재하며 고유합니다. 그러나 푸 아송 분포와 같은 분포 이산을 내 정의 때문에 대부분 모호 /100 , 더 없다 와이에프(와이)=/100 . 기대 값이 1 인 포아송 분포의 경우 CDF는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

60 번째 백분위 수에 대해 R은 1 ( quantile(c(rpois(lambda = 1, n = 1000) ), 0.60))을 반환합니다 . 65 번째 백분위 수에 대해 R은 1도 반환합니다.이 값을 100 개의 관측 값을 그려서 낮은 순위에서 높은 순위로 평가 한 다음 60 번째 또는 65 번째 항목을 반환하는 것으로 생각할 수 있습니다. 이렇게하면 가장 자주 1을 얻습니다.

실제 데이터와 관련하여 모든 분포는 이산 적입니다. (실증적 CDF runif(100)또는 np.random.random(100)약 100 씩 100 씩 증가합니다.) 그러나 R의 quantile기능은 그것들을 불연속으로 취급하는 대신 연속 분포의 표본으로 취급하는 것으로 보입니다. 예를 들어, 표본 3,4, 5, 6, 7, 8의 중앙값 (50 번째 백분위 수 또는 0.5 분위수)은 5.5입니다. unif (3,8) 분포에서 2n 표본을 추출하고 n 번째 표본과 (n + 1) 번째 표본 사이의 숫자를 취하면 n이 증가함에 따라 5.5에 수렴됩니다.

3,4,5,6,7,8을 칠 확률이 같은 불연속 균일 분포를 고려하는 것도 흥미 롭습니다. (다이 롤에 2를 더한 값입니다.) 푸 아송 분포에 대해 위에서 설명한 표본 및 순위 접근 방식을 취하면 일반적으로 5 또는 6을 얻게됩니다. 표본이 커질수록 절반 수의 분포는 절반으로 수렴됩니다. 5시 반 반. 5.5도 여기에서도 합리적인 타협처럼 보입니다.


2
F1[0,1]F[0,1]F
whuber

좋은 지적. 나는 그것을 명확히하기 위해 일부 사례를 분리하려고했습니다. 연속성에 대한 토론을 어떻게 개선 하시겠습니까? 추정자로서 Quantile의 해석은 내 대답의 중심입니다. 그것들이 없으면 저에게는 실제로 이해가되지 않습니다.
eric_kernfeld

후자의 경우 : Quantile은 아무것도 추정 할 필요가 없습니다. 데이터를 설명하고 시각화하는 데 유용합니다 (설명 적 통계로만 사용됨). 재연 속성 : 대부분의 당국은 모든 백분위 수가 이산 분포에 존재한다고 말할 것입니다. 달리 주장하는 것은 불필요한 합병증입니다. 또한 즐겁게 1 (0 ~ 모든 분위를 제공 완전히 신비 대부분의 소프트웨어 계산의 결과를 렌더링 할 포함 된 모든 데이터 집합을). 예 R를 들어에을 입력하십시오 quantile(0).
whuber

이 토론을 통해 나는 이산 분포의 Quantile을 이해하지 못한다는 것을 알게되었습니다. 이 답변을 삭제해야한다고 생각합니다.
eric_kernfeld

1
사람들은 이것에 대해 다양합니다, Eric. 오해의 소지가있을 정도로 답변이 잘못되었을 경우 먼저 삭제합니다. 대답의 일부에 잠재적 인 가치가있는 경우 오해의 소지가있는 부분을 제거하거나 설명하도록 삭제 한 다음 삭제 취소하십시오. 다른 사람들은 단지 투표에서 일이 일어나서 덩어리를 버리게합니다. 다른 사람들은 일부 오해가 발생한 곳을 보는 독자들에게 가치가 있음을 시사하는 편집을 추가합니다. 그러나 다른 사람들은 삭제합니다. 원할 경우 때로는 답변을 완전히 변경할 수도 있습니다.
whuber

2

n 번째 백분위 수의 관측치가 고려중인 데이터 세트의 관측치의 n %보다 크다는 것을 배웠습니다. 나에게 0 또는 100 백분위 수가 없다는 것을 암시합니다. 100 %의 일부를 형성하기 때문에 100 %보다 큰 관측치가 될 수 없습니다 (0의 경우에도 유사한 논리가 적용됨).

편집 : "X는 다음과 같습니다 무엇의 가치를 들어,이 또한 내가 만난 그 용어의 비 학문적 인 사용과 일치하는 n 번째 백분위 수에서 "백분위가 그룹이 아닌 경계는 것을 의미한다.

불행히도 내가 지적 할 수있는 출처가 없습니다.


6
배운 것을 기억하는 것에 대한 권위있는 언급이 있습니까? "백분위 수"의 정의 를 숫자 그룹 으로 암시 적으로 채택하고 있습니다. 이 질문에서 인용 된 다른 정의는 백분위 수가 그러한 그룹 사이 의 경계 라는 것 입니다.
whuber

1
데이터가 2,2,2,2,2,2,2,2,2,2,2라고 가정하면 한 Quantile의 항목이 왼쪽의 항목과 같기 때문에 이해가되지 않습니다. 이전 Quantile. 따라서 n 번째 Quantile의 항목이 남은 Quantile보다 크지 않습니다. 따라서 n 번째 백분위 수의 항목은 데이터 세트에서 관측치의 n %보다 크지 않습니다. 데이터 세트에서 관측치의> = n %이지만 단순히>는 아닙니다. 따라서 100 번째 백분위 수를 가질 수 있습니다. 그 논리로 무엇을 만드십니까?
barlop

4
모든 값이 동일하면 많은 정의가 변형됩니다!
Nick Cox

2
수학적 구부러진 추상과 이상은 소프트웨어를 작성하는 사람들은 데이터의 혼란을 처리해야합니다. 16 개의 값에 대한 귀하의 예는 동일한 값이 동일하게 비닝되어야한다는 규칙을 따르는 소프트웨어에 의해 다르게 취급됩니다 (그리고 동의합니다). 모든 값이 고유하더라도 규칙이 동일한 크기의 4 개 구간으로 데이터를 나눌 수없는 15 또는 17 개의 값으로 데이터를 처리하지 않은 것에 대해 놀랐습니다.
Nick Cox

3
0에 대한 비슷한 논리는 무엇입니까? "관측치의 0 %보다 큰"이 "모든 관측치와 같거나 작음"을 의미하지 않습니까? 즉, 0 번째 백분위 수가 가장 낮은 관측치일까요?
ilkkachu

2

백분위 수를 계산하는 다른 방법이 있습니다. 다음은 유일한 방법이 아닙니다. 이 출처 에서 가져 왔습니다 .


%28808028

엑스1엑스

엑스나는나는

나는=100(나는0.5)

설명을 위해 동일한 메모의 예 :

여기에 이미지 설명을 입력하십시오

7507

200 개의 숫자가 있다면 백분위 수가 100 개이지만 각각 두 숫자 그룹을 나타냅니다.

아니.

엑스1엑스200

100(10.5)200100(20.5)200100(0.5)200...

~를 야기하는

0.25,0.75,1.25...1,2,,...


3
첫 번째 문장은 훌륭해 보이고 가장 중요한 단어 중 하나는 대략 입니다. 핵심은 몇 가지 레시피가 있으며, 대부분 레시피에 대한 방어 가능한 논리가있는 것은 아니라는 것입니다 (논리가 가능한 한 단순하게 유지하는 것이 때로는 논리 임). CV의 여러 스레드에서 언급 된 Hyndman 및 Fan 용지를 참조하십시오. 많은 사람들이 귀하의 모범에 대한 백분위 수를보고하는 방법으로 마지막 단락을 취할 것이라고 의심합니다.
닉 콕스

@Nick Cox 통찰력있는 의견에 감사드립니다. 마지막 단락에 대해 나는 모든 관찰이 서로 다를 때 방법이 잘 작동해야한다고 생각합니다. 반복되는 숫자의 경우 같은 숫자에 대해 고유 한 백분위 수가 없으므로 소리가 좋지 않습니다. 사건 처리 방법을 친절하게 제안 해 주시겠습니까? 그리고 마지막 단락에서 잠재적 인 함정을 지적 할 수 있습니까?
순진

1
나는 저널 문헌에서 이미 잘 설명 된 것에 덧붙이고 싶거나 추가해야한다고 생각하지 않습니다. 먼저, 당신은 이것을 위해 좋아하는 소프트웨어를 가지고 있습니다. 그것이 무엇을하고 무엇을하는지보십시오. 둘째, 수십 년 동안 백분위 수를 직접 계산하지 않았으며 우리 중 누구도 필요하지 않습니다. 셋째, 마지막 단락에 대한 요점 : 관찰 된 데이터 포인트가 0.25, 0.75, 1.25, ... 백분위 수라는 말을 아무도 원하지 않습니다. 사람들이 원하는 것은 다양하지만 제 경험상 샘플 극단뿐만 아니라 1, 5, 10, 25, 50, 75, 90, 95, 99 % 포인트와 같은 요약이 가장 일반적으로 필요합니다.
닉 콕스

1
방금 중간 값의 p- 값이라고 불리는 EDA 전문 용어에 0.5가 있다고 주장하는 것을 보았습니다. 필자가 읽지 않았고 관찰 된 유의 수준으로 p- 값에 대한 대다수의 의미를 감안할 때 끔찍한 용어 인 예를 찾을 수 있습니다.
Nick Cox

나는 당신이 제안한 논문을 살펴볼 것입니다. 주셔서 감사합니다
순진

0

참고-나는 내 대신 다른 사람의 대답을 받아 들일 것입니다. 그러나 나는 유용한 의견을 보았습니다. 그래서 나는 단지 언급하는 답변을 쓰고 있습니다.

Nick의 답변 "-iles"용어를 기준으로 상위 절반

용어는 모호한 것으로 보이며 (그 게시물에 대한 나의 이해를 바탕으로) 더 나은 용어는 X % 포인트, X % -Y % 그룹이라고 생각합니다. 양자점 (0에서 4까지의 사 분위수의 경우); X 양자점에서 Y 양자점까지의 양자 그룹.

어느 쪽이든 백분위 수에 대해 101을 얻을 수 있지만, 한 의견은 101 점을 참조 할 수 있다고 제안하지만 (백분위 수를 세고 정수만 계산하면 가정), 심지어 1, 2, 3, 백분위 수 또는 Quantile, 그것은 세고 하나는 0으로 세지 않으며, 예를 들어 4 개 이상의 사 분위수 또는 100 개 이상의 백분위 수를 가질 수 없습니다. 따라서 1, 2, 3을 말하면, 그 용어는 실제로 0 점을 가리킬 수 없습니다. 누군가가 0 점이라고 말하면 분명 0 점을 의미하지만, 실제로는 Quantile 포인트 0이라고 말해야한다고 생각합니다. 0. 컴퓨터 과학자들조차도 0이라고 말하지 않을 것입니다. 심지어 그들은 첫 번째 항목을 1로 계산하고 항목 0이라고 부르면 카운트가 아닌 0에서 인덱싱됩니다.

한 의견은 "100이 될 수 없습니다. 최대 및 최소 개수에 따라 99 또는 101이 될 수 있습니다"라고 언급합니다. 나는 그룹이 아닌 Quantile 포인트에 대해 이야기 할 때 99 또는 101의 경우가 있다고 생각하지만 0은 말할 수 없습니다. n 항목의 경우 인덱스는 0 ... n-1에서 시작하고 인덱스에 첫 번째, 두 번째 등을 쓰지 않습니다 (첫 번째 항목을 1로 인덱스하지 않은 경우). 그러나 인덱스가 0 인 첫 번째 항목을 시작하는 인덱스는 첫 번째, 두 번째 세 번째 카운트가 아닙니다. 예를 들어 인덱스가 0 인 항목은 첫 번째 항목이며, 0이라고 표시하지 않고 두 번째 항목에 첫 번째 항목을 레이블링합니다.


명백한 역사적 선례에서 출발 한 사람들은 모든 모호성을 소개했습니다. 실제로 물지 않습니다.
Nick Cox

모든 수학자들은 0부터 계산을 시작합니다. 이 개념은 간단하고 자연 스럽다. "제로 (zero)"라는 단어를 크게 말하는 것은 계산하려는 의도를 나타낸다. 그런 다음 계산되는 객체에 단어 "1", "2", "3"등을 일대일로 할당합니다. 마지막 단어 (마지막이있는 경우)는 세트의 카디널리티와 동일합니다. 이 아이디어의 장점은 세트에 요소가 없을 때 마지막 단어는 "제로 (zero)"였으며 이는 고유 한 정확한 값입니다.
whuber

@whuber 당신은 "모든 수학자들이 0부터 계산하기 시작합니다"라고 쓴다.
barlop

"세고 하나는 0으로 세지 않습니다."
whuber

1
@ whuber 아마도 많은 수도, 나는 몇 년 전에 컴퓨터 과학을 연구 할 때 컴퓨터 과학자가 0에서 셀 수 있다고 생각합니다. (수수께끼가 아니거나 내 주장이 아닙니다) 선명도와 컴퓨터 과학자 것을 깨달았다 0에서 두 수를 수학자 .. 차이는 컴퓨터 과학자는 종종 (1 될 것이라고 계산하지만 여전히) 0으로 인덱스와 인덱스 인덱스의 첫 번째 항목을 사용하는 것입니다 ..
barlop
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.