1 중앙값이 다른 중앙값보다 낮다는 사실이 왜 그룹 1의 대부분이 그룹 2의 대부분보다 적다는 것을 의미합니까?


9

아래 박스 플롯은 "대부분의 남성이 대부분의 여성보다 빠르다"(이 데이터 세트에서)로 해석 될 수 있다고 믿었습니다. 주로 남성의 평균 시간이 여성의 시간보다 낮았 기 때문입니다. 그러나 R과 통계 퀴즈 에 관한 EdX 코스는 그것이 틀렸다고 나에게 말했다. 내 직감이 왜 틀린지 이해하도록 도와주세요.

질문은 다음과 같습니다.

2002 년 뉴욕시 마라톤에서 나온 임의의 마무리 장치 샘플을 고려해 봅시다.이 데이터 세트는 UsingR 패키지에서 찾을 수 있습니다. 라이브러리를로드 한 다음 nym.2002 데이터 세트를로드하십시오.

library(dplyr)
data(nym.2002, package="UsingR")

박스 플롯과 히스토그램을 사용하여 남성과 여성의 마무리 시간을 비교하십시오. 다음 중 차이점을 가장 잘 설명하는 것은 무엇입니까?

  1. 남성과 여성의 분포는 동일합니다.
  2. 대부분의 남성은 대부분의 여성보다 빠릅니다.
  3. 수컷과 암컷은 오른쪽으로 치우친 분포를 가지고 있으며, 20 분은 왼쪽으로 이동했습니다.
  4. 두 분포는 일반적으로 평균 약 30 분의 차이로 분배됩니다.

Quantile, histograms 및 boxplots와 같이 남성과 여성을위한 NYC 마라톤 시간은 다음과 같습니다.

# Men's time quantile
      0%      25%      50%      75%     100% 
147.3333 226.1333 256.0167 290.6375 508.0833

# Women's time quantile
      0%      25%      50%      75%     100% 
175.5333 250.8208 277.7250 309.4625 566.7833

남성과 여성의 시간-히스토그램

남성과 여성의 시간-상자 그림


동일한 분포를 시각적으로 확인하려면 히스토그램에서 동일한 x 도메인과 구간을 사용해야하며 y 축에는 상대 주파수가 표시되어야합니다. 빈 밴드 크기는 25 분 또는 50 분과 같이 더 높은 입도에서 이점을 얻을 수 있습니다. 또한 상자 그림과 히스토그램에서 중앙값 (이미 상자 그림에 있음), 평균 및 모드를 그립니다.
g3o2

및 의 균일 분포를 고려하십시오 . 후자의 중앙값은 더 크지 만 각각에서 임의의 실현이 주어지면, 두 번째가 클 확률은 더 작을 때와 같습니다 ( ). 따라서 "가장 큰 샘플"과 " " 에서 각각 하나의 랜덤 샘플 X와 Y를 부여하여 "가장 큰 값"을 정의하면 X와 Y 의 중간 값 사이의 관계는 그다지 많지 않습니다. {0,3}{2}0.5P(X>Y)>0.5
AlexR

답변:


7

나는 당신이 틀린 것으로 표시된 이유가 당신이 객관식 질문에 대한 대답이 틀린 것이 아니라 오히려 옵션 3 "남자와 여자가 ​​전자와 비슷한 오른쪽으로 치우친 분포를 가지고 있다고 생각합니다. 20 분은 왼쪽으로 이동했습니다." 제공된 정보를 기반으로 정보를 제공하므로 더 나은 선택이었습니다.


이 설명에 동의합니다. 또한 "가장 빠른 것보다 빠름"이 너무 모호합니다. @glen_b의 대답에도 불구하고 이러한 종류의 언어에 대한 상자 그림에서 훨씬 더 많은 분리가 예상됩니다. "남성의 75 %가 여성의 75 %보다 빠르다"와 같이, 남성의 75 % 백분위 수가 여성의 25 % 백분위 수보다 낮을 것으로 생각합니다. 그러나 언어는 모호합니다.
Sal Mangiafico

1
또한 이것은 객관식 시험을 치르는 원칙에 도달합니다. 항상 최상의 답변을 선택하십시오 .
Sal Mangiafico

이것은 말이된다; 다른 선택이 잘못되었다는 것이 아니라 올바른 선택 ( "남성과 여성이 이전과 비슷한 오른쪽으로 치우친 분포를 가지고 있고, 20 분이 왼쪽으로 이동했습니다")이 더 옳았습니다. 그러나 나는 히스토그램에서 20 분의 변화가 보이지 않습니다. 그것은 나에게 50 분의 교대처럼 보인다. 두 번의 기회가 있었으므로 FWIW :-)라는 질문이 옳았습니다.
cumin

@ cumin : 실제로 정확한지 확실하지 않습니다. "대부분의 남성이 대부분의 여성보다 빠르다"는 "가장 큰"의 의미에 대해 모호합니다. 나는 엄격한 정의를 본 적이 있다고 생각하지 않으며, 직관적으로 보통 50 % 이상입니다 (70 % 이상일까요?). . 그들이 "대다수"라고 말하면 아마도 더 분명 할 것입니다.
user541686

9

내가 찾을 수있는 가장 작은 반대 예는 다음과 같습니다.

1,4,10;  B 0,6,9

  • A ( [1, 4, 10])B ( [0, 6, 9])의 평균은 동일 함 ( 5)

  • B의 중간 값 ( 6)이 A ( 4) 보다 큽니다.

  • 임의의 A 요소가 임의의 B 요소 보다 클 확률은 5/9 입니다.

다음은 4 가지 요소가있는 또 다른 예입니다.

1,1,3,10;  B 0,0,6,9


7

"대부분의 남성이 대부분의 여성보다 빠르다"는 잠재적으로 다소 모호하지만, 일반적으로 우리가 임의의 parirings를 보면 대부분의 경우 남자가 더 빠를 것입니다. P(Mi<Fj)>12 무작위로 i,j (어디 Mi '시간입니다 i-남성 남성 등).

물론 그 구절에 대한 다른 해석도 가능합니다 (결국 모호한 것임). 그리고 다른 가능성들 중 일부는 당신의 추론과 일치 할 수 있습니다.

[우리는 또한 표본 또는 집단에 대해 이야기하고 있는지에 대한 문제가 있습니다 ... "대부분의 남성 [...] 대부분의 여성"은 인구 성명서 (잠재적 인 시간의 인구에 관한 것)로 보이지만 우리는 단지 시간을 관찰했습니다 우리는 표본으로 취급하고있는 것 같아서 주장을 얼마나 광범위하게하는지주의해야합니다.]

참고 P(Mi<Fj)>12 에 의해 암시되지 않습니다 M~<F~. 그들은 반대 방향으로 갈 수 있습니다.

[ 남자가 여자보다 빠른 임의의 MF 쌍의 비율이 1/2 이상이라고 생각하는 것은 틀렸다고 말하는 것이 아닙니다 . 거의 확실합니다. 나는 중간 값을 비교하여 말할 수 없다고 말하고 있습니다. 다른 샘플의 중앙값 위나 아래에있는 각 샘플의 비율을 보면 알 수 없습니다. 다른 비교를해야합니다.]

즉, 중간 남자는 중간 여자보다 빠를 수 있지만, 임의의 남자가 임의의 여자보다 빠를 가능성이있는 시간의 샘플 (또는 그 문제에 대한 연속적인 분포)을 가질 수 있습니다. 적은 보다는12. 큰 샘플에서 두 개의 반대 표시는 각각 중요 할 수 있습니다.


예:

데이터 세트 A :

 1.58  2.10 16.64 17.34 18.74 19.90  1.53  2.78 16.48 17.53 18.57 19.05
 1.64  2.01 16.79 17.10 18.14 19.70  1.25  2.73 16.19 17.76 18.82 19.08
 1.42  2.56 16.73 17.01 18.86 19.98

데이터 세트 B :

 3.35  4.62  5.03 20.97 21.25 22.92  3.12  4.83  5.29 20.82 21.64 22.06
 3.39  4.67  5.34 20.52 21.10 22.29  3.38  4.96  5.70 20.45 21.67 22.89
 3.44  4.13  6.00 20.85 21.82 22.05

데이터 세트 C :

 6.63  7.92  8.15  9.97 23.34 24.70  6.40  7.54  8.24  9.37 23.33 24.26
 6.18  7.74  8.63  9.62 23.07 24.80  6.54  7.37  8.37  9.09 23.22 24.16
 6.57  7.58  8.81  9.08 23.43 24.45

(데이터는 여기 에 있지만 다른 목적으로 사용됩니다. 내 기억에 나는 이것을 직접 생성했습니다)

A <B의 비율은 2/3이고, A <C의 비율은 5/9이며, B <C의 비율은 2/3입니다. A vs B와 B vs C는 모두 5 % 수준에서 유의미하지만 충분한 샘플 사본을 추가하여 모든 수준의 중요성을 달성 할 수 있습니다. 우리는 샘플을 복제하지만 충분히 작은 지터 (점들 사이의 가장 작은 간격보다 충분히 작은)를 추가하여 동점을 피할 수도 있습니다.

중앙값 (A)> 중앙값 (B)> 중앙값 (C)

다시 우리는 표본을 반복함으로써 중앙값을 임의의 유의 수준과 비교하여 유의성을 달성 할 수 있었다.

중앙값과 반대 방향으로 P (A <B)를 표시하도록 표시된 중앙값을 갖는 샘플 A, B 및 C의 스트립 차트

그것을 현재의 문제와 관련시키기 위해, A는 "여성의 시간"이고 B는 "남자의 시간"이라고 상상해보십시오. 그런 다음 남성의 평균 시간이 더 빠르지 만 무작위로 선택된 남자는 무작위로 선택된 여자보다 2/3의 시간이 느려집니다.

샘플 A와 C에서 큐를 가져와 다음과 같이 더 큰 데이터 세트 (R)를 생성 할 수 있습니다.

n <- 300
F <- c(runif(n/3,0,5),runif(n-n/3,15,20))
M <- c(runif(n-n/3,7.5,12.5),runif(n/3,22.5,27.5))

F의 중앙값은 약 16.25이고 M의 중앙값은 약 11.25이지만 F <M 인 경우의 비율은 5/9입니다.

[n / 3을 이항 변량으로 대체하고 n13 우리는 F 분포의 중앙값이 16.25 인 반면 M 분포의 중앙값이 11.25 인 모집단에서 표본을 추출 할 것입니다. 한편이 모집단에서 F <M 일 확률은 다시 5/9 일 것입니다.]

또한 P(F<med(M))=23P(M>med(F))=23 동안 med(M)<med(F) (실제로).


수단 이 어떻게 반대 방향으로 갈 수 있는지 알 수 있지만 여기서 직관이 OP와 일치한다는 것을 인정합니다. 중간 값이 어떻게 샘플링 오류 문제를 제외하고 가능한지 알 수 없습니다.
gung-복직 모니카

@ gung 예를 포함 시켰습니다. 나는 이런 식으로 초기 직감을 찌르는 것을 좋아합니다. 더 많은 것을 만나면 (어딘가에 있다고 생각합니다) 언급하려고합니다.
Glen_b-복지 주 모니카

orig 질문의 boxplot은 남성의 약 60-65 % (안구 기준)가 여성의 평균 시간보다 적은 시간 (즉, 여성의 50 %의 시간 미만)을 가짐을 보여줍니다. 그것이 제가 설명하고 싶은 부분입니다.
cumin

위의 내 A 및 C 샘플에서 @cumin, C의 2/3는 A의 중간보다 작습니다 (대부분의 C는 중간 A보다 빠릅니다). P(Ai<Cj) 무작위로 i,j약 56 % (임의의 A가 임의의 C를 이길 때)입니다. [귀하의 데이터에 대한 결론이 실제로 잘못되었다고 생각하지는 않습니다. 단지이 정보만으로는이를 확립하기에 충분하지 않을 것입니다.]-해당 게시물에 대해 글의 마지막 부분을 약간 수정했습니다. 비교. 히스토그램과
박스 플롯

3
나는 "대부분의 남성이 대부분의 여성보다 빠르다"라는 문구를 "남성의 50 % 이상이 여성의 50 %보다 빠르다"고 해석합니다. 다시 말해, 남자 X가 주어지면 X가 여자의 50 %보다 빠른지 묻는 것이 합리적입니다. 나에게, 주장은 남성의 적어도 50 % 가이 재산을 가지고 있다고 말합니다. 남자의 50 %가 여자의 50 %보다 빠른 중간 여자보다 빠르기 때문에 중간 남자보다 중간 여자보다 빠르면 이것은 사실이라고 생각합니다. (그러나 이것은 여성-남성 쌍의 25 %만을 차지한다는 점에 유의하십시오. 이는 훌륭한 예를 설명합니다.)
mathmandan

3

다음 그림은 이 블로그 게시물 에서 가져 왔으며 , 이러한 아이디어 의 중요한 실제 적용 을 보여줍니다 .

표준화는 두 분포를 비교할 수있는 강력한 장치를 제공합니다. 다음 3 개의 수치는 영국 국립 아동 측정 프로그램 (NCMP)의 130 개월 된 소년과 소녀의 키를 비교합니다. (이 데이터 세트의 모달 연령이었습니다. 단일 연령 집단 내에서 가장 많은 데이터와 가장 부드러운 플롯을 얻기 위해 간단히 선택했습니다.)

그림 1 : 영국의 국가 아동 측정 프로그램 (NCMP)에서 130 개월 된 소년과 소녀의 신장

그림 1 : 영국의 국가 아동 측정 프로그램 (NCMP)에서 130 개월 된 소년과 소녀의 신장

그림 2 : 130 개월 이상 된 남녀의 신장 백분위 수.  출처 : 영어 NCMP

그림 2 : 130 개월 이상 된 남녀의 신장 백분위 수. 출처 : 영어 NCMP

그림 3 : 같은 연령의 소년에 대한 130 개월 된 소녀의 신장 분포.

그림 3 : 같은 연령의 소년에 대한 130 개월 된 소녀의 신장 분포.

이 수치의 마지막에서, 키 비교는 소년의 키에 따라 표준화 되었습니다 . 따라서 그림 3에서 회색 점선을 따라 읽으면 다음과 같은 문장을 작성할 수 있습니다.

  • 소년의 평균 (즉, 백분위 수) 키는 여자의 경우 약 45 번째 백분위 수입니다. 따라서 소녀의 100 % – 45 % = 55 %가 중간 소년보다 키가 컸습니다.
  • 소녀의 최고 사 분위 높이 (75 번째 백분위 수)는 소년의 최고 사 분위수 (80 번째 백분위 수)에 도달합니다. 따라서 130 mos의 어린이들 중에서 4 명 중 3 명보다 큰 소녀는 5 명 중 4 명보다 큽니다.

이 음모에서 가능한 혼란의 한 지점은 언급 할 가치가 있습니다. 남학생의 45 ° 선이 여아의 자홍색 곡선보다 줄거리에서 '높은'이지만,이 관찰은이 나이 (6 학년)에서 여학생이 남학생보다 키가 크다는 잘 알려진 사실과 일치합니다. . 이 키가 자홍색 곡선이 파란색 선을 기준으로 오른쪽 으로 이동한다는 사실에 반영됩니다 .

이 방법은 매우 일반적 입니다. 이러한 비교에서 표준화 한 그룹 중 하나가 45 ° 라인이됩니다. 다른 그룹은 일반적 으로 좌측 하단에서 우측 상단으로 그려진 임의의 모노톤 증가 곡선 수있다. 기본 분포가 연속적이라면 (밀도에 점 질량이 없음) 비교 된 곡선은 연속적입니다. 기본 밀도가 동일한 지지를 공유하는 경우 곡선은(0,0)(1,1).

그림 3의 자홍색 곡선을 그려서 (a) 중간 값 사이의 가정 된 관계와 (b) @Glen_b의 약간 이해하기 어려운 관계를 동시에 달성 할 수 있는지에 대한 질문으로 원래의 질문을 기하학적 용어로 다시 변환 할 수 있습니다. 그의 대답을 명확하게 설명했다. 분포 불연속 (밀도 밀도)이 '병리학 적'사례를 제공 할 수 있는지 궁금합니다. 나는 그러한 병리학 적 사례가 '규칙을 입증하는 예외'가 될 것이라고 추측합니다.


퀴즈 질문을 분석 할 수있는보다 공식적인 언어로 가장 간단하고 논리적으로 번역 한 경우 (위에서 어린이의 키 설정 사용) 개인에게 말할 수 있습니다. x 다음과 같은 경우 TMB 특성이 있습니다. xt ALLER보다 m 의 OST oys. 그런 다음 퀴즈 질문은 대부분의 소녀들이 TMB 속성을 가지고 있는지 간단히 물었습니다 . 'most'를 반 이상 을 의미 하는 것으로 정의 하면 TMB 속성이 있다는 것은 중간 높이 소년보다 키가 크다는 것을 의미합니다. 대부분의 소녀들에게 TMB 재산이 있는지 묻는 것은 중간 소녀 에게이 재산이 있는지 묻는 것 입니다. 이 계정에서 퀴즈 질문에 대한 대답은 yes 입니다.

다른 한편으로, '가장 많이'의 실제 의도가 "> 50 %"라면,보다 정확한 문구 "대다수"가 사용될 것으로 예상 할 수있다. 누군가가 아마 "아마도"일어날 것이라고 말해 주면 60 % 이상의 주관적 확률이 암시 될 것이라고 생각할 것입니다. 마찬가지로, 나에게 "가장 많이"는 70-80 % 정도의 것을 의미합니다. 분명히, 위의 도표에서 '가장 많이'가 52.5 %보다 더 엄격한 기준으로 간주된다면, "대부분의 소녀들은 [소녀들은 재산이 가장 많다"고 말할 수 없습니다. 퀴즈 질문의 이론적 근거 중 일부가 단어 개념과 관련된 단어의 시험을 자극하는 것이 었는지 궁금합니다. (이것이 모두 바보라고 생각하면 다음 그래프를 고려하십시오., 사람들이 어떻게 다른 확률 론적 단어와 문구를 해석하는 경향이 있는지를 보여줍니다.) 아마도 실제 분포에 많은 변형이 존재하고 단일 통계 (중간, 평균, 무엇을 가지고 있는지)를 강조하려는 의도 일 수도 있습니다. 당신)은 광범위하고 포괄적 인 진술을 거의지지하지 않을 것입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.