평균 가치 역설-이것이 무엇입니까?


22

데이터 세트가 있습니다. 관측치와 변수를 말합니다 .103

obs  A   B   C
1    0   0   1
2    0   1   0
3    1   0   1
4    1   1   0
5    1   0   1
6    1   0   0
7    1   1   0
8    0   0   1
9    0   1   1
10   0   1   1

각 범주에서 고객을 구매 ( 또는 구입 ) 했다고 가정합니다 . 있다 이, 그래서이 사람 고객에 구입 평균 제품 카테고리.1010A, B, C16101.6

고객은 A, B 및 C 중 하나 이상을 구입할 수 있습니다.

구매 한 사람 만 보면 제품 카테고리를 구매 한 고객 A이 이므로 평균 입니다.591.8

B이다 다시, 또는 1.8 .9/51.8

C10/6=1.67.

모두 1.6.

이상해 보인다. 이해하지만 다음 주에 마케팅에 설명해야하므로 도움이 필요합니다!

이게 뭐야?

나는 그것이 심슨의 역설이 아니라는 것을 안다. 나에게 그것은 몬티 홀 문제와 조건부 확률과 논리가 비슷하다고 느낍니다.


2
개인적으로, 당신이 무슨 말을하는지 모르겠습니다. 교차 구매 패턴을 조사하기 위해 As, B 및 C의 비상 대응표를 작성해보십시오.
Mike Hunter

3
"C를 구매하는 고객은 평균보다 1.67 vs 1.6보다 더 가치가 있습니다"라는 보고서가 있지만 A와 B는 평균보다 더 가치가 있습니다. "어떻게 모든 고객이 평균 이상의 가치를 가질 수 있습니까?"
James Adams

3
그의 퍼즐은 모든 사람들이 평균 이상인 Wobegon 호수 처럼 피상적으로 보인다고 생각합니다 .P 는 고객이 구매 한 카테고리 / 항목의 수입니다. 하자 , 및 분류 A, 각각 B, C 및 구매에 대한 지표가 될. , 이고 이고A B C E [ X A ] = 1.8 E [ X B ] = 1.8 E [ X C ] = 1.67 E [ X ] = 1.6XABCE[XA]=1.8E[XB]=1.8E[XC]=1.67E[X]=1.6
Matthew Gunn

12
보완 세트 및 벤 다이어그램의 관점에서 생각할 수 있습니다 . "A를 구매하는 고객"및 "A를 구매하지 않은 고객"세트 는 겹치지 않습니다. 그러나 질문에 나열된 세트가 겹칩니다. 서브 세트가 파티션을 형성하는 경우 에만 전체 평균을 서브 세트 평균의 (가중) 평균으로 계산할 수 있습니다 .
GeoMatt22

4
이것이 대다수 조명 역설 과 느슨하게 비슷한가 ? 개인이 슈퍼 네트워커에 연결될 가능성이있는 것과 같은 방식으로 모든 구매 범주에 슈퍼 구매자가 포함되어 있습니까? (나는 많은 사람들과 연락하는 사람과 많은 다른 물건을 구입하는 사람과 슈퍼 구매자라고 부른다)
Matthew Gunn

답변:


28

하위 범주가 더 큰 고객에서 겹치는 경우 모든 하위 범주 의 평균이 전체 평균보다 클 수 있습니다.

직감을 얻는 간단한 예 :

  • 하자 개인이 카테고리 A에서 항목을 구입 여부를 지표가 될A
  • 하자 개인이 B. 카테고리에서 아이템을 구입 여부 지표가 될B
  • 하자 구입 한 항목의 수를합니다.X=A+B

PersonABi10ii01iii11

개인의 집합 진정한 중복에게 개인의 집합입니다 B는 사실을. 그들은 분리 된 세트 가 아닙니다 .AB

그런 다음 이고 E [ X A ] = 1.5 이고 E [ X B ] = 1.5E[X]1.33E[XA]=1.5E[XB]=1.5

사실은 다음과 같습니다.

P(A)E[XA]+P(B)E[XB]P(AB)E[XAB]=E[X]

231.5+231.5132=1.3333

할 수 있습니다 단순히 계산 설정하기 때문에 와 B의 중복, 식 더블 카운트 항목을 모두 구입하는 사람 와 B를 !P(A)E[XA]+P(B)E[XB]ABAB

환상 / 역설의 이름?

나는 그것이 소셜 네트워크에서 대다수의 환상 역설 과 관련이 있다고 주장합니다 .

모든 사람을 네트워크 / 친구로 사귀는 친구가있을 수 있습니다. 그 사람은 전체적으로 백만 명 중 하나 일지 모르지만 각 사람의 친구 중 하나가 될 것입니다 .k

마찬가지로 여기에 카테고리 A와 B를 모두 구매하는 3 명 중 1 명이 있습니다. 그러나 카테고리 A 또는 B 중 2 명 중 1 명은 슈퍼 구매자입니다.

극단적 인 경우 :

세트의 로또 티켓을 만들어 봅시다 . 모든 세트는 S 내가 잃는 티켓 : 티켓 두 장 포함 및 잭팟 우승 티켓을.nSii

각 세트의 평균 위닝 후이다 JSi 어디에J는잭팟이다. 각 종류의 평균은WAY티켓 전체 당 평균 상금 위JJ2J .Jn+1

판매 사례와 동일한 개념의 역 동성입니다. 각 세트 모든 장르 A가, B, 또는 C가 무거운 구매자를 포함하는 것과 같은 방식으로 잭팟 티켓을 포함한다.Si

결론은 분리 된 세트를 기반으로 한 직감 이며, 샘플 공간의 전체 파티션은 일련의 겹치는 세트 로 이어지지 않습니다 . 카테고리가 겹치는 경우 모든 카테고리의 평균을 초과 할 수 있습니다.

분리 된 세트에서 샘플 공간과 조건 을 분할 하는 경우 범주는 전체 평균으로 평균화되어야하지만 겹치는 세트에는 해당되지 않습니다.


3
감사! 이중 계산이 설명의 열쇠라고 생각합니다. 나는 이것이 반드시 몇 가지 극단적 인 가치의 결과라고 생각하지 않습니다. 위의 예제 데이터 세트는 상당히 평범하며 "평균 이상의 그룹"효과는 여전히 발생합니다. 그것은 대부분의 경우에 일어날 것이라고 생각합니다. 이름이나 이전 예가 있는지 궁금합니다.
James Adams

@JamesAdams가 분석하고있는 데이터에 결함이있는 경우이 설명은 유지되지 않습니다. 나는 그것을 주장하고있다. 데이터 분석에 대한 기본적인 가정을 위반하지 않고 그룹 평균이 모두 합쳐진 3 개 평균보다 모두 높은 상호 배타적이고 완전한 A, B 및 C 범주 집합을 가질 수 없습니다. 귀하의 경우, 전체 평균에 대한 분모가 A, B 및 C에 대한 평균을 추정하는 데 사용 된 것과 다를 수 있습니다 (예 : 더 많은 응답자를 포함).
Mike Hunter

2
@DJohnson 물론 A, B, C가 샘플 공간을 분할하면 맞습니다. 질문과 제공된 "데이터"(무엇이든)에 대한 나의 독서는 A, B 및 C가 겹치는 세트라는 것입니다. A, B 및 C가 겹치면 그룹 평균이 모두 전체 평균보다 높을 수 있습니다 (제 답변의 포인트이며 세트는 가장 큰 고객과 겹칩니다!). OP가 말한 것은 내부적으로 일관성이 없습니다. 귀하의 "BS 데이터가 전달되고 있습니다"탐지기는 나보다 더 좋을 수 있으며 데이터 / 숫자의 유효성에 대해 중요한 질문을하는 것이 항상 중요하다는 데 동의합니다.
Matthew Gunn

예, 세트가 겹칩니다. 내 데이터 세트는 수백만 명의 고객과 12 개의 카테고리입니다. 평균이 전체 평균보다 높은 것을 보았을 때 이상하지만 설명 가능한 것으로 생각했습니다. 나는 그것을보기 위해 10 개의 obs와 3 개의 카테고리의 예제 세트를 정리했다. 나는 여기에 1과 0을 뿌려서 동일하게 나왔습니다. 이 유형의 평균이 계산되는 대부분의 데이터 세트에서 이것이 발생한다고 생각합니다. 위의 @Djohnson 예제는 전체 평균의 분모로 10을, As의 경우 5, B의 경우 5, C의 경우 6을 사용합니다. 이 예에서 내가 위반하는 내용을 말씀해 주시겠습니까?
James Adams

'10'은 무엇을 나타 냅니까? 세 가지 범주에 걸쳐 응답자의 그물? 모두에 대해 동일한 분모를 사용하면 평균은 어떻게됩니까? 대 평균 주위에서 변동하는 평균을 반환해야합니다.
Mike Hunter

10

나는 이것을 가족 규모의 역설 또는 이와 유사한 것으로 부를 것이다.

간단한 예를 들어, 모두에게 하나의 파트너와 매개 변수 가진 Poisson-distributed 많은 수의 자식이 있다고 가정합니다 .2

  • 1 인당 평균 어린이 수는 2 명입니다.2
  • 어린이가있는 사람당 평균 어린이 수는 21e22.313
  • 각 개인의 형제 자매 수를 계산하는 평균 형제 그룹 수는 3

실제 인구 통계 및 설문 조사 숫자는 다른 숫자이지만 유사한 패턴을 생성합니다.

명백한 역설은 개인의 형제 그룹의 평균 크기가 가족당 평균 어린이 수보다 크다는 것입니다. 안정적인 인구 역학으로 사람들은 부모보다 평균적으로 자녀 수가 적은 경향이 있습니다.

평균은 부모와 가족 또는 형제 자매 이상을 취하고 있는지에 대한 설명입니다. 대가족에게는 다른 가중치가 적용됩니다. 귀하의 예에서 개인별 또는 구매 별 가중치 사이에는 차이가 있습니다. 특정 구매에 대한 조건에 따라 조건부 평균이 높아집니다.


8

다른 답변은 무슨 일이 일어나고 있는지 생각하고 있습니다. 하나의 제품과 두 개의 고객이 있다고 가정하십시오. 하나는 제품을 한 번 구입했지만 다른 하나는 구입하지 않았습니다. 구매 한 평균 제품 수는 0.5이지만 제품을 구매 한 고객 만 보면 평균은 1로 증가합니다.

이것은 역설적이거나 반 직관적 인 것처럼 보이지 않습니다. 제품 구매에 대한 컨디셔닝은 일반적으로 구매 한 평균 제품 수를 증가시킵니다.


정확하게. 3 개 범주 각각의 구매가 서로 밀접하게 관련되어 있지 않다고 가정하면 카테고리 중 하나에서 구매율을 100 %로 증가시킨 후 평균을 계산하는 것입니다. 예를 들어 비교하는 것이 더 유익 할 것입니다. 카테고리 B 및 C의 평균 구매율 : a) 모든 고객 (11/20) 중 b) A (4/10)를 구매 한 고객 중 내가 보여주고 / 찾고자하는 것에 따라 다릅니다.
konrad

2

이것은 단순히 "평균의 평균"혼란 (예 : 이전 스택 교환 질문 )이 아닌가? 하위 표본 평균이 모집단 평균의 평균을 가져야한다는 유혹이 있지만 이는 거의 발생하지 않습니다.

고전적인 "평균의 평균"에서, 누군가는 N 개의 상호 배타적 인 부분 집합의 평균을 찾은 다음,이 값이 평균에 미치지 못한다는 사실에 흠이 있습니다. 이 평균의 평균을 계산하는 유일한 방법은 겹치지 않는 하위 집합의 크기가 동일한 경우입니다. 그렇지 않으면 가중 평균을 취해야합니다.

하위 집합이 중복되어 기존의 평균 평균 혼란보다 문제가 복잡해 지지만 왜곡 된 고전적인 실수 인 것 같습니다. 부분 집합이 겹치면 모집단 평균에 해당하는 하위 표본 평균으로 끝나기가 훨씬 더 어렵습니다.

귀하의 예에서 여러 하위 샘플에 나타나고 많은 것을 구입 한 사용자는 이러한 평균을 증가시킵니다. 기본적으로 각 큰 지출자를 여러 번 계산하는 반면 한 항목 만 구매하는 검소한 사람들은 한 번만 만나므로 더 큰 가치로 편향됩니다. 그렇기 때문에 귀하의 특정 부분 집합이 평균값을 초과하는 이유이지만 이것이 여전히 "평균의 평균"문제라고 생각합니다.

하위 샘플 평균이 다른 값을 갖는 데이터에서 모든 종류의 다른 하위 집합을 구성 할 수도 있습니다. 예를 들어, 당신의 서브셋과 다소 유사한 서브셋을 보자. A를 구입 하지 않은 사람들의 하위 집합을 취하면 평균 7/5 = 1.4 항목을 얻습니다. B를 구입 하지 않은 서브 세트를 사용하면 평균 1.4 개의 항목을 얻을 수 있습니다. C를 구매 하지 않은 사람들 은 평균 1.5 개를 구매했습니다. 이들은 모두 인구 평균 1.6 개 항목 / 고객 아래에 있습니다. 올바른 데이터 세트와 서브 세트의 올바른 콜렉션이 주어지면 평균이 모집단 평균에 해당하는 서브 세트가 겹칠 수 있습니다. 그러나 이것은 일반적인 응용 프로그램에서는 일반적이지 않습니다.

너무 많은 반복 후에 나에게만 해당됩니까, 아니면 단어 평균이 이상하게 보입니까 ... 내 답변이 도움이 되었기를 바랍니다.


감사! 겹치지 않는 동일한 크기의 파티션에 대한 의견은 내 마음에 그것을 명확히했습니다. 이 수치를 발표 할 때 "모든 카테고리 평균이 전체 평균보다 높지만 Blahblah 역설"과 같은 것을 말할 수 있기를 바랐습니다. "심슨의 역설!, 아이비 리그 성 차별!" 그런 다음 방에서 떨어지십시오. (때때로 그렇지 않습니까?) 그들에게 "이것은 서로 다른 크기의 겹치는 부분 집합이기 때문"이라고 말하고 싶지만 그것이 그렇게 될 것이라고 생각하지 마십시오!
James Adams

1
하하, 충분히 공정하다. 나는 전에 완전히 문맥을 얻지 못했습니다. 저는 천체 물리학 대학원생이므로 문맥에 익숙하지 않습니다. "모든 부분 집합 평균은 우리가 부분 집합을 만들어 우리가 더 큰 값을 향하도록 편향시키기 때문에 전체 평균보다 높다"는 효과에 대해 간단히 말할 수 있습니다. 나는 잘 알려진 것이 아니기 때문에 평균의 평균 이름을 언급하지 않을 것이며, 귀하의 경우는 일반화와 같습니다. 또한 단어 범주를 대체하는 동의어를 찾으려고 노력합니다. 일반적으로 단어가 상호 배타적 인 하위 집합을 의미한다고 생각합니다.
tbell

시맨틱 만족 (Semantic Satiation) 은 반복으로 인해 단어 나 문구가 일시적으로 듣는 사람에게 의미를 잃게되고, 말은 반복되는 의미없는 소리로 인식됩니다.
Patrick

1

문제는 " 이해하지만 마케팅에 설명해야합니다 "이므로 OP는 일반인이 이러한 사실을 해석하는 방법 (사실이 사실인지 또는 사실인지를 나타내는 방법이 아님)과 관련이있는 것 같습니다. 이 질문은 10 가지 제품 범주 (AJ)를 참조하므로이 예는 어떻습니까?

[마케팅 그룹과의 회의에서]
OP : 여기서 볼 수 있듯이 A, B 및 C를 구매하는 고객은 평균보다 가치가 있습니다.
Layman : 잠깐만! 모든 사람이 평균보다 어떻게 더 높을 수 있습니까?
OP : 좋은 질문입니다. 이 슬라이드는 A, B 및 C 고객에게 중점을 두지 만 성능이 낮은 다른 그룹은 표시되지 않습니다. 예를 들어, 카테고리 D 및 G의 고객은 각각 평균의 절반에 해당합니다.

이것은 '모든 것이 평균 이상입니다'에 대해 모든 사람의 내부 bs- 알람을 진압해야합니다.


이것은 질문에 대답하는 방법이 아닙니다.
Michael R. Chernick

그의 질문에 대한 답변은 받았지만 아무도 그의 문제를 해결하지 못했습니다.
Patrick

내 의견은 Patrick의 답변과 관련이 있습니다.
Michael R. Chernick

다른 스타일의 응답에 대한 규칙은 없습니다. (실제 또는 상상 된) 토론과 대화를보고하는 것은 소크라테스 이후의 문제 (그리고 내가 아는 모든 것을 위해 그보다 먼저)를 통해 시간이 오래 걸리는 사고 방식입니다.
Nick Cox

그러나 그 설명은 사실 틀 렸습니다. 추가 범주 (DJ)가없는 경우에도 관찰 결과는 그대로 유지됩니다. 하위 집합이 전체 집합을 포함하더라도 중첩 하위 집합의 평균은 전체 집합의 평균보다 높을 수 있습니다.
isarandi

0

다른 답변은 여기에서 무시하십시오. 이것은 실제로 역설 이 아닙니다 . 여기서 모든 사람들이 무시하고있는 실제 문제는 당신이 실제로보고 있는 확률을 착각하고 있다는 것 입니다. 실제로 제안 된 예제 (마케팅)에서 자체적으로 사용하고 해석하는 두 가지 완전히 다른 평균과 통계가 있습니다.

우선 고객 당 구매 한 평균 제품 수가 있습니다. 평균적으로 한 고객이 1.6 개 품목을 구매합니다. 물론 고객은 제품의 0.6을 초과 할 수 없습니다 (연속 측정 값이있는 쌀이나 곡물이 아니라고 가정).

둘째, 특정 제품을 구매하는 평균 고객 수가 있습니다. 이상하게 들리나요? 평균적으로 제품은 5.33333333 ... 고객이 구매합니다. 그러나 이것은 다릅니다. 여기서 설명하는 것은 구매 한 제품 수 (3 개뿐)가 아니라 실제로 해당 제품을 구매 한 사람들의 수입니다.

이 두 가지 값을 다음과 같이 생각하십시오.이 두 값은 고객이 하나만 있거나 제품이 하나 뿐인 경우 무엇을 나타 냅니까? 결국, 단일 데이터 포인트의 평균은 주어진 데이터 포인트에 불과합니다.

또는 더 나은 방법은 차트를 사용하여 제품을 구매하는 데 지출 한 금액을 달러로 계산하는 것입니다. 분명히 개별 고객이 소비 한 평균 금액은 대기업 (또는 소규모 사업자)이 공급하는 제품이 평균적으로 산출 한 금액보다 훨씬 적습니다. 회사의 안녕을 논의 할 때 두 가지 가치를 모두 사용하는 좋은 방법을 생각할 수 있습니다.

이것을 마케팅 담당자에게 설명 할 때 내가 말한 것처럼 설명하십시오. 역설이 아닙니다. 완전히 다른 통계 일뿐입니다. 여기서 유일한 문제는 실제로 차트를 읽는 두 가지 방법 (즉, 제품 당 구매하는 사람 수와 사람당 구매 한 제품 수)을 읽는 두 가지 방법이 있다는 사실을 알았습니다.

tl; dr 가장 먼저 설명한 것은 개별 고객이 제품 구매에 기꺼이 쓰는 평균 금액입니다. 두 번째는 일반인의 특정 제품에 대한 평균 수요입니다. 두 가지가 모두 같은 것이 아닌 이유를 지금 알 수 있습니다. 그것들을 그렇게 비교하면 쓰레기 정보를 얻을 수 있습니다.


편집하다

실제로 일부 제품 a, b 또는 c를 구매하는 고객이 소비 한 평균 돈에 대한 질문이있는 것 같습니다. 좋구나. 이것은 실제로 계산 오류입니다. 나는 이것을 역설이라고 부르지 않을 것이다. 정말 미묘한 보풀입니다.

열을보십시오. 열간에 공유되는 사람들이 있습니다. 적절한 가중 평균을 했다고 가정 해 봅시다 . 여전히 사람들을 두 번 추가하고 있습니다. 즉, 평균에는 2 이상의 값을 가진 추가 인원이 포함됩니다. 이제 평균은 얼마입니까? 1.6이었다! 본질적으로 평균은 다음과 같습니다.

나는=0V에이이자형영형에프이자형아르 자형에스영형나는V에이이자형영형에프이자형아르 자형에스영형나는

그것은 확실히 올바른 공식이 아닙니다. 상호 배타성을 가정하지만 상황에서 실제 평균을 얻도록 조정하는 방법은 가중 평균입니다.

나는=0이자형아르 자형영형에프이자형영형이자형와이나는나는에이V이자형아르 자형에이이자형에스이자형와이이자형아르 자형에스영형와이나는나는

어느 쪽이든 엉망 평균을 얻을 수 있습니다. 한 범주가 평균적으로 "무게"가 높기 때문에 한 가지 실수는 가중 평균의 필요성을 무시하는 것이 었습니다. 밀도와 같습니다. 하나의 가치는 사람들이 더 밀집되어 있음을 나타냅니다. 다른 문제는 중복 추가로 평균이 왜곡됩니다. 그래도이 "역설"중 하나를 부르지는 않습니다. 일단 당신이하고있는 것을 보았을 때 그것이 왜 효과가 없는지 나에게 분명해 보였습니다. 가중 평균은 필요에 따라 다소 설명이 필요합니다. 이제 값을 여러 번 추가 한 것 같습니다 ... 작동하지 않습니다. 기본적으로 값의 제곱 평균을 취했습니다.


나는 이것이 사실이라고 생각하지 않습니다. 나는 얼마나 많은 사람들이 특정 제품을 구입하는지에 관심이 없습니다. 고객이 A를 구입 한 것을 감안할 때 고객이 구매 한 총 제품 수에 관심이 있습니다.
James Adams

@JamesAdams 좋습니다. 이 경우 문제는 훨씬 사소합니다. 당신은 단지 샘플의 부분 집합의 평균을 취하고 있습니다. 이론적으로 B와 C를 동일하게 사용하면 최종 평균은 실제 평균이 아닙니다. 그러나 이는 샘플이 동일하지 않기 때문입니다. 그게 다야. 사실, 나는 그것이 왜 사람에게 명백한 이유를 알지 못합니다. 실제로 적절한 평균을 얻기 위해 평균을 수정하는 솔루션이 있습니다. 가중 평균이라고하며 기본적으로 각 하위 평균을 해당 그룹의 사용자 수로 "가중"합니다. 말이 되나요?
그레이트 오리

@JamesAdams 그리고 나는 당신이 그것에 관심이 없다는 것을 알고 있습니다. 당신은 당신이 한 사람당 평균 제품 수를 시도하고 계산하기 위해 그 평균을 사용하는 역설을 형성했다고 주장하는 수학입니다. 이것이 바로이 답변에서 다른 통계에 대한 두 번째 평균이 있고 귀하의 "실수"가 완전히 다른 평균이되도록하려는 것입니다.
그레이트 오리
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.