평균 퍼즐 회귀

9

Daniel Kahneman의 "Thinking, Fast and Slow"의 "평균으로의 회귀"장에서 예제를 제공하고 독자에게 전체 판매 예측과 전년도의 판매 수를 고려하여 개별 상점의 판매를 예측하도록 요청합니다 . 예를 들어 (이 책의 예에는 4 개의 상점이 있으며 여기서는 단순성을 위해 2를 사용합니다) :

Store    2011    2012
1        100      ?
2        500      ?
Total    600     660

순진한 예측은 상점 1과 2에 대해 110과 550이며 각각에 대해 10 % 증가합니다. 그러나 저자는이 순진한 접근 방식이 잘못되었다고 주장합니다. 실적이 저조한 매장은 10 % 이상 증가하고, 실적이 좋은 매장은 10 % 미만으로 증가 (또는 감소) 할 가능성이 높습니다. 따라서 115 (15 % 증가) 및 535 (7 % 증가) 예측은 순진한 예측보다 "정확한"것입니다.

내가 이해하지 못하는 것은 매장 1의 100 판매가 반드시 실적이 저조한 매장이라는 결론을 내릴 수 있다는 것입니다. 아마도 위치 차이로 인해 상점 1과 2의 실제 시계열 평균 수단은 10과 550이며, 상점 1은 2011 년에 슈퍼 년을, 상점 2는 2011 년에 비참한 해를 보냈습니다. 그러면 의미가 없습니다. 상점 1의 감소와 상점 2의 증가를 예측하기 위해?

원래 예에서는 시계열 정보가 제공되지 않았지만 "평균으로의 회귀"가 횡단면 평균을 나타내므로 시계열 정보는 중요하지 않다는 인상을 받고 있습니다. 내가 무엇을 오해하고 있습니까?

regression

8

나는 그 책을 읽고 있습니다. 주요 정보를 올바르게 기록하지 않았습니다. "모든 매장은 크기와 상품 선택이 비슷하지만 위치, 경쟁 및 임의의 요인으로 인해 판매가 다릅니다"라고 말합니다. 이것이 핵심이며, 특히 마지막 부분입니다. 평균으로 회귀하기 위해서는 임의의 요인이 필요합니다 (매출액이 고정 금액으로 증가하면 매장 전체에 균등하게 분산 된 10 %의 이익이 적절 함).

— 피터 플 로움
소스

2

"모든 상점이 유사하다"는 가정은 시계열의 평균이 동일하다는 것을 의미합니까? 그렇지 않으면 위치로 인해 두 개의 동일한 상점이 여전히 매우 다른 방법을 가질 수 있습니다.

1

나는 그것이 문제의 가장 큰 표현이 아니라는 것을 인정하지만, 당신이 원래의 질문에서 가지고있는 것보다 훨씬 명확합니다.

— Peter Flom

2

데이터 포인트가 너무 적 으면 이전의 (또는 묵시적인 등가)에 의해 거의 완전히 대답됩니다. 저자가 이전에 이런 종류의 데이터를 많이 본 적이 있다면 과거 관측 결과를 고려할 때 그들의 대답이 정확하다고 생각할만한 충분한 이유가있을 수 있습니다. 적어도 이것이 더 많은 정보를 지정하지 않으면 서 이것이 평균에 대한 회귀의 예라고 제안하는 것은 신축 적이라고 생각합니다. 예를 들어, 상점이 비슷한 위치에 있습니까? 그들이 상점 사이에 명백한 차이가 없다면, 우리는 그들이 비슷한 인구의 일부라고 생각하는 것이 정당하다고 느낄 수 있으며 평균에 대한 회귀에 대해 생각할 수 있습니다. 점포간에 체계적인 판매 차이를 설명 할 수있는 명백한 차이가있는 경우에는 그렇게하는 것이 합리적이지 않습니다.

— 보그 다노 비스트
소스

0

더 나은 (가설적인) 일러스트레이션은 다음과 같습니다.

Store    2011    2012
1        100      ?
2        180      ?
3        190      ?
4        210      ?
5        235      ?
6        300      ?

체계적인 이유를 제외하고 우리는 최악의 수행자 (임의의 원인)가 다시는 그렇지 않을 것으로 예상합니다. 또한 최고의 성과를 위해.

따라서 평균 성장률이 10 %이면 1 위는 110보다 좋고 6 위는 330보다 나쁩니다.

나는 iffy 부분이 가정이라고 생각합니다. 팩의 후발이 진정으로 임의의 우연이고 근본적인 이질성이 아니라는 것은 매우 드문 IMHO입니다.

— curious_cat
소스