더 중요한 통계 : '모든 여성의 90 %가 살아 남았다'또는 '생존 한 모든 사람들의 90 %가 여자였다'?


14

타이타닉의 다음 진술을 고려하십시오.

가정 1 : 배에는 남자와 여자 만 있었다

가정 2 : 많은 남성과 여성이 있었다

성명서 1 : 모든 여성의 90 %가 생존

성명서 2 : 생존 한 모든 사람들의 90 %가 여성이었습니다.

첫 번째는 여자를 구하는 것이 우선 순위가 높았 음을 나타냅니다 (남자를 구했는지 여부에 관계없이)

두 번째 통계는 언제 유용합니까?

그들 중 하나가 다른 것보다 거의 항상 더 유용하다고 말할 수 있습니까?


40
어떤 목적에 더 유용합니까?
Aksakal

12
이 답변들 중 어느 것도 심슨의 역설에
Nemo

3
나는 당신이 여자인지 아닌지에 달려 있다고 말할 것입니다!
meh

6
첫 번째 진술은 남성에 대한 비교 가능한 통계가 없으면 의미가 없습니다.
Barmar

1
@RahulSaha 그러나 남성의 95 %가 살아남는다면 남성보다 우선 순위가 높다는 의미 일 수 있습니다. 그렇기 때문에 비교가 필요합니다.
Barmar

답변:


54

그것들이 서기 때문에, 성명서 1 또는 2 중 어느 것도 유용하지 않습니다. 승객의 90 %가 여성이고 사람의 90 %가 무작위로 생존 한 경우 두 진술 모두 사실입니다. 이 진술은 승객의 전반적인 구성과 관련하여 고려해야합니다. 그리고 생존의 전반적인 기회.


우리가 100 명씩 여자만큼 남자가 있다고 가정하자. 다음은 여성 (W)에 대한 남성 (M)과 죽은 (D)에 대한 생존 (S) 매트릭스입니다.

  |  M |  W
------------
S | 90 | 90
------------
D | 10 | 10

여성의 90 %가 살아 남았습니다. 남성의 90 %도 마찬가지입니다. 생존자의 절반은 여성 이었기 때문에 진술 1은 사실이고 진술 2는 거짓입니다. 이것은 많은 생존자와 일치하지만 성별 차이는 없습니다 .

  |  M |  W
------------
S | 10 | 90
------------
D | 90 | 10

여성의 90 %는 살아남 았지만 남성의 10 %만이 살아 남았습니다. 생존자의 90 %는 여성이었습니다. 두 진술 모두 사실입니다. 이것은 성별의 차이 와 일치합니다 . 여성은 남성보다 생존 가능성이 더 높습니다.

  |  M |  W
------------
S |  1 |  9
------------
D | 99 | 91

여성의 9 %가 생존했지만 남성의 1 %만이 생존했습니다. 생존자의 90 %는 여성이었습니다. 명령문 1이 거짓이고 명령문 2가 참입니다. 이것은 다시 성별의 차이 와 일치합니다 . 여성은 남성보다 생존 가능성이 더 높습니다.


3
(or indeed, if *everyone* survived)... 모든 사람이 생존하면 비율에 관계없이 모든 여성의 100 %가 생존했습니다.
Bridgeburners

1
@ 브리지 버너 : 당신은 완전히 맞아, 내가 컴퓨터에서 떨어져있을 때 그것은 나를 때렸다. 고마워, 나는 내 대답을 편집했다.
Stephan Kolassa

18

겉보기에는 단순히 정보 흐름의 방향 때문에 성에서 조건부 생존 조건부 확률이 더 유용합니다. 사람의 성별은 자신의 생존 상태 이전에 알려져 있으며,이 확률은 예측적인 의미에서 예상대로 사용될 수 있습니다. 또한 여성의 유병률에 영향을받지 않습니다. 확실치 않은 경우 예측을 생각하십시오.


그렇습니다. 문제의 실제 통계에 어떻게 적용되는지 이해하기 위해, 당신은 진술 # 1이 1912 년에 큰 여객선을 타고 여자가된다면 빙산에 감염된 물에서 가라 앉는 경우, 생존 확률은 90 %입니까? 그리고, 아마 내가 오늘 이러한 상황을 생존의 기회를 의미 인명 구조 기술과 관행은 그 이후로 개선하는 합리적인 가정을한다 추가 더 나은 90 % 이상? 멋있는! ;-)
Don Hatch

이러한 의견은 원래 설명 목표를 넘어 판매합니다.
Frank Harrell

목표가 맞습니까? 문제는 실제로 실제 타이타닉에 대한 이러한 진술의 유용성에 관한 것입니다. 실제로 그 이후로 많은 변화가 있었기 때문에 실제로 예측에 유용하지는 않습니다. 따라서 휴리스틱이 첫 번째 실제 예제에서 실패한 것 같습니다. 그것은 좋은 시작처럼 보이지 않습니다. 반면에 OP는 타이타닉 문제를 예측 관련성 있는 현재 시나리오에 적용되는 동일한 형식의 일반적인 문제에 대한 대리자로 의도 했을 수 있습니다. 모르겠어요
돈 해치

1
저의 저서 Regression Modeling Strategies 에서 TItanic 승객의 생존 확률에 대한 자세한 사례 연구를했던 것처럼 , 무슨 일이 있었는지 발견하는 데 많은 가치가 있습니다. 미래의 타이타닉 스를 예측하기 위해 그 로지스틱 모델에서 예측 된 확률을 사용하지 않고 구명정 선택 과정에서 패턴을 발견합니다.
Frank Harrell

6

첫 번째는 여자를 구하는 것이 우선 순위가 높았 음을 나타냅니다 (남자를 구했는지 여부에 관계없이)

"우선 순위"라는 단어는 라틴어에서 "이전"을 의미합니다. 우선 순위는 다른 것보다 먼저 오는 것입니다 ( "보다 중요한"의미에서 "이전"이 사용되는 경우). 여성을 구하는 것이 우선 순위라고 말하면 여성을 구하는 것이 무엇보다 먼저 이루어져야합니다. 그리고 자연스런 가정은 그것이 전에 오는 것은 사람을 구하는 것입니다. 당신이 "남자를 구했는지 여부에 관계없이"라고 말하면, 우리는 그것이 이전에 무엇인지 궁금해합니다.

우리가 일반적인 생존율이 무엇인지 모른다면 여성의 생존율이 높다고 말하지 않습니다. 마지막 배는 여성의 90 % 이상이 살아남 았지만 저축하는 여성이 우선 순위라는 것을 보여주는 것은 아닙니다.

그리고 여성의 생존자 비율을 아는 것은 전체 여성의 비율이 여자인지 몰랐을 때 많은 것을 말하지 않습니다.

통계가 더 유용한 것은 실제로 상황에 달려 있습니다. 어떤 것이 위험한지 알고 싶다면 사망률이 더 중요합니다. 어떤 것이 얼마나 위험한 지에 대해 알고 싶다면 사상자 비율 분석이 중요합니다.


2
Nice critique :-) "내가 마지막으로 탔던 배는 여성의 90 % 이상이 살아남 았지만, 저축하는 여성이 우선 순위라는 것을 보여주는 것은 아닙니다." 물론 .. 그들을 선외로 버리는 것에 비해 높은 우선 순위! 물론 이것은 "높은 우선 순위"에 대한 터무니없는 해석이지만 OP가 "남자를 구하는 것보다 우선 순위"라는 해석을 배제했기 때문에 우리에게 남은 것은 터무니없는 해석입니다.
돈 해치

3

이러한 확률이 어떻게 관련되어 있는지 조사하는 것이 유용 할 수 있습니다.

WS

P(S|W)=0.9

P(W|S)=0.9

Bayes Theorem은 이러한 확률 진술이 어떻게 관련되어 있는지 보여줍니다.

P(S|W)=P(W|S)P(S)P(W)

P(S)P(W)

P(S)P(W)


3
또한 P (S)와 P (W)를 모두 알지 못하면 P (S | W)와 P (W | S) 모두 같은 좌절감으로 인해 유용성이 떨어진다고 결론을 내립니다. P (S)와 P (W) 중 정확히 하나가 알려진 경우 말할 수있는 내용에 대해서는 아직 명확한 그림이 없습니다.
돈 해치

P(W)=0.5

1
예, 그렇습니다. 평결은 정보가 그 정보를 충분히 제공 할 수 없다고 판단하는 것 같습니다. P (W | S) 나 P (S | W)에서 추출 할 수있는 정보, P (W) 등을 추가 할 때마다 "왜 지구상에서 왜 나는 왜 그냥 나에게 보여? 나에게 만 비율을 주셨 는가? 이것에 대해 생각을 전체 테이블을 ".
돈 해치

3

무엇이 유용하다고 생각하는지에 달려 있습니다.

(에스|)>(에스|미디엄)@StephanKolassa와 @knrumsey가 이미 답변에서 말했듯이 두 정보는 더 이상 정보없이 똑같이 쓸모가 없습니다. 누군가가 이런 종류의 정보를 표현하고자한다면, "여성의 90 %는 살아남 았지만 남성의 20 %만이 살아 남았다"와 같은 진술 1보다 더 많은 것을 말해야합니다.

반면, 생존자 이야기가 주로 여성의 이야기 인 이유가 궁금하다면, 진술 2는 다른 정보가없는 경우에도 진술 2를 유용하게 설명 할 것입니다.

나는 진술 1이 문맥 밖에서 유용하다고 생각할 수 없다. 그것은 다른 어떤 것에 비해 여성을 구하는 것에 주어진 우선 순위에 대해 아무 말도하지 않습니다. 진술 1이 나를 위해하는 유일한 것은 그것이 "더 많은 것을 말해줘"라고 말하는 것입니다.


0

표면적으로 (또는 현실과 분리 된 상태에서) 두 진술은 국가 목표에 똑같이 쓸모없는 것으로 보입니다. 그러나 상황을 고려할 때 두 번째 진술은 분명히 더 유용합니다.

진술 2

두 번째 문장에서 무엇을 추출 할 수 있는지 봅시다. 여성의 비율 살아남은 것 중에는 :

w=px/(px+(1p)z)
where p - ratio of women among passengers, x and z are probabilities of survival of women and men. The denominator is the total survival rate.

We are testing hypo H0:x>z

Let's re-write the equation to obtain the necessary conditions for H0:

(1w)px=w(1p)z
x=w(1p)z/((1w)p)
For H0 to hold we have:
x=w(1p)z/((1w)p)>z
w(1p)>(1w)p
0.9(1p)>0.1p
1p>p/9
p<0.9

So, for your hypo that women were more likely to survive, all you need is to check that there were less than 90% women among the passengers. This is consistent with your assumption 2, which seems to imply that p1/2. Hence, I declare that statement 2 all but asserts that women were more likely to survive, i.e. it's quite useful for your goal.

Statement 1

The first statement is truly useless in isolation, but has a limited use in the context. If we pretend we know nothing about the event, then saying that x=0.9 tells us nothing about z, and whether x>z?

However, from that little that I know about the event - I haven't seen the movie - it seems unlikely that xz. Why?

We know from Assumption 2 that p1/2, so the total survival rate is px+(1p)z. If we assume that xz and p1/2 we get

px+(1p)zx=0.9
In other words 90% of all passengers survived, which doesn't ring true to me. Would they make a movie and talk about it for 100 years if 90% of passengers survived? So, it must be that x>>z and less than half of passengers made it.

Conclusion

I'd say that both statements support your hypo that women were more likely to survive than men, but Statement 1 does so rather weakly, while Statement 2 in combination with assumptions almost surely establishes your hypo as a fact.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.