오늘날 Usain Bolt보다 빠른 사람이 있습니까?

편집 : 나는 샘플 통계가 주어진 주어진 인구에서 "참"최대 가능성을 결정하는 기술적 문제와 방법론에 더 관심이 있습니다. 명백히 미묘한 기록 설정 대시 시간에서 Mr. Bolt보다 빠른 러너의 가능성을 추정하는 데 문제가 있습니다. 이것이 사실이 아니라고 상상함으로써 유머러스.

우사 인 볼트 (Usain Bolt)는 100m 대시에서 가장 빠른 사람 측정입니다. 그러나 소수의 운동 선수를 감안할 때 "진정한"가장 빠른 인간 생존은 어딘가에 소파에 앉아 있고 경쟁적인 달리기 경력을 시도하지 않은 것 같습니다.

정규 분포의 꼬리에서 샘플 간의 차이가 점점 작아진다는 사실을 사용하려고합니다. 나는 이것을 Usain을 2 위, 3 위 등으로 비교하여 Usain Bolt보다 빠른 사람이 존재할 가능성을 계산하는 데 사용하고 있습니다.

이렇게하려면, 난에 대한 정규 분포의 CDF의 유도체를 복용하여 "우사 인 볼트"를 넘어 존재하는 가장 큰 값을 계산하기 위해 노력하고있어 받는 것을 제기, 일 (여기서 7,000,000,000 또는 수의 약이다 "최대"보다 적은 샘플-이 배후의 논리는 독일 탱크 문제 위키 백과 페이지에 설명되어 있습니다 . $y$ $n$ $n$

$\int_{0}^{\infty}y f_{Y_N} (y)dy = \lambda n \int_{0}^{\infty} y \left [ \tfrac12\left[1 + \operatorname{erf}\left( \frac{y-\mu}{\sigma\sqrt{2}}\right)\right] \right ]^{n-1} \frac{1}{\sqrt{2\pi\sigma^2}}\, e^{-\frac{(y - \mu)^2}{2 \sigma^2}}dy$

우사 인 볼트보다 더 빠른 사람이 존재할 확률을 계산하는 올바른 방법입니까?
"다른 배포판에 대한 독일 탱크 문제"이외의 다른 유형의 질문에 대한 이름이 있습니까?
분포의 극단 표본에서 표준 편차를 추정하는 좋은 방법이 있습니까? 모든 시간 중에서 가장 빠른 100m 대시에 대한 정보를 찾는 것은 쉽습니다. 평균 및 분산을 찾기가 어렵습니다)

주제에 대한 배경 지식이없는 프로그래머를 다루는 동안 기다려 주셔서 감사합니다.

normal-distribution maximum

— ŹV-
소스

당신은 당신이 운동 선수인지 여부는 달리기 속도와 무관하다고 가정합니다. 어느 것이 괜찮지 만 의문의 여지가 있습니다.

— bayerj

@bayerj 그래, 이것이 다음 올림픽 도전자를 예측하는 것은 정말 나쁜 방법이라는 것이 분명하다고 생각한다. 그러나 그것은 일반적으로 흥미로운 질문처럼 보이며 누군가가 동정심을 가지고 나를 도울 수 있다는 희망으로 최선을 다해 대답하려고합니다.

— ŹV-

여기서 '빠른 (er)'이라는 질이 유전 적 잠재력이나 운동 능력을 나타내는 것이지, 실제로 고속에 도달 할 수있는 능력이 아니라는 점에서 문제가 부적절하다고 생각합니다.

— Digio

@Digio 일부 회사 "Fubarco"가 정규 분포 된 일련 번호를 가진 제품 세트를 만든다고 가정 할 때 "빠른"을 "일련 번호가 더 높은"으로 교체하십시오.

— ŹV-

예를 들어 질문을하는 것은 일반적으로 좋은 일입니다. 그러나이 예는 사람들이 실제로 요청하려는 내용을 산만하게하는 것처럼 보입니다. 실제로 직면하고있는 상황에 대해 토론하기 위해 이것을 편집 할 수 있습니까?

— gung-복직 모니카

답변:

다른 답변과 달리 사용 가능한 데이터가 주어지면 볼트 능력에 대해 말할 수 있다고 주장합니다. 우선, 질문을 좁히십시오. 당신은 가장 빠른 인간을 요구하고 있지만, 최고의 여성 주자 여성이 최고의 남성 주자보다 약간 느린 것처럼 보이는 남성과 여성의 달리기 속도 분포에 차이가 있기 때문에 우리는 남성 주자에 중점을 두어야합니다. 일부 데이터를 얻으려면 지난 45 년 동안 100 회 실행 한 최고의 연도 실적을 볼 수 있습니다 . 이 데이터에 대해주의해야 할 사항이 몇 가지 있습니다.

그 시간은 최고의 달리기 시간이므로 모든 인간의 능력에 대한 것이 아니라 달성 된 최소 속도 에 대해 알려줍니다 .
이 데이터는 세계 최고의 러너 샘플을 반영한다고 가정합니다. 챔피언십에 참여하지 않은 더 나은 주자가 있었을 수도 있지만,이 가정은 상당히 합리적입니다.

먼저이 데이터를 분석 하지 않는 방법에 대해 설명하겠습니다 . 시간에 대한 실행 시간을 플롯하면 강한 선형 관계를 볼 수 있습니다.

이것은 선형 회귀를 사용하여 다음 해에 우리가 얼마나 더 나은 주자를 관찰 할 수 있는지 예측할 수있게합니다. 그러나 이것은 매우 나쁜 생각이 될 것입니다. 그것은 약 2 천년 안에 인간은 0 초 안에 100 미터를 달릴 수 있고 그 후에는 부정적인 실행 시간을 달성하기 시작한다는 결론으로 이어질 것입니다! 우리의 능력에는 생물학적, 물리적 한계가 있으며, 우리에게 알려지지 않은 것으로 상상할 수 있기 때문에 이것은 분명히 터무니없는 것입니다.

이 데이터를 어떻게 분석 할 수 있습니까? 먼저 최소값에 대한 데이터를 다루고 있으므로 해당 데이터에 적절한 모델을 사용해야합니다. 이를 통해 우리는 극단적 인 가치 이론 모델 을 고려하게됩니다 (예 : Stuart Coles 의 통계적 모델링에 대한 소개 책 참조). 이 데이터에 대해 일반화 된 극값 분포 (GEV)를 가정 할 수 있습니다 . 만약 여기서 독립적이고 동일하게 분산 된 랜덤 변수이며, 다음 의은 GEV 분포를 따른다. 미니 마 모델링에 관심이있는 경우 가 샘플 인 경우 $Y = \max(X_1,X_2,\dots,X_n)$ $X_1,X_2,\dots,X_n$ $Y_i$ $Z_1,Z_2,\dots,Z_k$ $-Z_i$ 미니 마에 대한 GEV 배포판을 따릅니다. 따라서 GEV 분포를 주행 속도 데이터에 맞출 수 있으며, 이는 매우 잘 맞습니다 (아래 참조).

모델에서 제안한 누적 분포를 보면 Usain Bolt의 최고의 실행 시간이 최저 임을 알 수 있습니다. $1\%$ 분포의 꼬리. 따라서 우리가이 데이터와이 장난감 예제 분석을 고수한다면 훨씬 작은 실행 시간은 거의 없을 것입니다 (그러나 분명히 가능합니다). 이 분석의 명백한 문제는 우리가 최고의 실행 시간을 매년 개선한다는 사실을 무시한다는 것입니다. 이것은 답의 첫 부분에서 설명 된 문제, 즉 여기서 회귀 모형을 가정하는 것이 위험하다는 가정으로 되돌아갑니다. 개선 될 수있는 또 다른 것은 아직 베이지안 접근 방식을 사용하고 생리 학적으로 가능한 실행 시간에 대한 데이터에 대한 지식이 부족하지만 아직 관찰되지 않았을 수있는 유익한 정보를 가정 할 수 있다는 것입니다. 현재로서는 알려져 있지 않습니다). 마지막으로, 유사한 극단적 가치 이론이 이미 스포츠 연구에 사용되었다. 예를 들어 Einmahl and Magnus (2008)는극한 가치 이론 논문을 통한 육상 기록 .

당신은 당신이 더 빠른 달리기 시간의 가능성에 대해 묻지 않고 더 빠른 주자를 관찰 할 가능성에 대해 물었다는 것에 항의 할 수 있습니다. 불행히도, 우리는 러너가 프로 운동 선수가 될 확률을 모르고 기록 된 러닝 타임을 사용할 수 있기 때문에 많은 것을 할 수 없습니다. 이것은 무작위로 발생하지 않으며 일부 주자는 프로 운동 선수가되고 일부는 그렇지 않은 사람 (또는 누군가가 달리기와 달리기를 좋아하는 사람)에 기여하는 많은 요인이 있습니다. 이를 위해서는 러너에 대한 자세한 인구 전체 데이터가 필요합니다. 또한 배포의 극단에 대해 문의하기 때문에 데이터가 매우 커야합니다. 그래서 이것에 대해서는 다른 답변에 동의합니다.

— 팀
소스

나의 첫 번째 본능은 이것이 나쁜 생각이지만, 그 이유를 조금 설명하겠습니다.

1) 기록 된 실행 시간으로 관찰 할 수없는 변수, 잠재 실행 기술을 측정하려고합니다. 괜찮습니다. 독일 탱크 문제에서 일련 번호는 모두 동일한 균일 분포로 생성됩니다. 문제에서 관찰 가능한 변수 실행 시간에서 잠재 변수 기술 (70 억 명)을 추론해야합니다. GTP에는 여러 일련 번호가 알려져 있습니다. 문제에서 데이터를 전혀 수집하지 않았으며 최대 (볼트)로 진행 중입니다. 또한, 당신은이 관측 불가능한 잠재 기술이 실제 달리는 시간과 전혀 관련이 없다고 가정하는 것 같습니다. 그냥 터무니없는 것 같습니다!

2) 선수는 인구의 무작위 표본이 아닙니다. 여러 번의 시도로 신중하게 선택됩니다. 우리가 전혀 달리기를 할 수있는 모든 사람들이 아마도 인생에서 적어도 한 번 누군가를 경주했다고 생각하고 각 사람이 얼마나 자주 또는 얼마나 많이 이기고 있는지에 따라 더 높은 수준의 경쟁을 계속해야하는지에 대해 결정했다면 인종이-그러면 Bolt가 실제로 가장 빠른 사람이라는 것이 믿어지지 않는 것 같습니다.

이것이 가장 먼저 떠오르는 이유입니다. 솔직히, 당신은 이것에 대해 약간의 바보 사용에 있습니다. 당신이 말하는 종류의 "확률"을 측정 할 방법이 없습니다.

— 헤센을 타락시키다
소스

다른 응답자는 비슷한 발언을했으며 의심의 여지없이 Bolt 씨보다 더 빠른 사람이있을 가능성을 추정하는 것은 매우 결함이 있습니다. 이러한 극단 값을 기반으로 한 예측의 기술 논리가 원칙적으로 올바른지 아는 것도 더 흥미로울 것입니다.

— ŹV-

문맥이 많은 혼란을 초래할 것이기 때문에 실제로 질문하려는 내용의 핵심에 도달하기 위해 질문을 추상화하는 것이 좋습니다. 당신이 말하는 "정규 분포"가 무엇을 나타내는 지 여전히 명확하지 않습니다. 실제 실행 시간? 운동 선수의 달리기 능력?

— hessian

-2

내 대답은 아니오 야.

모집단 (선수)의 표본이 있고이 표본의 최대 값은 Bolt라고 가정합니다. 따라서 모집단의 최대 값이 표본의 최대 값보다 클 확률을 찾고 있습니다. 그것이 당신의 가설입니다.

가정이 잘못되어 표본이 실제로 모집단 이었다면 어떻게합니까?

나는 달리는 모든 사람이 그를 이길 기회가 있다고 합리적으로 주장 할 수있다. 아무도하지 않았으므로 지구 인구의 진정한 최대치입니다.

선수들이 무작위 표본이 아님이 분명합니다. 나는 이것에 대해 의문의 여지가 없기를 바랍니다. 물론 운동 선수가되는 방법에는 임의의 정도가 있습니다. 반면에, 운동 선수가 아닌 경우 운동 능력과 성과는 운동 선수와 비교되지 않습니다. 나는 볼트만큼 열심히 훈련하고 훈련하는 모든 조건을 감안할 때 누군가 볼트보다 빨리 달리는 것을 취할 수 있습니다. 그러나 선수가 아닌 사람을 뽑을 확률은 0이며, 육상 및 필드 조건에서 볼트를 100m 돌진합니다.

— 악사 칼
소스

이 올바른지 뒤에 나는 방법에 더 관심이 있어요, 그 일련 번호를 일반적으로 대신 :) 아마 속도를 실행 / 중복 승 분산 탱크 상상

— - ZV