생존 시간이 기하 급수적으로 분포 된 것으로 추정되는 이유는 무엇입니까?


36

UCLA IDRE에 대한이 게시물에서 생존 분석을 배우고 있으며 섹션 1.2.1에서 넘어졌습니다. 튜토리얼은 말합니다 :

... 생존 ​​시간이 기하 급수적으로 분포 된 것으로 알려진 경우, 생존 시간 을 관찰 할 확률은 ...

생존 시간이 기하 급수적으로 분포 된 것으로 추정되는 이유는 무엇입니까? 나에게는 매우 부자연 스럽습니다.

정규 분포가 아닌 이유는 무엇입니까? 특정 조건 (일 수)에 따라 어떤 생물의 수명을 조사하고 있다고 가정 해 봅시다. 일부 분산 (일수는 3 일인 100 일)이있는 수를 중심으로해야합니까?

시간이 엄격하게 양수되기를 원한다면 평균이 높고 분산이 작은 정규 분포를 만드는 것이 어떻습니까 (음수가 나올 가능성이 거의 없음)?


9
경험적으로 정규 분포를 실패 시간을 모델링하는 직관적 인 방법으로 생각할 수 없습니다. 내가 적용한 어떤 작품에서도 결코 잘리지 않습니다. 그들은 항상 아주 오른쪽으로 치우쳐 있습니다. 정규 분포는 평균적으로 문제로 발생하지만 생존 시간은 연속적으로 일련의 병렬 또는 직렬 구성 요소에 적용되는 지속적인 위험의 영향과 같은 극단 문제로 발생합니다.
AdamO

6
나는 생존과 실패 시간에 내재 된 극단적 인 분포에 대해 @AdamO에 동의합니다. 다른 사람들이 지적했듯이 지수 가정은 다루기 쉽다는 장점이 있습니다. 그들에게 가장 큰 문제는 일정한 부패율에 대한 암시적인 가정입니다. 다른 기능 형태도 가능하며 소프트웨어에 따라 표준 옵션으로 제공됩니다 (예 : 일반화 된 감마). 다른 기능적 형태와 가정을 테스트하기 위해 적합도 테스트를 사용할 수 있습니다. 생존 모델링에 대한 최고의 텍스트는 Paul Allison의 SAS를 사용한 생존 분석, 2 판입니다. SAS-it은 훌륭한 리뷰입니다
Mike Hunter

8
인용문의 첫 단어는 " if "입니다.
Fomite

답변:


40

지수 분포는 종종 생존 / 신뢰도 데이터를 특성화하는 데 사용할 수있는 가장 간단한 분포이기 때문에 생존 시간을 모델링 하는 데 사용됩니다. 메모리가 없기 때문에 위험 함수는 w / r / t 시간이 일정하기 때문에 분석이 매우 간단합니다. 이러한 종류의 가정은 예를 들어 고품질 집적 회로와 같은 일부 전자 부품에 유효 할 수 있습니다. 위험에 대한 시간의 영향을 무시할 수 있다고 가정 할 수있는 더 많은 예를 생각할 수 있습니다.

그러나 이것이 많은 경우에 적절한 가정이 아님을 알 수 있습니다. 분명히 부정적인 생존 시간은 의미가 없지만, 어떤 상황에서는 정규 분포가 괜찮을 수 있습니다. 이러한 이유로, 로그 정규 분포가 종종 고려됩니다. 다른 일반적인 선택은 모델 등 현명한 선택이 주제 영역의 경험에 의해 통보 될 이블, 작은 극단 값, 최대 익스트림 가치, 물류를 포함 확률 플로팅 . 물론 비모수 적 모델링을 고려할 수도 있습니다.

생존 분석에서 고전적 파라 메트릭 모델링에 대한 좋은 참고 자료는 William Q. Meeker와 Luis A. Escobar (1998)입니다. 신뢰성 데이터의 통계적 방법 , Wiley


"위험 함수는 일정한 w / r / t 시간입니다"에 대해 더 자세히 설명해 주시겠습니까?
Haitao Du

4
@ hxd1011 : 아마도 "위험 함수"에 의해 저자는 의해 주어진 함수를 참조합니다. 여기서 는 의 pdf 이고 는 꼬리입니다 의 ( ). 이것을 실패율 이라고도합니다 . 위한 것으로 관찰은 , 실패율이 상수입니다. 또한 지수 분포 에만 이 속성이 있음을 나타내는 것은 어렵지 않습니다 .r X ( t ) = f X ( t ) / ˉ F X ( t ) f X X ˉ F X X ˉ F X ( t ) = 1 F X ( t ) = t f X ( x )rXrX(t)=fX(t)/F¯X(t)fXXF¯XX특급 ( λ ) , R ( t ) = ( λ E - λ t ) / ( E - λ t ) = λF¯X(t)=1FX(t)=tfX(x)dxExp(λ)r(t)=(λeλt)/(eλt)=λ
wchargin

22

생존 분포에서 지수가 나타나는 방식 뒤에 약간의 수학적 직관을 추가하려면 다음을 수행하십시오.

생존 변수의 확률 밀도는 . 여기서 는 현재 위험 (현재 사람이 "죽음"위험)이고 는 까지 사람이 살아남을 확률 . 사람이 최대 일을, 하루 1 ... 생존하고 2 일 생존 확률로 확장 될 수 . 그러면 : 일정한 작은 위험으로 다음과 같이 사용할 수있다 : 근사하는 , 간단히 H ( t ) S ( t ) t S ( t ) t P ( S U R V I V E D D Y t는 ) = 1 - H ( t ) P ( s u r v i v e d d af(t)=h(t)S(t)h(t)S(t)tS(t)t

P(survived day t)=1h(t)
λ e - λ1 - λ S ( t )
P(survived days 1,2,...,t)=(1h(t))t
λ
eλ1λ
S(t) 이고 확률 밀도는 f ( t ) = h ( t )입니다.
(1λ)teλt
f(t)=h(t)S(t)=λeλt

면책 조항 : 이것은 PDF의 적절한 파생을 시도하는 것이 아닙니다. 방금 이것이 우연의 일치라고 생각했으며 이것이 왜 정확하고 부 정확한지에 대한 의견을 환영합니다.

편집 : @ Samam에 의해 조언마다 근사치를 변경했습니다. 토론 의견을 참조하십시오.


1
+1 이것은 지수 분포의 속성에 대해 더 많이 이해하는 데 도움이되었습니다.
타오 뒤

1
S(t)=...tλt(1+x/n)n exx=o(n) tlimt(1λt/t)t=eλtt

@ SamT-의견을 보내 주셔서 감사합니다. 적용된 배경에서 나온 모든 수정 사항을 매우 환영합니다. 표기법에. wrt 한계에 도달하는 것은 확실히 필요하지는 않았지만 , 생존 모델에서 일반적으로 발생하는 것처럼 작은 대한 근사치가 여전히 믿습니다 . 아니면 우연히이 근사치를 유지시키는 다른 것이 있다고 말할 수 있습니까? λtλ
juod

1
이제 더 좋아 보인다 :)-문제는 가 작을 수도 있지만 가 반드시 작다는 것은 사실 이 아니다; 따라서 근사값 (직접)를 사용할 수 없습니다. "응용 수학에서는 가능하지만 순수한 것은 아닙니다"; 그것은 전혀 유지하지 않습니다. 그러나 우리는 이것을 해결할 수 있습니다 : 우리는 가 작다 는 것을 알고 있으므로물론 이므로 로 추론 할 수 있습니다λλt
(1+x/n)nex
λ
eλt=(eλ)t(1λ)t.
λ=λt/t
eλt(1λt/t)t.
샘 T

적용됨에 따라 이것이 약간 까다 롭다고 생각할 수도 있지만 요점은 추론 이 유효하지 않다는 것입니다. 유사한 잘못된 단계는 사실이 아닐 수 있습니다. 물론, 누군가가 신청했을 때, 당신은이 단계를 밟고, 대부분의 경우에 적용되며, 구체적인 사항에 대해 걱정하지 않아도됩니다. 순수한 수학을하는 사람으로서 이것은 나에게 문제가되지 않지만, 우리는 순수하고 적용이 필요하다는 것을 이해합니다! (특히 통계에서는 순수한 기술에 얽매이지 않는 것이 좋습니다.)
Sam T

11

생존 시간에 대한 철저한 분석을 위해 신뢰성 공학과 예측을 살펴보고 싶을 것입니다. 그 안에 자주 사용되는 몇 가지 배포판이 있습니다.

Weibull (또는 "욕조") 분포가 가장 복잡합니다. 유아 사망률 (결함이있는 부품이 조기에 고장 나는 경우), 유도 고장 (시스템 수명 동안 부품이 무작위로 고장 나는 경우) 및 마모 (부품이 고장난 경우)의 세 가지 유형의 고장 모드를 설명합니다. 사용하다). 사용 된 "\ __ /"와 같은 PDF가 있습니다. 일부 전자 제품의 경우 특히 "번 인 (burn in)"시간이 들릴 수 있습니다. 즉, 해당 부품이 곡선의 "\"부분을 ​​통해 이미 작동했으며 초기 고장이 이상적으로 차단되었음을 의미합니다. 불행히도 Weibull 분석은 빠르게 분해됩니다.부품이 균질하지 않은 경우 (사용 환경 포함) 또는 다른 시간 척도에서 부품을 사용하는 경우 (예 : 일부 부품을 직접 사용하고 다른 부품을 먼저 보관하는 경우) "랜덤 실패"비율은 두 가지 시간 측정 (작동 시간과 사용 시간)을 혼합하여 크게 달라집니다

정규 분포는 거의 항상 잘못되었습니다. 모든 정규 분포에는 음수 값이 있으며 신뢰도 분포는 없습니다. 그것들은 때때로 유용한 근사치가 될 수 있지만, 그것이 사실 일 때, 당신은 거의 항상 로그 노멀을보고 있기 때문에 올바른 분포를 사용할 수도 있습니다. 로그 정규 분포는 어떤 종류의 마모 및 무시할 수있는 임의의 실패가있을 때 그리고 다른 상황에서는 올바르게 사용됩니다 ! 정규 분포와 마찬가지로 유연성이 뛰어나 대부분의 데이터에 적합하도록 만들 수 있습니다. 그 충동에 저항하고 상황이 적절한 지 확인해야합니다.

마지막으로 지수 분포는 실제 작업량입니다. 예를 들어 부품이 직렬화되지 않고 서비스를 시작할 때 다른 시간을 갖는 경우와 같이 오래된 부품의 수를 모르는 경우가 많으므로 메모리 기반 배포가 종료됩니다. 또한 많은 부품의 마모 시간이 너무 길어 유도 고장에 의해 완전히 지배되거나 유용한 분석 시간 범위를 벗어납니다. 따라서 다른 배포판처럼 완벽한 모델이 아닐 수도 있지만, 그것들을 트립하는 것들에 대해서는 신경 쓰지 않습니다 . MTTF (인구 시간 / 실패 수)가있는 경우 지수 분포가 있습니다. 또한 시스템에 대한 물리적 이해가 필요하지 않습니다. 지수 추정을 할 수 있습니다 단지관측 된 부분 MTTF (충분히 큰 샘플을 가정)를 기반으로하며, 아주 가까이에서 나옵니다. 또한 매월마다 누군가가 지루해 지거나 끊어 질 때까지 일부 부분으로 크로켓을 연주합니다 (지수 적 인 MTTF로 롤백). 지수는 또한 중복 시스템의 가용성에 대한 백 백 계산을 수행 할 수있을 정도로 간단하여 유용성이 크게 향상됩니다.


3
이것은 좋은 대답이지만 Weibull 분포는 생존 모델에 대한 "가장 복잡한"모수 분포가 아닙니다. 그런 일이 있을지 확신 할 수 없지만 Weibull과 관련하여 일반화 된 감마 분포일반화 된 F 분포가 있으며, 둘 다 매개 변수를 0으로 설정하여 Weibull을 특수한 경우로 취할 수 있습니다.
gung-복원 모니카

신뢰성 공학에서 일반적으로 사용되는 가장 복잡한 것입니다 (첫 번째 단락 :) 귀하의 의견에 동의하지 않지만 실제로 사용 된 방법 (쓰기 방법에 대한 기록, 예) 실제 구현, 아니오 )
fectin-무료 Monica

9

명백한 질문에 답하기 위해 정규 분포가 음의 무한대로 진행되고 생존이 음이 아닌 음수이므로 생존에 정규 분포를 사용할 수 없습니다. 더군다나 실제로 생존자가 "생존 시간을 기하 급수적으로 분배 한 것으로 가정"하는 것이 사실이라고 생각하지 않습니다.

생존 시간이 파라 메트릭 방식으로 모델링 될 때 (즉, 명명 된 분포가 호출 될 때) 와 이블 분포 가 일반적인 시작 위치입니다. Weibull은 shape와 scale의 두 매개 변수를 가지며 shape = 1 일 때 Weibull은 지수 분포를 단순화합니다. 이것에 대해 생각하는 방법은 지수 분포가 생존 시간 동안 가능한 가장 간단한 모수 분포라는 것입니다. 이것이 생존 분석을 가르 칠 때 종종 논의되는 이유입니다. (비 유적으로, 우리는 종종 표본 SD를 먼저 알고 척도 검정을 수행하는 1- 표본 검정을 통해 가설 검정을 시작한다고 생각합니다 .) zt

지수 분포는 단위가 얼마나 오래 생존했는지에 관계없이 위험이 항상 동일하다고 가정합니다 (@CaffeineConnoisseur의 답변 그림 참조). 반대로 Weibull 분포에서 모양이 보다 크면 '인간 곡선'과 같이 생존 기간이 길어질수록 위험이 증가한다는 것을 의미합니다. 그것이 때 , 그것은 위험합니다 ( '나무')를 감소 의미한다. < 1>1<1

가장 일반적으로 생존 분포는 복잡하며 명명 된 분포에 적합하지 않습니다. 사람들은 일반적으로 어떤 배포판인지 파악하려고 노력하지도 않습니다. 이것이 Cox 비례 위험 모델을 대중적으로 만드는 이유입니다. 기준 위험은 완전히 지정되지 않은 채로 남아 있지만 모델의 나머지는 지정되지 않은 기준과의 관계 측면에서 매개 변수가 될 수 있다는 점에서 반모 수적입니다.


4
더군다나 실제로 생존자가 "생존 시간을 기하 급수적으로 분배 한 것으로 가정한다"고 생각하지 않는다. 나는 실제로 역학에서 일반적으로 암시 적으로 매우 흔하다는 것을 알았습니다.
Fomite

1
@gung, 당신은 친절하게 설명 할 수 있습니까- 기준 위험은 완전히 지정되지 않은 채로 남을 수 있다는 점에서
Gaurav Singhal

7

일부 생태학은이 질문의 뒤에 "왜"에 대한 답변을 도울 수 있습니다.

지수 분포가 생존을 모델링하는 데 사용되는 이유는 자연에 사는 유기체와 관련된 삶의 전략 때문입니다. 중간 정도의 여지가있는 생존 전략과 관련하여 본질적으로 두 가지 극단이 있습니다.

다음은 내가 의미하는 바를 보여주는 이미지입니다 (Khan Academy 제공).

https://www.khanacademy.org/science/biology/ecology/population-ecology/a/life-tables-survivorship-age-sex-structure

이 그래프는 Y 축에서 생존 한 개인과 X 축에서 "최대 기대 수명의 백분율"(일명 개인의 나이의 근사치)을 표시합니다.

제 1 형은 인간으로, 매우 낮은 영아 사망률을 보장하는 자손을 극도로 관리하는 유기체를 모델링합니다. 이 종들은 종종 부모의 시간과 노력이 많이 들기 때문에 자손이 거의 없습니다. 제 1 형 유기체를 죽이는 것의 대부분은 노년기에 발생하는 합병증의 유형입니다. 여기서 전략은 많은 수의 비용을들이는 경우 길고 생산적인 삶에서 높은 보수에 대한 높은 투자입니다.

반대로, 유형 III은 부모가 각 자손에 상대적으로 적게 투자하지만 나무가 몇 가지 의지가 있기를 희망하는 나무로 모델링됩니다 (그러나 플랑크톤, 산호, 산란 물고기, 많은 종류의 곤충 등도 가능). 생존 여기서의 전략은 쉬운 채집을 이용하여 포식자들이 대부분의 자손을 비교적 빨리 파괴 할 수 있기를 바라지 만, 자라기에 충분히 오래 생존하는 소수는 살해하기가 점점 어려워 져 결국에는 (실제적으로) 불가능 해지기를 희망합니다. 먹었다. 그 동안이 개인들은 소수의 자손이 자신의 나이까지 생존하기를 희망하면서 수많은 자손을 낳습니다.

유형 II는 모든 연령대의 중간 생존율을 위해 중간 정도의 부모 투자가 포함 된 중간 전략입니다.

나는 이런 식으로 생태학 교수를 낳았다.

"III 형 (나무)은 '희망의 곡선'입니다. 개인이 오래 생존할수록 생존 할 가능성이 높아집니다. 반면에 제 1 형 (인간)은 '절망의 곡선'입니다. 살수록 죽을 확률이 높아집니다. "


이것은 흥미롭지 만, 현대 의학 (그리고 오늘날에도 여전히 일부 지역에서)이되기 전에 인간의 경우 영아 사망률이 매우 높다는 점에 유의하십시오. 기준 인간 생존은 종종 " 욕조 위험 "으로 모델링됩니다 .
gung-복직 모니카

@gung 물론, 이것은 광범위한 일반화이며 다른 지역과 기간의 인간들 사이에 변화가 있습니다. 가장 큰 차이점은 서구의 인간 가족 (한 쌍당 최대 2.5 명의 어린이, 대부분은 유년기에 죽지 않음)과 산호 또는 산란 물고기 (결합주기 당 수백만 개의 난자가 방출되는 경우)를 비교할 때 더 분명합니다. 식사, 기아, 위험한 물 화학, 또는 단순히 거주 가능한 곳으로 표류하지 못하여 사망)
CaffeineConnoisseur

1
나는 생태학에 대한 설명을 모두 들지만, 이와 같은 가정은 하드 드라이브 및 항공기 엔진과 같은 것들에도 적용된다는 것을 주목할 것이다.
Fomite

6

이것은 질문에 직접 대답하지는 않지만 메모하는 것이 매우 중요하며 단일 주석에 잘 맞지 않는다고 생각합니다.

지수 분포는 매우 훌륭한 이론적 도출을 가지고 있기 때문에 생성 된 데이터가 지수 분포에서 가정 된 메커니즘을 따른다고 가정 할 때 이론적으로 는 최적의 추정치를 제공 해야합니다. 수용 가능한 결과에 가깝습니다 (물론 이것은 분석 한 데이터 유형, 거의 모든 생물학적 데이터에 따라 다릅니다). 예를 들어, R 패키지에서 찾을 수있는 첫 번째 데이터 세트를 사용하여 다양한 분포를 가진 모델을 피팅하는 방법을 살펴 보았습니다. 기본 분포의 모형 확인을 위해 일반적으로 반모 수 모형과 비교합니다. 결과를 살펴보십시오.

생존 곡선

Weibull, log-logistic 및 log-normal 분포 중에서 적절한 적합 측면에서 절대적인 명백한 승리자는 없습니다. 그러나 명백한 패배자가있다 : 지수 분포! 이 정도의 잘못된 피팅은 예외적이지 않고 지수 분포의 표준이라는 것이 저의 경험이었습니다.

왜? 지수 분포는 단일 모 수군이기 때문입니다. 따라서이 분포의 평균을 지정하면 다른 모든 분포 모멘트를 지정했습니다. 이 다른 패밀리는 모두 두 개의 매개 변수 패밀리입니다. 따라서 해당 제품군에는 데이터 자체에 적응할 수있는 유연성이 훨씬 더 많습니다.

Weibull 분포는 특별한 경우 (예 : shape parameter = 1 인 경우) 지수 분포를 가짐을 명심하십시오. 따라서 데이터가 실제로 지수 인 경우에도 지수 분포에 Weibull 분포를 사용하여 추정치에 약간의 노이즈 만 추가합니다. 따라서 지수 분포를 사용하여 실제 데이터를 모델링하는 것은 결코 권장 하지 않습니다. 독자가 실제로 좋은 아이디어가있는 경우에 대한 사례가 있는지 궁금합니다.


1
나는이 대답을 확신하지 못합니다 : 1) "내 R 패키지에서 찾을 수있는 첫 번째 데이터 세트 사용"... 정말로? ... stats.stackexchange에서? 하나의 무작위 표본과 일반적인 결론을 도출합니까? 1b) 실패 시간이 주어진 값 (사람의 삶과 같은)을 중심으로 분포되는 경향이있는 모델의 경우, 감마,와 이블 등과 같은 분포가 더 적합합니다. 사건이 똑같이 가능할 때 지수 분포가 더 적합합니다. 위의 "첫 번째 데이터 세트"는 첫 번째 종류입니다. 2) 다른 모든 모델에는 2 개의 파라미터가 있습니다. 하나는 모델을 비교하기 위해 베이 즈 계수를 사용해야합니다.
Luca Citi

2
@LucaCiti : "R 패키지의 첫 번째 데이터 세트"는 내가 게시 한 R 패키지의 첫 번째 데이터 세트 (icenReg)를 의미합니다. 그리고 지수 분포가 항상 적합하지 않은 경험은 내가 분석 한 데이터 유형에 따라 다르다는 사실에 주목했습니다. 거의 독점적으로 생물학적 데이터. 마지막으로, 마지막에 언급했듯이 지수 분포를 사용해야하는 확실한 이유가있는 실제 적용 예를 듣고 싶습니다. 분류가있는 경우 공유하십시오.
Cliff AB

1
지수 분포를 사용하려는 시나리오는 다음과 같습니다. 즉, n <10). 그러나 나는 이와 같은 실제 응용 프로그램을 모른다. 아마도 어떤 종류의 제조 품질 관리 문제에서?
Cliff AB

1
안녕하세요 Cliff, 시간 내 의견에 답변 해 주셔서 감사합니다. Weibull과 같은 분포는 "샘플에서 개별 x의 수명 시간은 얼마입니까?"또는 "뉴런 x가 언제 다시 발사되는지"또는 "반딧불이 언제 다시 깜박이는지"와 같은 질문에 해당하는 더 나은 상황에 적합하다고 생각합니다. ". 반대로, 지수 분포는 "내 인구에서 다음 사망이 예상되는시기", "다음 뉴런이 발생하는시기"또는 "군단의 반딧불이 언제 점멸 할 것인가"와 같은 질문을 나타냅니다.
Luca Citi

@ 루카 시티; 하, 방금 이전의 찌르기가 n = 1로 추론하는 것에 대한 농담 이었다는 것을 알게되었습니다. 내 방어에서, 추정기가 무정형 표준이어야하지만 다른 무정형 표준 추정치에서 4+ 표준 편차 떨어져 있다고하는 이론이 있다면, 우리는 할 수 있습니다! 그러나 모든 진지한면에서 저를 설득시킨 것은 하나의 음모가 아니라 동일한 수준의 편차를 일관되게 보는 것입니다. 그래도 지수 지수가 맞지 않는 20 개 이상의 플롯을 스팸으로 분류하면 차단 될 수 있습니다.
Cliff AB

4

지수 분포가 이벤트 간격을 모형화하기 위해 자주 발생하는 또 다른 이유는 다음과 같습니다.

일부 가정 하에서 다수의 독립적 인 랜덤 변수의 합은 가우시안 분포에 가깝다는 것이 잘 알려져있다. 비슷한 정리가 갱신 프로세스 , 즉 IID 이벤트 간 간격으로 무작위로 발생하는 이벤트에 대한 확률 모델에 적용됩니다. 실제로 Palm-Khintchine 정리 는 (포아 소니아가 아닌) 많은 수의 갱신 프로세스의 중첩이 포아송 프로세스 와 같이 무증상으로 작동한다고 명시하고 있습니다 . 포아송 프로세스의 이벤트 간 간격은 지수 적으로 분포됩니다.


3

TL; DR - expontential 분포는 개인이 아니라 다른 것 같은 임의의 주어진 순간에 죽게된다고 가정 동등하다.

유도

  1. 살아있는 개인이 다른 순간과 같이 주어진 순간에 죽을 가능성이 있다고 가정하십시오.

  2. 따라서 사망률 는 모집단 비례합니다 . PdPdtP

dPdt  P
  1. WolframAlpha에서 해결 :

P(t)=c1et

따라서 인구는 지수 분포를 따릅니다.

수학 노트

위의 수학은 1 차 정규 미분 방정식 (ODE) 의 감소입니다 . 일반적으로 시작 시간 에서 모집단이 주어진 값 에서 시작 하는 경계 조건 을 확인 하여 을 해결합니다 . P ( t 0 ) t 0c0P(t0)t0

그러면 방정식은

P(t)=etP(t0).

현실 점검

지수 분포는 인구의 사람들이 시간이 지남에 따라 동일한 비율로 죽는 경향이 있다고 가정합니다. 실제로, 사망률은 유한 한 인구에 따라 변하는 경향이 있습니다.

더 나은 분포를 얻으려면 확률 미분 방정식이 필요 합니다. 그러면 우리는 끊임없는 사망 가능성이 있다고 말할 수 없습니다. 오히려, 우리는 주어진 순간에 각 개인의 사망 확률에 대한 분포를 생각해 내고 전체 인구에 대해 다양한 가능성 나무를 결합한 다음 시간에 따른 미분 방정식을 해결해야합니다.

전에 온라인에서이 작업을 수행 한 것을 기억할 수 없으므로 아마도 그 문제에 부딪치지 않을 것입니다. 그러나 지수 분포를 개선하려는 경우 다음 모델링 단계입니다.


3

(당신이 인용 한 부분에서, 그 진술은 조건적인 것이 었습니다; 문장 자체는 지수 생존을 가정하지 않았으며, 그렇게 한 결과를 설명했습니다. 그럼에도 불구하고 지수 생존의 가정은 일반적이므로, "왜 지수 "및"정상이 아닌 이유 "-첫 번째 내용은 이미 잘 다루어 져 있으므로 두 번째 사항에 더 집중하겠습니다.

일반적으로 분포 된 생존 시간은 생존 시간이 음수가 될 확률이 0이 아니기 때문에 의미가 없습니다.

그런 다음 거의 0이 될 가능성이 거의없는 정규 분포로 고려를 제한하면 생존 시간이 짧을 가능성이있는 생존 데이터를 모델링 할 수 없습니다.

생존 시간 분포-정규 평균 100 SD 10 대 평균 100 및 SD 42를 갖는 특정 분포와 0에서 50 사이의 생존 시간 확률이 20 % 이상임

어쩌면 때때로 생존 시간이 짧을 가능성이 거의없는 생존 시간은 합리적 일 수 있지만 실제로는 합리적 인 분포가 필요합니다. 생존 시간의 분포). 수정되지 않은 정규 분포는 실제로 유용하지 않습니다.

[ 절단 된 법선은 보통 법선보다 합리적인 대략적인 근사치 일 수 있지만 다른 분포가 더 나은 경우가 많습니다.]

지수의 지속적인 위험은 때때로 생존 시간에 대한 합리적인 근사치입니다. 예를 들어, 사고와 같은 "임의의 사건"이 사망률의 주요 원인 인 경우 지수 생존은 상당히 잘 작동합니다. (예를 들어, 동물 집단 중에서도 포식과 질병은 적어도 대략 우연의 과정과 같이 작용하여 지수와 같은 것을 생존 시간에 대한 합리적인 첫 번째 근사치로 남겨 둡니다.)


정상과 관련하여 한 가지 추가 질문은 잘립니다. 정상이 적절하지 않은 경우 정규 제곱이 아닌 이유는 무엇입니까 (df sq with df 1)?

실제로 조금 더 나을 수도 있지만 ... 0에서 무한한 위험에 해당하므로 때로는 유용 할 것입니다. 매우 짧은 시간의 비율이 매우 높은 사례를 모델링 할 수는 있지만 일반적으로 평균 생존보다 훨씬 짧은 사례 만 모델링 할 수있는 문제가 있습니다 (생존 시간의 25 %는 평균 생존 시간의 10.15 % 미만이며 생존 시간의 절반은 평균의 45.5 % 미만입니다. 즉, 중간 생존은 평균의 절반보다 작습니다.)

스케일링 된 (즉, 모양 매개 변수가 감마)을 살펴 보겠습니다 .χ1212

이전과 비슷하지만, 100 배의 카이 제곱 (1);  0에서 높은 피크와 매우 두꺼운 꼬리를가집니다. 평균은 100이지만 sd는 약 141이고 중앙값은 약 45입니다.

[아마도 변이 중 두 개를 합하면 ... 비 중심 를 고려 하면 적절한 가능성을 얻을 수 있습니다. 지수 이외의 생존 시간에 대한 모수 분포의 일반적인 선택에는 Weibull, lognormal, gamma, log-logistic 등이 포함됩니다. Weibull과 감마는 지수를 특별한 경우로 포함합니다.] χ 2χ12χ2


고마워, 나는 어제부터 답변을 기다리고 있습니다 :). 정상과 관련하여 한 가지 추가 질문은 잘립니다. 정상이 적절하지 않은 경우 정규 제곱이 아닌 이유는 무엇입니까 (df sq with df 1)?
Haitao Du

실제로 그것은 조금 더 나을 수도 있지만 ... 0에서 무한한 위험에 해당한다는 점에 유의하십시오. 따라서 때로는 유용 할 것입니다. 일반적으로 평균 생존보다 훨씬 짧은 모델링 사례의 반대 문제가 있습니다 (생존 시간의 25 %는 평균 생존 시간의 10.15 % 미만이고 생존 시간의 절반은 평균의 45.5 % 미만입니다). 중 두 가지 변형은 덜 놀라운 위험 함수를 얻을 수 있습니다. . .; Pχ12
Glen_b

다시 한 번 배운 직관 교육에 감사드립니다. 나는 레시피 레벨 튜토리얼과 사람들이 이유를 모르고 일을 너무 많이 보았습니다. CV는 배우기 좋은 곳입니다.
Haitao Du

1

시간이 엄격하게 양수되기를 원한다면 평균이 높고 분산이 작은 정규 분포를 만드는 것이 어떻습니까 (음수가 나올 가능성이 거의 없음)?

때문에

  1. 여전히 0이 아닌 음수 확률을 가지므로 엄격하게 양수는 아닙니다 .

  2. 평균과 분산은 모형화하려는 모집단에서 측정 할 수있는 것입니다. 모집단의 평균이 2이고 분산이 1이고 정규 분포로 모형화하는 경우 정규 분포는 0보다 실질적으로 큰 질량을 갖습니다. 평균이 5이고 분산이 0.1 인 정규 분포를 사용하여 모형을 모형화하는 경우 모형에 모형과 매우 다른 특성이 있습니다.

정규 분포는 특정 모양을 가지며 해당 모양은 평균에 대해 대칭입니다. 모양을 조정하는 유일한 방법은 모양을 좌우로 움직이거나 (평균을 늘리거나 줄이거 나) 분산을 늘리거나 줄이는 것입니다 (분산을 늘리거나 줄입니다). 이것은 대부분의 질량이 2와 10 사이이고 질량이 작은 양이 0보다 작은 정규 분포를 얻는 유일한 방법은 평균을 6 (범위의 중간)에 두어야한다는 것을 의미합니다. )의 작은 부분 만 음수가되도록 분산을 작게 설정합니다. 그러나 대부분의 샘플이 5, 6 또는 7임을 알 수 있지만 2, 3, 4, 8, 9 및 10은 상당히 많았습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.