최소값 / 최대 값 만 알려진 데이터의 통계적 방법


29

정확한 값을 알 수없는 데이터를 다루는 통계 분기가 있습니까? 그러나 각 개인 에 대해 값에 대한 최대 값 또는 최소값을 알고 있습니까?

나는 내 문제가 통계적 용어로 표현하기 위해 고군분투하고 있다는 사실에서 비롯된 것으로 의심되지만, 예를 들어 명확하게 설명하는 데 도움이되기를 바랍니다.

세이가 연결된 두 개체군 및 되도록, 어떤 시점에서, 구성원 로 할 수있다 "전환" 하지만 반대 불가능하다. 전환 타이밍은 가변적이지만 비 임의입니다. 예를 들어, 는 "자손이없는 개체"및 "최소한 자손이있는 개체"일 수 있습니다. 이 진행 상황에 관심이 있지만 단면 데이터 만 있습니다. 주어진 개인에 대해 그들이 또는 속하는지 알 수 있습니다 . 나는 또한이 사람들의 나이를 알고 있습니다. 모집단 각 개인에 대해B A B A B A B A BABABABABA, 전환시기는 현재 나이보다 큽니다. 마찬가지로, 회원들에게도 , 전환시 나이는 현재 나이보다 적었습니다. 그러나 나는 정확한 가치를 모른다.B

전환 연령과 비교할 다른 요소가 있다고 가정 해보십시오. 예를 들어, 개인의 아종 또는 신체 크기가 첫 번째 자손의 나이에 영향을 미치는지 알고 싶습니다. 나는 그 질문들을 알려주는 유용한 정보를 확실히 가지고있다 : 평균적으로 의 개인들 , 나이 많은 사람들은 나중에 전환이있을 것이다. 그러나 정보는 특히 어린 개인들에게는 불완전 합니다. 인구 경우도 마찬가지입니다 .BAB

이런 종류의 데이터를 처리하는 방법이 있습니까? 나는 그러한 분석을 수행하는 방법에 대한 완전한 방법이 필요하지 않으며, 적절한 장소에서 나를 시작하기 위해 일부 검색어 또는 유용한 리소스 만 필요합니다!

주의 사항 : 나는 에서 로의 전환 이 즉각적 이라는 가정을 단순화하고 있습니다. 또한 대부분의 개인이 어느 정도 오래 살았다 고 가정 할 때 진전 할 것이라고 가정 할 준비가되어 있습니다. 그리고 나는 longitutinal 데이터가 매우 도움이 될 것임을 알고 있지만이 경우에는 사용할 수 없다고 가정합니다.B BABB

내가 말했듯이 이것이 중복 된 경우 사과, 내 문제의 일부는 내가 무엇을 검색 해야하는지 모른다는 것입니다. 같은 이유로 다른 태그를 추가하십시오.

샘플 데이터 세트 : Ssp는 두 개의 아종 또는 중 하나를 나타냅니다 . 자손은 자손 없음 ( ) 또는 하나 이상의 자손 ( )을 나타냅니다.XYAB

 age ssp offsp
  21   Y     A
  20   Y     B
  26   X     B
  33   X     B
  33   X     A
  24   X     B
  34   Y     B
  22   Y     B
  10   Y     B
  20   Y     A
  44   X     B
  18   Y     A
  11   Y     B
  27   X     A
  31   X     B
  14   Y     B
  41   X     B
  15   Y     A
  33   X     B
  24   X     B
  11   Y     A
  28   X     A
  22   X     B
  16   Y     A
  16   Y     B
  24   Y     B
  20   Y     B
  18   X     B
  21   Y     B
  16   Y     B
  24   Y     A
  39   X     B
  13   Y     A
  10   Y     B
  18   Y     A
  16   Y     A
  21   X     A
  26   X     B
  11   Y     A
  40   X     B
   8   Y     A
  41   X     B
  29   X     B
  53   X     B
  34   X     B
  34   X     B
  15   Y     A
  40   X     B
  30   X     A
  40   X     B

편집 : 예제 데이터 세트가별로 대표적이지 않아 변경되었습니다.


2
이것은 흥미로운 상황입니다. 데이터를 제공 할 수 있습니까?
gung-복직 모니카

1
전체 데이터 세트를 게시 할 수는 없지만 예제 세트를 제공 할 수 있습니다.
user2390246

답변:


26

이것을 현재 상태 데이터 라고합니다 . 데이터에 대한 하나의 단면도를 얻을 수 있으며, 반응에 대해 각 주제의 관찰 된 나이에 이벤트 (귀하의 경우 : A에서 B로 전환)가 발생했음을 알 수 있습니다. 이것은 간격 검열 의 특별한 경우입니다 .

공식적으로 정의하려면 를 주제 의 (관찰되지 않은) 실제 이벤트 시간으로하십시오 . 하자 주제에 대한 검사 시간 (: 검사 연령 귀하의 경우)를. 경우 , 데이터가있다 바로 검열 . 그렇지 않으면 데이터가 검열 된 상태로 유지 됩니다. 우리는 의 분포를 모델링하는 데 흥미가 있습니다. 회귀 모형의 경우 분포가 일련의 공변량 어떻게 변경되는지 모델링하는 데 관심이 있습니다.TiiCiiCi<TiTX

간격 검열 방법을 사용하여이를 분석하려면 데이터를 일반 간격 검열 형식으로 넣으려고합니다. 즉, 각 주제에 대해 우리는 구간 이는 가 포함될 구간을 나타냅니다 . 대상 그래서 만약 바로 검사 시간에 검열 , 우리는 작성합니다 . 에서 검열 된 상태로 .(li,ri)Tiici(ci,)ci(0,ci)

뻔뻔한 플러그 : 회귀 모델을 사용하여 데이터를 분석하려면 R로 작성하십시오 icenReg (저는 저자입니다). 실제로 현재 상태 데이터 에 대한 비슷한 질문 에서 OP는 icenReg 사용에 대한 훌륭한 데모를 제시했습니다 . 그는 검열 부분을 무시하고 편견에 로지스틱 회귀 리드를 사용하는 것을 보여주는 것으로 시작합니다 (중요 사항 : 그가 로지스틱 회귀 분석을 사용하여 참조됩니다 나이 조정하지 않고 . 이것에 더 이상.)

interval다른 도구로는 로그 순위 통계 테스트를 포함하는 패키지가 있습니다.

편집하다:

@EdM은 로지스틱 회귀를 사용하여 문제에 답할 것을 제안했습니다. 나는 당신이 기능적인 형태의 시간에 대해 걱정해야한다고 말하면서 이것을 부당하게 무시했습니다. 함수형 시간 형식에 대해 걱정해야한다는 성명서 뒤에는 합리적인 파라 메트릭 추정기로 이어지는 매우 합리적인 변환이 있음을 깨달았습니다.

특히 로지스틱 회귀 분석을 사용하여 모형에서 log (time)을 공변량으로 사용하면 로그 로지스틱 기준선이있는 비례 승산 모델이됩니다.

이를 확인하려면 먼저 비례 배당률 회귀 모형이

Odds(t|X,β)=eXTβOddso(t)

여기서 는 시간 에서 생존의 기준 확률입니다 . 회귀 효과는 로지스틱 회귀 분석과 동일합니다. 이제 우리가해야 할 일은 기본 분포가 로그 물류라는 것입니다.Oddso(t)t

이제 log (Time)을 공변량으로 사용하여 로지스틱 회귀를 고려하십시오. 우리는 다음

P(Y=1|T=t)=exp(β0+β1log(t))1+exp(β0+β1log(t))

약간의 작업만으로도 이것을 로지스틱 모델의 CDF (파라미터의 비선형 변환)로 볼 수 있습니다.

적합치가 동일하다는 R 데모 :

> library(icenReg)
> data(miceData)
> 
> ## miceData contains current status data about presence 
> ## of tumors at sacrifice in two groups
> ## in interval censored format: 
> ## l = lower end of interval, u = upper end
> ## first three mice all left censored
> 
> head(miceData, 3)
  l   u grp
1 0 381  ce
2 0 477  ce
3 0 485  ce
> 
> ## To fit this with logistic regression, 
> ## we need to extract age at sacrifice
> ## if the observation is left censored, 
> ## this is the upper end of the interval
> ## if right censored, is the lower end of interval
> 
> age <- numeric()
> isLeftCensored <- miceData$l == 0
> age[isLeftCensored] <- miceData$u[isLeftCensored]
> age[!isLeftCensored] <- miceData$l[!isLeftCensored]
> 
> log_age <- log(age)
> resp <- !isLeftCensored
> 
> 
> ## Fitting logistic regression model
> logReg_fit <- glm(resp ~ log_age + grp, 
+                     data = miceData, family = binomial)
> 
> ## Fitting proportional odds regression model with log-logistic baseline
> ## interval censored model
> ic_fit <- ic_par(cbind(l,u) ~ grp, 
+            model = 'po', dist = 'loglogistic', data = miceData)
> 
> summary(logReg_fit)

Call:
glm(formula = resp ~ log_age + grp, family = binomial, data = miceData)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.1413  -0.8052   0.5712   0.8778   1.8767  

Coefficients:
             Estimate Std. Error z value Pr(>|z|)   
(Intercept)  18.3526     6.7149   2.733  0.00627 **
log_age      -2.7203     1.0414  -2.612  0.00900 **
grpge        -1.1721     0.4713  -2.487  0.01288 * 
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 196.84  on 143  degrees of freedom
Residual deviance: 160.61  on 141  degrees of freedom
AIC: 166.61

Number of Fisher Scoring iterations: 5

> summary(ic_fit)

Model:  Proportional Odds
Baseline:  loglogistic 
Call: ic_par(formula = cbind(l, u) ~ grp, data = miceData, model = "po", 
    dist = "loglogistic")

          Estimate Exp(Est) Std.Error z-value        p
log_alpha    6.603 737.2000   0.07747  85.240 0.000000
log_beta     1.001   2.7200   0.38280   2.614 0.008943
grpge       -1.172   0.3097   0.47130  -2.487 0.012880

final llk =  -80.30575 
Iterations =  10 
> 
> ## Comparing loglikelihoods
> logReg_fit$deviance/(-2) - ic_fit$llk
[1] 2.643219e-12

grp각 모델에서 효과 는 동일하며 최종 로그 우도는 숫자 오류에 의해서만 다릅니다. 베이스 라인 매개 변수 (즉, 로지스틱 회귀 분석의 인터셉트 및 log_age, 간격 검열 된 모델의 알파 및 베타)는 다른 매개 변수화이므로 동일하지 않습니다.

로지스틱 회귀를 사용하는 것은 로그 로지스틱베이스 라인 분포에 비례 확률을 맞추는 것과 같습니다. 이 모수 적 모형을 적합하게하면 로지스틱 회귀는 상당히 합리적입니다. 구간 검열 데이터를 사용하면 모델 적합을 평가하는 데 어려움이 있기 때문에 일반적으로 반모 수 모델이 선호 되지만 , 완전 매개 변수 모델에 대한 공간이 없다고 생각하면 포함하지 않았을 것입니다 icenReg.


이것은 매우 도움이됩니다. 나는 당신이 가리키는 자원과 icenReg 패키지를 가지고 놀 것입니다. 왜 로지스틱 회귀가 적합하지 않은 이유에 대해 머리를 돌리려고합니다. @ EdM의 제안은 마치 표면에서 작동하는 것처럼 보입니다. 자손이있는 "사건"이 생존에 영향을 미칠 수 있기 때문에 편견이 발생합니까? 따라서 생존이 줄어든다면, 우리는 주어진 연령의 개인들 사이에서 재생산되지 않은 사람들이 과잉 표현 될 것임을 알 수 있습니까?
user2390246

1
@ user2390246 : 현재 상태 데이터에 로지스틱 회귀를 사용할 있습니다. 그러나 연령의 기능적 형태를 얻으려면 많은 노력을 기울여야하며 다른 변수와의 상호 작용이 맞습니다. 이것은 매우 사소한 일입니다. 생존 기반 모델에서는 반모 수 기준선 ( ic_spin icenReg)을 사용할 수 있으며 전혀 걱정하지 않아도됩니다. 또한 두 그룹의 생존 곡선을 보면 질문에 올바르게 대답합니다. 로지스틱 적합에서 이것을 재현하려고 시도 수 있지만 생존 모델을 사용하는 것보다 훨씬 더 많은 작업이 가능합니다.
Cliff AB

나는 이것에 대해 @CliffAB에 동의합니다. 나는 연령 의존성에 대한 올바른 기능적 형태를 얻는 데 어려움이 있기 때문에 특히 로지스틱 회귀를 권장하는 것을 망설였습니다. 현재 상태 데이터 분석에 대한 경험이 없습니다. 나이에 대한 의존성의 형태를 알아낼 필요가 없다는 것은 그 기술의 큰 장점입니다. 그럼에도 불구하고 나중에이 실을 검토하는 사람들이 이것이 어떻게 진행되는지 이해할 수 있도록 내 대답을 유지하겠습니다.
EdM

여기에 귀하의 의견이 문제의 핵심이라고 생각합니다. 당신의 대답에서 그것을 발전시킬 수 있다면 도움이 될 것입니다. 예를 들어, OP의 예제 데이터를 사용하여 LR 모델 및 구간 검열 된 생존 모델을 구축 할 수 있고 후자가 OP의 연구 질문에보다 쉽게 ​​대답하는 방법을 보여줄 수 있습니다.
gung-복원 Monica Monica

1
@ gung : 사실, 로지스틱 회귀에 대한 부드러운 자세를 취했습니다. 이것을 반영하기 위해 답변을 편집했습니다.
Cliff AB

4

이것은 검열 / 거친 데이터의 경우입니다. 데이터가 잘 작동하는 연속 (pdf 및 cdf 분포에서 발생한다고 가정합니다 . 주제 에 대한 이벤트 의 정확한 시간 가 알려진 경우 시간 대 이벤트 데이터에 대한 표준 솔루션 은 가능성 기여도가 입니다. 시간이 (오른쪽 검열) 보다 것을 알고 있다면 , 독립 검열을 가정 할 때 우도 기여도는 입니다. 시간이 보다 는 것을 알고 있으면 (왼쪽 검열) 가능성 기여도는F ( X ) (X) I I F ( X I ) Y I 1 - F ( Y I ) Z F ( Z I ) ( Y I , Z ] F ( Z I ) - F ( Y I )f(x)F(x)xiif(xi)yi1F(yi)ziF(zi). 마지막으로, 시간이 일정 간격 으로 떨어지면 우도 기여도는 입니다.(yi,zi]F(zi)F(yi)


1
가 연속 될 필요는 없습니다 . 또는 잘 동작합니다. 불연속 생존 모델 일 수 있으므로 (pdf가 정의되지 않고 pmf가 대신 사용됨) 약간 조정하여 를 대체)하여 나머지 부분이 정확할 수 있습니다 .F ( y i ) F ( y i + )f(x)F(yi)F(yi+)
Cliff AB

4

이 문제는 로지스틱 회귀에 의해 잘 처리되는 것처럼 보입니다.

두 가지 상태 A와 B가 있고 특정 개인이 상태 A에서 상태 B로 돌이킬 수없는 상태로 전환 될 확률을 조사하려고합니다. 하나의 기본 예측 변수는 관측 시점의 나이입니다. 관심있는 다른 요소는 추가 예측 변수입니다.

그러면 로지스틱 모델은 A / B 상태, 연령 및 기타 요인에 대한 실제 관측치를 사용하여 해당 예측 변수에 따라 상태 B에있을 확률을 추정합니다. 확률이 0.5를 초과하는 나이는 전환 시간의 추정치로 사용될 수 있으며, 그런 다음 예측 된 전환 시간에 대한 다른 요인의 영향을 조사합니다.

토론에 대한 답변으로 추가 :

모든 선형 모형과 마찬가지로 예측 변수가 결과 변수와 선형 관계를 맺는 방식으로 변환되도록해야합니다.이 경우 상태 B로 이동했을 확률에 대한 로그 확률입니다. 사소한 문제. @CliffAB의 답변은 연령 변수의 로그 변환이 사용되는 방법을 보여줍니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.