로지스틱 회귀 분석에 대한 베이지안 적합도를 시각화하는 방법


10

베이지안 로지스틱 회귀 문제의 경우, 사후 예측 분포를 만들었습니다. 예측 분포에서 표본을 추출하고 내가 가진 각 관측치에 대해 (0,1)의 표본을 수천 개받습니다. 예를 들어 적합도를 시각화하는 것은 흥미롭지 않습니다.

여기에 이미지 설명을 입력하십시오

이 그림은 10,000 개의 샘플 + 관측 된 데이텀 포인트를 보여줍니다 (왼쪽에서 빨간색 선을 만들 수 있음). 문제는이 음모가 거의 유익하지 않다는 것인데, 각 데이터 포인트마다 하나씩 23 개를 갖게됩니다.

23 개의 데이터 포인트와 그 이후의 샘플을 시각화하는 더 좋은 방법이 있습니까?


다른 시도 :

여기에 이미지 설명을 입력하십시오


종이를 기반으로 또 다른 시도 여기

여기에 이미지 설명을 입력하십시오


1
위의 data-vis 기술이 작동하는 예는 여기 를 참조 하십시오 .
Cam.Davidson.Pilon

그것은 많은 공간 IMO 낭비입니다! 실제로 3 개 값 (0.5 미만, 0.5 이상, 관측 값) 만 있습니까? 아니면 그 예제의 인공물입니까?
Andy W

실제로 더 나쁘다 : 나는 8500 0과 1500 1을 가지고있다. 그래프는 연결된 히스토그램을 만들기 위해 이러한 값을 푸시합니다. 그러나 나는 동의한다 : 많은 낭비되는 공간. 실제로 각 데이터 포인트에 대해 비율 (예 : 8500/10000)과 관측치 (0 또는 1)로 줄일 수 있습니다.
Cam.Davidson.Pilon

23 개의 데이터 포인트와 몇 개의 예측 변수가 있습니까? 그리고 새로운 데이터 포인트 또는 모델에 적합했던 23 개에 대한 후방 예측 유실이 있습니까?
probabilityislogic

업데이트 된 줄거리는 내가 제안하려고하는 것에 가깝습니다. 그래도 x 축은 무엇입니까? 23 점만 있으면 불필요하게 보이는 일부 포인트가 중첩되어있는 것 같습니다.
앤디 W

답변:


5

나는 당신이 당신의 상황에 모든 물건을 포기하지 않는 느낌이 들지만, 우리가 우리 앞에 가지고있는 것을 감안할 때 간단한 도트 플롯 의 유용성을 고려 하여 정보를 표시 할 수 있습니다.

도트 플롯

여기서 기본적으로 동작하지 않는 유일한 방법은 다음과 같습니다.

  • 결함과 결함이없는 것으로 관찰 된 값을 구별하기 위해 중복 인코딩, 모양 및 색상을 사용했습니다. 이러한 간단한 정보를 사용하면 그래프에 점을 둘 필요가 없습니다. 또한 점이 중간 값 근처에있을 때 문제가 발생합니다. 관찰 된 값이 0인지 1인지 확인하기 위해 더 많은 조회가 필요합니다.
  • 관찰 된 비율에 따라 그래픽을 정렬했습니다.

정렬은 이와 같은 도트 플로트의 진정한 키커입니다. 여기에서 비례 값을 기준으로 정렬하면 높은 잔차 관측치를 쉽게 찾을 수 있습니다. 음모 또는 사례의 외부 특성에 포함 된 값으로 쉽게 정렬 할 수있는 시스템을 갖추는 것이 비용 대비 효과를 얻는 가장 좋은 방법입니다.

이 조언은 지속적인 관찰로 확장됩니다. 잔차가 음수인지 양수인지에 따라 점을 색상 / 모양 한 다음 절대 (또는 제곱) 잔차에 따라 점의 크기를 조정할 수 있습니다. 이것은 관측 된 값의 단순성 때문에 여기서는 필요하지 않습니다.


1
나는이 솔루션과 내용을 좋아하고 다른 제출을 기다리고 있습니다. 고마워 앤디.
Cam.Davidson.Pilon

1
@ Cam.Davidson.Pilon-다른 제출물도 기다리고 있습니다! 모형에는 예측 변수가 하나만 있기 때문에 예측 된 결함 비율로 정렬하면 온도로 정렬하는 것과 동의어가됩니다 (그래프에 표시된대로 단조 효과를 가정). 아마도 누군가가 예상 비율과 원래 온도 (또는 완전히 다른 것)를 효과적으로 볼 수있는 다른 솔루션을 가지고 올 것입니다. 이 디스플레이는 나쁜 예측을 보는 데 좋지만 비선형 효과를 보는 것에는 좋지 않습니다.
Andy W

1
현상금을 기꺼이 수여합니다. 정렬은 그것을 제시하는 열쇠이며, 이전 게시물에서 링크 된 종이가 내가 사용할 것입니다. 감사!
Cam.Davidson.Pilon

4

하나의 예측 변수를 사용하여 베이지안 로지스틱 회귀 모형의 적합도를 시각화하는 일반적인 방법은 해당 분포와 함께 예측 분포를 플로팅하는 것입니다. (귀하의 질문을 이해하면 알려주십시오)

널리 사용되는 Bliss 데이터 세트를 사용한 예입니다.

여기에 이미지 설명을 입력하십시오

R의 아래 코드 :

library(mcmc)

# Beetle data

ni = c(59, 60, 62, 56, 63, 59, 62, 60) # Number of individuals
no = c(6, 13, 18, 28, 52, 53, 61, 60) # Observed successes
dose = c(1.6907, 1.7242, 1.7552, 1.7842, 1.8113, 1.8369, 1.8610, 1.8839) # dose

dat = cbind(dose,ni,no)

ns = length(dat[,1])

# Log-posterior using a uniform prior on the parameters

logpost = function(par){
var = dat[,3]*log(plogis(par[1]+par[2]*dat[,1])) + (dat[,2]-dat[,3])*log(1-plogis(par[1]+par[2]*dat[,1]))

if( par[1]>-100000 ) return( sum(var) )
else return(-Inf)
}

# Metropolis-Hastings
N = 60000

samp <- metrop(logpost, scale = .35, initial = c(-60,33), nbatch = N)

samp$accept

burnin = 10000
thinning = 50

ind = seq(burnin,N,thinning)

mu1p =   samp$batch[ , 1][ind]

mu2p =   samp$batch[ , 2][ind]


# Visual tool

points = no/ni
# Predictive dose-response curve
DRL <- function(d) return(mean(plogis(mu1p+mu2p*d)))
DRLV = Vectorize(DRL)

v <- seq(1.55,2,length.out=55)
FL = DRLV(v)

plot(v,FL,type="l",xlab="dose",ylab="response")
points(dose,points,lwd=2)

저는 R 사람이 아닙니다. 줄거리 / 출력을 제공 할 수 있습니까?
Cam.Davidson.Pilon

@ Cam.Davidson.Pilon 죄송합니다. 평판으로 인해 음모를 포함시킬 수 없습니다. 그러나 아이디어는 전체 선량-반응 곡선을 관찰 된 비율과 함께 플롯하는 것입니다.
Cerberis

사진을 추가했습니다. OP가 예제로 직접 확장되지 않는 데이터에 대해 다른 구조를 가정합니다. OP의 데이터는 귀하 ni = 23no = 723 명의 개인이 서로 다른 경우와 같습니다 dose. 그래도 OP의 데이터에 대해 유사한 플롯을 만들 수 있습니다 (점은 Y 축에서 0 또는 1에 배치되고 함수를 플롯 함). 이 답변 에 대한 참고 문헌에서 로지스틱 회귀 분석에 대한 유사한 플롯의 예를 참조하십시오 .
Andy W

@AndyW 이것과 설명에 감사드립니다.
Cerberis

@AndyW 아 당신이 연결하는 논문은 매우 유용합니다! 적용 할 수 있는지 살펴보아야합니다.
Cam.Davidson.Pilon

3

시뮬레이션 된 실패 이벤트가 관찰 된 실패 이벤트와 얼마나 잘 일치하는지 보여주는 대체 그래픽 기술에 대한 요청에 응답하고 있습니다. 이 문제는 "해커를위한 확률 적 프로그래밍과 베이지안 방법"에서 발견 되었다 . 내 그래픽 접근 방식은 다음과 같습니다.

시뮬레이션 된 vs 관찰 된 O 링 실패

코드는 여기에 있습니다 .


흥미 롭습니다.이 기술을 사용하는 이유에 대한 논쟁을 제시 할 수 있습니까? 공유해 주셔서 감사합니다!
Cam.Davidson.Pilon

이것은 결정 론적 결과가 아니라 확률 론적입니다. 따라서 나는 여러 가지를 전달하는 표현을 찾았다. 1) 관찰 및 예측 된 사건의 범위; 2 : 예측 된 실패의 확률 분포; 3) 예측 된 비 실패의 확률 분포; 4) 실패 가능성이 높은 범위, 비 실패 가능성이 높은 범위 및 실패 및 비 실패 가능성이 겹치는 범위. 이 그래프는 모든 것을 내 눈에 보여줍니다.
user35216

몇 가지 추가 / 설명 : 1) 관찰 및 예측 된 사건 의 온도 범위; 5) 실제 관찰 된 실패 및 비 실패
user35216
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.