나는 그것이 편향되어 있음을 보여줄 수는 있지만 (내 생각에는) 그 이유를 설명 할 수는 없다. 누군가 내 답변을보고 더 자세히 설명 할 수 있기를 바랍니다.
많은 메타 분석 및 게시 한 이미지에서와 같이 많은 사람들이 BESD를 다음과 같이 해석합니다. 두 변수를 중간으로 나누려면 주어진 비율의 2 % 2 우연의 표에있는 "오른쪽"셀에 사람들을 정확하게 배치합니다. 시간.
따라서 이면 사람들은 "이 관측 된 을 주면 다음과 같이 생각할 수 있습니다. X의 중앙값을 초과하는 사람은 Y의 중앙값보다 70 % 높은 시간을 초과합니다. " 이것은 Kraus (1995, p. 69)가 해석하는 방식입니다 (한 변수가 실제로 이분법이고 다른 변수는 중간 분할 인 가상의 상황에 의존합니다).r.50 + r / 2 = .70아르 자형
사람들은 종종 너무, 의료 은유를 사용했다 : "이 대응을 제어 및 실험 조건에있는 사람들 사이에 40 % 포인트의 차이에."아르 자형
중간 분할 식 해석이 편향되어 있는지 확인하기 위해 실제 모집단 인 1,000,000 건의 모집단을 시뮬레이션했습니다 . 그런 다음이 모집단에서 100 명을 뽑아 BESD "정확한 비율"(즉, )을 계산 한 다음 2 x 2 비 상표에 대한 실제 중앙값 분할 셀을 계산했습니다. 사람들은 "정확하게" 나는 이것을 10,000 번했다..50 + r / 2r = .38.50 + r / 2
그런 다음 길이가 10,000 인 각 벡터의 평균 및 표준 편차를 취했습니다. 코드:
library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
samp <- pop[sample(1:1000000, 100),]
besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)
BESD을 바탕으로, 우리는이 표를 얻을 곳 v1
과 v2
변수를 참조 low
하고 high
아래에 각각 중간, 위를 참조하십시오
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 69 | 31 |
+---------+--------+---------+
| v1 high | 31 | 69 |
+---------+--------+---------+
실제로 원시 데이터로 중앙값 분할을 수행하면 다음 표를 얻을 수 있습니다.
+---------+--------+---------+
| | v2 low | v2 high |
+---------+--------+---------+
| v1 low | 62 | 38 |
+---------+--------+---------+
| v1 high | 38 | 62 |
+---------+--------+---------+
따라서 누군가 BESD를 사용하여 "제어 및 실험에 38 %의 차이가있다"고 주장 할 수 있지만 실제 중앙값의 분할은 24입니다.
왜 이런 일이 발생 하는지 잘 모르겠 거나 샘플 크기와 상관 관계에 의존한다면 (쉽게 더 많은 시뮬레이션을 수행 할 수 있음) 이것이 편향되어 있다고 생각합니다. 누군가가 계산 설명이 아닌 수학적 설명으로 차임 할 수 있다면 좋을 것입니다.