질문 개요
경고 :이 질문에는 많은 설정이 필요합니다. 저를 참아주세요.
저의 동료와 저는 실험 설계를하고 있습니다. 디자인은 많은 제약 조건을 해결해야하며, 아래에 나열합니다. 나는 제약 조건을 만족시키고 관심의 영향에 대한 편견없는 추정치를 제공하는 디자인을 개발했습니다. 그러나 저의 동료는 디자인에 혼란이 있다고 생각합니다. 우리는이 요점을 메스꺼움으로 해결하지 않고 논란을 일으켰으므로이 시점에서 나는 외부 의견을 원한다.
나는 연구의 목표, 우리의 제약, 잠재적 혼란, 그리고이 "혼란"이 아래의 문제가 아니라고 생각하는 이유를 설명 할 것입니다. 각 섹션을 읽으면서 전반적인 질문을 명심하십시오.
내가 설명하는 디자인에 혼란이 있습니까?
[이 실험의 세부 사항은 수정되었지만 내 질문을하는 데 필요한 필수 요소는 동일하게 유지됩니다]
실험 목표
우리는 백인 남성, 흑인 남성 또는 흑인 여성 ( 에세이 저작자 변수) 이 쓴 에세이 보다 백인 남성이 쓴 에세이가 더 유리하게 평가되는지를 결정하고자합니다 . 우리는 또한 우리가 찾은 편견이 양질의 보조금 ( 품질 변수) 에서 더 많이 나타나는지 여부를 결정하고자합니다 . 마지막으로, 약 12 가지 주제 ( 주제 변수)로 작성된 에세이를 포함 시키려고 합니다. 그러나 처음 두 변수 만 실질적으로 관심이 있습니다. 주제는 에세이마다 다양해야하지만 평가가 주제마다 어떻게 다른지에 대해서는 실질적으로 관심이 없습니다.
제약
- 참가자 수와 수집 할 수있는 에세이 수에는 제한이 있습니다. 결과적으로 저자간에 참여자들 사이에서 저작물을 완전히 조작 할 수없고, 에세이들 사이에서 완전히 조작 할 수도 없습니다 (즉, 각 개별 에세이는 여러 조건에 할당되어야합니다).
- 각 에세이는 백인 남성, 백인 여성, 흑인 남성 및 흑인 여성 버전을 가질 수 있지만, 각 에세이는 고품질 및 저품질 중 하나 일 수 있으며 주제는 하나 일 수 있습니다. 또는, 이러한 제약을 다른 방식으로 표현하기 위해, 품질이나 주제는 주어진 에세이의 고유 한 특성이기 때문에 에세이 내에서 조작 될 수 없습니다.
- 피로로 인해 특정 참가자가 평가할 수있는 에세이의 수에는 제한이 있습니다.
- 주어진 사람이 읽는 모든 에세이는 단일 주제에 관한 것이어야합니다. 다시 말해, 각 참가자가 유사한 주제의 에세이 만 읽을 수 있도록해야하기 때문에 에세이는 전적으로 참가자에게 무작위로 배정 될 수 없습니다.
- 각 참가자는 백인이 아닌 남성 작가가 작성한 것으로 추정되는 하나의 에세이 만 볼 수 있습니다. 왜냐하면 참가자는 너무 많은 에세이가 흑인 또는 여성 작가에 의해 작성 되었기 때문에 실험의 목적에 대해 의심을 가지기를 원하지 않기 때문입니다.
제안 된 디자인
내가 제안한 디자인은 먼저 각 에세이를 4 가지 저작 버전 (백인, 백인, 여성 등)으로 조작합니다. 그런 다음 유사한 주제의 4 가지 에세이를 사용하여 "세트"를 정의합니다. 각 세트는 2 개의 고품질 및 2 개의 낮은 품질의 에세이로 구성됩니다. 각 참가자는 아래 그림과 같이 주어진 세트에서 세 개의 에세이를받습니다. 그런 다음 각 참가자는 자신이 할당 한 세 개의 에세이 각각에 단일 등급을 제공합니다.
잠재적 인 혼란
제 동료는 위의 디자인에 혼란이 있다고 생각합니다. 그는 문제는 백인이 아닌 남성 작가가 저술 한 양질의 에세이를 할당 할 때 항상 하나의 고품질 에세이와 하나의 저품질 에세이와 짝을 이룬다는 것이다 (에세이 1의 경우 참가자 1 ~ 3 참조). 그림에서). 반면, 같은 수필이 백인 남성 작가들에 의해 작성되도록 배정 된 경우, 한 개의 고품질 에세이와 한 개의 저품질 에세이와 3 번 (에세이 1, 참가자 4-6)과 두 개의 저품질 에세이 3과 짝을 이룹니다. 시간 (에세이 1, 참가자 7-9).
품질이 낮은 에세이에도 비슷한 문제가 있습니다. 저품질 에세이가 백인 남성 작가가 아닌 경우, 항상 저품질 에세이와 고품질 에세이로 볼 수 있습니다 (에세이 3의 경우 참가자 7-9 참조). 그러나 같은 에세이에 백인 남성 저자가있는 경우, 하나의 고품질 에세이와 하나의 저품질 에세이로 세 번 (에세이 3, 참가자 10-12), 두 번의 고품질 에세이로 세 번 (에세이 3, 참가자 1-3).
위의 패턴이 문제가 될 수있는 이유는 "대비 효과"가 있다고 가정하기 때문입니다. 구체적으로, 고품질 에세이가 하나의 저품질 에세이와 하나의 고품질 에세이와 짝을 이룰 때보 다 두 개의 저품질 에세이와 짝을 이룰 때 평균적으로 더 유리하게 평가되는 경우 (합리적인 가정), 백인 남성 에세이는보다 높은 평가를받을 수 있습니다. 저자 이외의 이유로 백인 여성, 흑인 남성 및 흑인 여성 에세이.
고품질 에세이에 대한 대비 효과는 낮은 품질의 에세이에 대한 대비 효과와 균형을 이룰 수 있거나 그렇지 않을 수 있습니다. 즉, 2 개의 고품질 에세이와 쌍을 이루는 저품질 에세이가 특히 바람직하지 않게 평가되는 경우 일 수도 있고 아닐 수도있다. 내 동료의 주장에 상관없이, 모든 종류의 대비 효과에 대한 가능성은 백인 남성이 쓴 에세이가 다른 저자의 에세이보다 호의적으로 평가되는지 여부를 결정하기 위해이 디자인이 문제가되게합니다.
잠재적 혼란이 문제가 아니라고 생각하는 이유
나에게 중요한 것은 대조 효과가있을 때에도 백인 남성 에세이가 다른 에세이와 다르게 평가되는 정도 (즉, 관심의 영향을 추정 할 수 있는지)를 추정 할 수 있는지 여부입니다. 따라서 대비 효과가 포함 된 50 개의 데이터 세트를 시뮬레이션하고 관심있는 효과를 테스트하는 모델에 맞는 시뮬레이션을 수행했습니다.
특정 모델은 에세이 (각 에세이는 여러 참가자에 의해 평가됨) 및 참가자 (각 참가자가 여러 에세이를 평가 함)에 대한 임의의 인터셉트가있는 혼합 효과 모델입니다. 에세이 레벨에는 인종, 성별 및 상호 작용에 대한 임의의 기울기가 포함되어 있으며 (두 변수는 모두 에세이 내에서 조작 됨) 참가자 레벨에는 품질에 대한 임의의 기울기가 포함됩니다 (품질은 참가자 내에서 조정 됨). 관심의 영향은 인종, 성별, 인종과 성별의 상호 작용 및 이러한 변수와 품질 사이의 고차 상호 작용의 영향입니다. 이 시뮬레이션의 목표는 데이터에 대비 효과를 도입하여 인종, 성별, 인종과 성별의 상호 작용, 이러한 변수와 품질 사이의 고차 상호 작용. 자세한 내용은 아래 코드 청크를 참조하십시오.
시뮬레이션에 따르면, 대비 효과가 있다고해서 관심있는 효과에 대한 추정치는 바이어스되지 않습니다. 또한 대비 효과의 크기는 디자인의 다른 효과와 동일한 통계 모델에서 추정 할 수 있습니다. 나에게 이것은 이미 내 동료가 식별 한 "대비 효과"가 혼란스럽지 않다는 것을 암시한다. 그러나 제 동료는 여전히 회의적입니다.
require(lme4)
require(plyr)
participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black",
"white", "black", "black", "white", "white", "white", "white", "white", "white",
"white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female",
"female", "male", "female", "male", "male", "male", "male", "male", "male",
"male", "male", "male", "male", "male", "male", "female", "male", "female")
d <- data.frame(participant, essay, quality, race, gender)
for(i in 1:35)
{
participant <- participant + 12
essay <- essay + 4
newdat <- data.frame(participant, essay, quality, race, gender)
d <- rbind(d, newdat)
}
check_var <- function(var)
{
tab <- table(var)
newvar <- character()
for(i in var)
{
if(i == names(tab[tab == 1]))
{
newvar <- c(newvar, "different")
} else
{
newvar <- c(newvar, "same")
}
}
return(newvar)
}
# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))
# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)
# Random seed
set.seed(2352)
# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)
# For each simulation
for(i in 1:reps)
{
# Fixed effects. A quality effect and a contrast effect for quality
d$score <- .5 * d$quality + 1 * d$different * d$quality
# Random effects at the participant level
d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
r_q = rnorm(1, sd = .5),
score = score + r_int + r_q * quality)
# Random effects at the essay level
d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
g_r = rnorm(1, sd = .5),
g_g = rnorm(1, sd = .5),
g_r_g = rnorm(1, sd = .5),
score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)
# Observation-level error
d$score <- d$score + rnorm(dim(d)[1], sd = 1)
# Fit the model
mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)
# Store the coefficients
colnames(effs) <- names(fixef(mod))
effs[i, ] <- fixef(mod)
# Print the current simulation
print(i)
}
# Results
round(colMeans(effs), digits = 2)
(Intercept) race gender quality
0.00 -0.03 0.02 0.50
different race:gender race:quality gender:quality
0.01 -0.03 0.00 0.03
quality:different race:gender:quality
0.97 -0.02
다시 한 번, 내 전반적인 질문은 내가 설명한 디자인에 혼란이 있습니까? 혼란이없는 경우, 잠재적 인 "대비 효과"가 혼란이 아닌 이유에 대한 설명에 관심이있어서 동료에게 설명 할 수 있습니다.