실험 설계의 잠재적 혼란


12

질문 개요

경고 :이 질문에는 많은 설정이 필요합니다. 저를 참아주세요.

저의 동료와 저는 실험 설계를하고 있습니다. 디자인은 많은 제약 조건을 해결해야하며, 아래에 나열합니다. 나는 제약 조건을 만족시키고 관심의 영향에 대한 편견없는 추정치를 제공하는 디자인을 개발했습니다. 그러나 저의 동료는 디자인에 혼란이 있다고 생각합니다. 우리는이 요점을 메스꺼움으로 해결하지 않고 논란을 일으켰으므로이 시점에서 나는 외부 의견을 원한다.

나는 연구의 목표, 우리의 제약, 잠재적 혼란, 그리고이 "혼란"이 아래의 문제가 아니라고 생각하는 이유를 설명 할 것입니다. 각 섹션을 읽으면서 전반적인 질문을 명심하십시오.

내가 설명하는 디자인에 혼란이 있습니까?

[이 실험의 세부 사항은 수정되었지만 내 질문을하는 데 필요한 필수 요소는 동일하게 유지됩니다]

실험 목표

우리는 백인 남성, 흑인 남성 또는 흑인 여성 ( 에세이 저작자 변수) 이 쓴 에세이 보다 백인 남성이 쓴 에세이가 더 유리하게 평가되는지를 결정하고자합니다 . 우리는 또한 우리가 찾은 편견이 양질의 보조금 ( 품질 변수) 에서 더 많이 나타나는지 여부를 결정하고자합니다 . 마지막으로, 약 12 ​​가지 주제 ( 주제 변수)로 작성된 에세이를 포함 시키려고 합니다. 그러나 처음 두 변수 만 실질적으로 관심이 있습니다. 주제는 에세이마다 다양해야하지만 평가가 주제마다 어떻게 다른지에 대해서는 실질적으로 관심이 없습니다.

제약

  1. 참가자 수와 수집 할 수있는 에세이 수에는 제한이 있습니다. 결과적으로 저자간에 참여자들 사이에서 저작물을 완전히 조작 할 수없고, 에세이들 사이에서 완전히 조작 할 수도 없습니다 (즉, 각 개별 에세이는 여러 조건에 할당되어야합니다).
  2. 각 에세이는 백인 남성, 백인 여성, 흑인 남성 및 흑인 여성 버전을 가질 수 있지만, 각 에세이는 고품질 및 저품질 중 하나 일 수 있으며 주제는 하나 일 수 있습니다. 또는, 이러한 제약을 다른 방식으로 표현하기 위해, 품질이나 주제는 주어진 에세이의 고유 한 특성이기 때문에 에세이 내에서 조작 될 수 없습니다.
  3. 피로로 인해 특정 참가자가 평가할 수있는 에세이의 수에는 제한이 있습니다.
  4. 주어진 사람이 읽는 모든 에세이는 단일 주제에 관한 것이어야합니다. 다시 말해, 각 참가자가 유사한 주제의 에세이 만 읽을 수 있도록해야하기 때문에 에세이는 전적으로 참가자에게 무작위로 배정 될 수 없습니다.
  5. 각 참가자는 백인이 아닌 남성 작가가 작성한 것으로 추정되는 하나의 에세이 만 볼 수 있습니다. 왜냐하면 참가자는 너무 많은 에세이가 흑인 또는 여성 작가에 의해 작성 되었기 때문에 실험의 목적에 대해 의심을 가지기를 원하지 않기 때문입니다.

제안 된 디자인

내가 제안한 디자인은 먼저 각 에세이를 4 가지 저작 버전 (백인, 백인, 여성 등)으로 조작합니다. 그런 다음 유사한 주제의 4 가지 에세이를 사용하여 "세트"를 정의합니다. 각 세트는 2 개의 고품질 및 2 개의 낮은 품질의 에세이로 구성됩니다. 각 참가자는 아래 그림과 같이 주어진 세트에서 세 개의 에세이를받습니다. 그런 다음 각 참가자는 자신이 할당 한 세 개의 에세이 각각에 단일 등급을 제공합니다.

실험 설계

잠재적 인 혼란

제 동료는 위의 디자인에 혼란이 있다고 생각합니다. 그는 문제는 백인이 아닌 남성 작가가 저술 한 양질의 에세이를 할당 할 때 항상 하나의 고품질 에세이와 하나의 저품질 에세이와 짝을 이룬다는 것이다 (에세이 1의 경우 참가자 1 ~ 3 참조). 그림에서). 반면, 같은 수필이 백인 남성 작가들에 의해 작성되도록 배정 된 경우, 한 개의 고품질 에세이와 한 개의 저품질 에세이와 3 번 (에세이 1, 참가자 4-6)과 두 개의 저품질 에세이 3과 짝을 이룹니다. 시간 (에세이 1, 참가자 7-9).

품질이 낮은 에세이에도 비슷한 문제가 있습니다. 저품질 에세이가 백인 남성 작가가 아닌 경우, 항상 저품질 에세이와 고품질 에세이로 볼 수 있습니다 (에세이 3의 경우 참가자 7-9 참조). 그러나 같은 에세이에 백인 남성 저자가있는 경우, 하나의 고품질 에세이와 하나의 저품질 에세이로 세 번 (에세이 3, 참가자 10-12), 두 번의 고품질 에세이로 세 번 (에세이 3, 참가자 1-3).

위의 패턴이 문제가 될 수있는 이유는 "대비 효과"가 있다고 가정하기 때문입니다. 구체적으로, 고품질 에세이가 하나의 저품질 에세이와 하나의 고품질 에세이와 짝을 이룰 때보 다 두 개의 저품질 에세이와 짝을 이룰 때 평균적으로 더 유리하게 평가되는 경우 (합리적인 가정), 백인 남성 에세이는보다 높은 평가를받을 수 있습니다. 저자 이외의 이유로 백인 여성, 흑인 남성 및 흑인 여성 에세이.

고품질 에세이에 대한 대비 효과는 낮은 품질의 에세이에 대한 대비 효과와 균형을 이룰 수 있거나 그렇지 않을 수 있습니다. 즉, 2 개의 고품질 에세이와 쌍을 이루는 저품질 에세이가 특히 바람직하지 않게 평가되는 경우 일 수도 있고 아닐 수도있다. 내 동료의 주장에 상관없이, 모든 종류의 대비 효과에 대한 가능성은 백인 남성이 쓴 에세이가 다른 저자의 에세이보다 호의적으로 평가되는지 여부를 결정하기 위해이 디자인이 문제가되게합니다.

잠재적 혼란이 문제가 아니라고 생각하는 이유

나에게 중요한 것은 대조 효과가있을 때에도 백인 남성 에세이가 다른 에세이와 다르게 평가되는 정도 (즉, 관심의 영향을 추정 할 수 있는지)를 추정 할 수 있는지 여부입니다. 따라서 대비 효과가 포함 된 50 개의 데이터 세트를 시뮬레이션하고 관심있는 효과를 테스트하는 모델에 맞는 시뮬레이션을 수행했습니다.

특정 모델은 에세이 (각 에세이는 여러 참가자에 의해 평가됨) 및 참가자 (각 참가자가 여러 에세이를 평가 함)에 대한 임의의 인터셉트가있는 혼합 효과 모델입니다. 에세이 레벨에는 인종, 성별 및 상호 작용에 대한 임의의 기울기가 포함되어 있으며 (두 변수는 모두 에세이 내에서 조작 됨) 참가자 레벨에는 품질에 대한 임의의 기울기가 포함됩니다 (품질은 참가자 내에서 조정 됨). 관심의 영향은 인종, 성별, 인종과 성별의 상호 작용 및 이러한 변수와 품질 사이의 고차 상호 작용의 영향입니다. 이 시뮬레이션의 목표는 데이터에 대비 효과를 도입하여 인종, 성별, 인종과 성별의 상호 작용, 이러한 변수와 품질 사이의 고차 상호 작용. 자세한 내용은 아래 코드 청크를 참조하십시오.

시뮬레이션에 따르면, 대비 효과가 있다고해서 관심있는 효과에 대한 추정치는 바이어스되지 않습니다. 또한 대비 효과의 크기는 디자인의 다른 효과와 동일한 통계 모델에서 추정 할 수 있습니다. 나에게 이것은 이미 내 동료가 식별 한 "대비 효과"가 혼란스럽지 않다는 것을 암시한다. 그러나 제 동료는 여전히 회의적입니다.

require(lme4)
require(plyr)

participant <- rep(1:12, 3)
essay <- c(rep(1, 9), rep(2, 9), rep(3, 9), rep(4, 9))
quality <- ifelse(essay == 1 | essay == 2, "high", "low")
race <- c("white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black",
          "white", "black", "black", "white", "white", "white", "white", "white", "white",
          "white", "white", "white", "white", "white", "white", "white", "black", "black")
gender <- c("female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female",
            "female", "male", "female", "male", "male", "male", "male", "male", "male",
            "male", "male", "male", "male", "male", "male", "female", "male", "female")

d <- data.frame(participant, essay, quality, race, gender)

for(i in 1:35)
{
  participant <- participant + 12
  essay <- essay + 4
  newdat <- data.frame(participant, essay, quality, race, gender)

  d <- rbind(d, newdat)
}

check_var <- function(var)
{
  tab <- table(var)
  newvar <- character()

  for(i in var)
  {
    if(i == names(tab[tab == 1]))
    {
      newvar <- c(newvar, "different")
    } else
    {
      newvar <- c(newvar, "same")
    }
  }

  return(newvar)
}

# Mark, for a given participant, which essay is "different"
d <- ddply(d, "participant", mutate, different = check_var(quality))

# Make each variable numeric for the purposes of the simulation
d$quality <- ifelse(d$quality == "low", -.5, .5)
d$race <- ifelse(d$race == "black", -.5, .5)
d$gender <- ifelse(d$gender == "female", -.5, .5)
d$different <- ifelse(d$different == "same", -.5, .5)

# Random seed
set.seed(2352)

# Number of simulations
reps <- 50
# Create a storage space for the effects
effs <- matrix(NA, ncol = 10, nrow = reps)

# For each simulation
for(i in 1:reps)
{
  # Fixed effects.  A quality effect and a contrast effect for quality
  d$score <- .5 * d$quality + 1 * d$different * d$quality

  # Random effects at the participant level
  d <- ddply(d, "participant", mutate, r_int = rnorm(1, sd = .5),
             r_q = rnorm(1, sd = .5),
             score = score + r_int + r_q * quality)

  # Random effects at the essay level
  d <- ddply(d, "essay", mutate, g_int = rnorm(1, sd = .5),
             g_r = rnorm(1, sd = .5),
             g_g = rnorm(1, sd = .5),
             g_r_g = rnorm(1, sd = .5),
             score = score + g_int + g_r * race + g_g * gender + g_r_g * race * gender)

  # Observation-level error
  d$score <- d$score + rnorm(dim(d)[1], sd = 1)

  # Fit the model
  mod <- lmer(score ~ race * gender * quality + different * quality + (race * gender | essay) + (quality | participant), data = d)

  # Store the coefficients
  colnames(effs) <- names(fixef(mod))
  effs[i, ] <- fixef(mod)

  # Print the current simulation
  print(i)
}

# Results
round(colMeans(effs), digits = 2)

        (Intercept)                race              gender             quality 
               0.00               -0.03                0.02                0.50 
          different         race:gender        race:quality      gender:quality 
               0.01               -0.03                0.00                0.03 
  quality:different race:gender:quality 
               0.97               -0.02

다시 한 번, 내 전반적인 질문은 내가 설명한 디자인에 혼란이 있습니까? 혼란이없는 경우, 잠재적 인 "대비 효과"가 혼란이 아닌 이유에 대한 설명에 관심이있어서 동료에게 설명 할 수 있습니다.


2
에세이가 어떻게 평가 될까요? 여러 평가자가 고용 될 경우 다른 평가자의 등급이 매우 일정하지 않다는 점을 기억해야하므로 평가자 간의 변동성을 기억해야합니다.

각 참가자는 자신이 할당 한 세 가지 에세이 각각에 대해 하나의 평가를 제공합니다.
Patrick S. Forscher

평가 절차에 대한 세부 정보를 질문 본문에 추가했습니다.
Patrick S. Forscher

lmer ()에 익숙하지 않은 사람들을 위해 분석과 "관심있는 영향"을 간단히 설명해 주시겠습니까?
Anthony

문제 없습니다, @Anthony. 나는 그 세부 사항을 질문에 추가했습니다.
Patrick S. Forscher

답변:


1

나는 관련된 혼란에 대해 걱정할 것입니다- '각 참가자는 백인이 아닌 남성 작가가 저술 한 것으로 예상되는 하나의 에세이 만 볼 수 있습니다. 흑인 또는 여성 작가가 작성했습니다. '

즉, 결과에 관계없이 백인 남성 저자와 다른 저자의 차이로 인한 것인지 아니면 단순히 '주요 저자'와 '소수자 저자'사이의 차이인지 판단 할 수 없습니다.

표시된 디자인이 프레젠테이션 순서를 반영하면 (확인하지는 않지만 확인하는 것이 좋습니다) 다른 문제 인 것 같습니다.


그림은 프레젠테이션 순서를 반영하지 않습니다.
Patrick S. Forscher

1
나는 "대수"와 "소수"저자에 의해 주어진 인종 / 성별 조합 (즉, 2/3 백인 남성, 1/3 기타)에 해당하는 에세이의 비율을 의미합니까? 각 참가자마다 백인 남성 에세이가 다른 사람보다 많은 수의 에세이를 작성한다는 것은 사실입니다. 그러나 백인 남성은 우리가 공부하고 싶은 에세이 작가의 인구의 비율을 더 많이 차지합니다. 우리는이 "혼란 한"(실제로 문제의 일부일 수 있음)은 백인 남성과 소수자 에세이의 정확히 절반이있는 인공적인 상황을 만드는 것보다 덜 문제가되지 않기로 결정했습니다.
Patrick S. Forscher

1

각 참가자가 두 개의 에세이 (하나의 백인 남자와 다른 남자) 만 평가하면 디자인이 더 단순하지 않습니까? 참가자들에게 두 개의 에세이를 평가하되 더미에는 대부분 남성 에세이가 포함되어 있다고 믿게하십시오. 그들은 방금 그 둘을 우연히 얻었습니다. 카드 마술사들은 이것을 "강제"라고 부릅니다. 참가자가 너무 많은 경우 12 개 미만의 주제를 테스트하십시오. 열두가 많습니다.


1

이 표본 크기로 어떻게 결론을 내릴 수 있습니까? 이 실험을 여러 번 반복하면 백인 남성과 흑인 남성을 모두 얻는 4 명의 마커가 모두 16 명 중 한 번의 시험에서 백인 남성에게 더 나은 점수를 부여합니다.


이것은이 연구의 매우 작은 버전입니다. 전체 연구에는 432 명이 에세이를 평가하고 있습니다.
Patrick S. Forscher
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.