치료에 의해 영향을받는 공변량에 필요한 좋은 데이터 예


19

나는 많은 R 데이터 세트, DASL 및 다른 곳의 게시물을 살펴 보았고 실험 데이터의 공분산 분석을 보여주는 흥미로운 데이터 세트의 좋은 예를 많이 찾지 못했습니다. 통계 교과서에는 많은 데이터가 포함 된 "장난감"데이터 세트가 있습니다.

다음과 같은 예를 갖고 싶습니다.

  • 흥미로운 이야기가 담긴 실제 데이터
  • 적어도 하나의 처리 인자와 두 개의 공변량이 있습니다
  • 적어도 하나의 공변량은 하나 이상의 치료 인자에 의해 영향을 받고, 하나는 치료에 의해 영향을받지 않는다.
  • 관찰보다는 실험적, 바람직하게는

배경

내 진짜 목표는 내 R 패키지의 비네팅을 넣을 좋은 예를 찾는 것입니다. 그러나 더 큰 목표는 사람들이 공분산 분석에서 몇 가지 중요한 문제를 설명하기 위해 좋은 예를보아야한다는 것입니다. 다음과 같은 구성 시나리오를 고려하십시오 (그리고 농업에 대한 나의 지식은 피상적이라는 것을 이해하십시오).

  • 우리는 비료가 음모에 무작위 화되고 작물이 심어지는 실험을 수행합니다. 적절한 재배 기간이 끝나면 작물을 수확하고 품질 특성을 측정합니다. 이것이 반응 변수입니다. 그러나 우리는 또한 재배 기간 동안의 총 강우량과 수확 시점의 토양 산도 및 물론 비료가 사용되었는지 기록합니다. 따라서 우리는 두 개의 공변량과 치료법을 가지고 있습니다.

결과 데이터를 분석하는 일반적인 방법은 계수로 처리하고 공변량에 대한 추가 효과를 사용하여 선형 모형을 맞추는 것입니다. 그런 다음 결과를 요약하기 위해 평균 강우량과 평균 토양 산도에서 각 비료의 모델로부터 예측 한 "조정 된 평균"(AKA 최소 제곱 평균)을 계산합니다. 이 결과를 비교할 때 강우량과 산도를 일정하게 유지하기 때문에 모든 것이 동일한 기초에 놓입니다.

그러나 이것은 아마도 잘못된 일입니다. 비료는 아마도 토양 산도와 반응에 영향을 미치기 때문입니다. 이것은 치료 효과가 산성도에 영향을 미치기 때문에 조정 된 수단을 오도하게 만듭니다. 이를 처리하는 한 가지 방법은 모델에서 산도를 제거하는 것인데, 강우 조정 수단은 공정한 비교를 제공합니다. 그러나 산도가 중요한 경우이 공정성은 잔차 변동이 증가함에 따라 큰 비용이 듭니다.

원래 값 대신 조정 된 버전의 산도를 사용하여이 문제를 해결할 수있는 방법이 있습니다. 내 R 패키지 lsmeans에 대한 향후 업데이트 로이 문제 를 쉽게 해결할 수 있습니다. 그러나 나는 그것을 설명하기 위해 좋은 모범을 보이고 싶습니다. 나는 좋은 예시적인 데이터 세트를 지적 할 수있는 사람에게 매우 감사하고, 진정으로 인정할 것이다.


1
이것은 의심 할 여지없이 중요하고 흥미로운 질문 모두 있지만, 무엇에 관한 규칙 파울 떨어질 가능성이있는 것처럼 보인다 주제에 " 특정 데이터 세트를 구하는 방법에 대한 질문 (그들도 전문으로하고 있습니다) 주제 꺼져 있습니다. "
Glen_b -Reinstate을 Monica


1
지금까지의 반응에 대한 나의 인상은 우리가이 질문과 같은 다른 질문들에 대해 빈틈없이 판결함으로써 빈칸 점검을하는 것이 조심스럽지 만, 우리는이 특정한 질문에 주로 찬성하고 심지어 당신이 얻을 수있는 답변의 종류 (아마도 그 비트는 나일 것입니다). 우리가 원하는하지 않을 것은 저조한 점을 증명하는 데이터 세트에 대한 질문이 질문의 복제품 기록 통계는 아니지만 대한 통계를. 즉, 통계적 원리를 입증하는 데 도움을 요청하는 것이 한 가지이지만 도메인 별 데이터 집합을 요청하는 것도 좋은 방법입니다.
Nick Stauner

3
좋습니다, 좋은 생각 인 것 같습니다. 나는 명성을 낮추기 위해 과거에 훨씬 더 나쁜 일을 해왔다.
rvl

2
@SteveS 나는 그것이 현상금의 좋은 후보라고 동의합니다. 실제로 나는 방금 그것에 하나두기 위해 여기에 왔으며 , Russ가 이미 그렇게했음을 알게되었습니다. 일주일 내에 좋은 답변이 없다면 두 번째 현상금을 고려하는 것이 좋습니다. Russ : 흥미로운 질문에 대한 현상금은 그 다음에 나오는 투표자들이 종종 비용을 거의 지불한다는 충분한 관심을 끄는 경향이 있으므로 평판 손실은 언뜻보기에 훨씬 덜 가파 릅니다.
Glen_b-복지국 모니카

답변:


6

mediationR 패키지 를 확인하고 싶을 수도 있습니다 . 것처럼 실험 데이터는 포함 jobsframing처리 변수에 응답 변수와 공변 모두에 영향 곳 (즉, 치료 효과의 매개체) 처리에 의해 영향을받지 공변량과 함께,.

나는 중재 연구를 정확하게 설명했지만 중재 문헌을 조사했습니다. 작물 품질에 대한 비료 효과는 토양 산도에 미치는 영향을 통해 중재됩니다. mediation패키지 의 데이터 세트가 만족 스럽지 않더라도 중개 문헌을 살펴보면 데이터 세트를 찾을 수 있습니다.


감사. 패키지를 설치하고 살펴 보겠습니다. 그리고 새로운 것을 배울 수있는 기회.
rvl

내가 방금 참석 한 JSM 세션에서 세 가지 대화 중 두 가지로 채용 데이터가 언급 된 것에 흥미가있다.
rvl

1
어쨌든 현상금을 나눌 수 있기를 바랍니다. 그러나이 패키지에는 내가 요청한 것에 매우 적합한 준비된 데이터 세트가 있으므로 @MasatoNakazawa가 현상금을 얻습니다. 정말 고마워. framing데이터를 사용하여 매개 변수가 고정되어있을 때 LSmeans (물류 모델 기반)의 교호 작용도는 처리 및 기타 공변량에 의해 예측 된 값으로 설정된 것과 크게 다르므로 중재를 취하는 것이 얼마나 중요한지를 보여줍니다 변수를 고려하십시오.
rvl

1
렌트 박사님 감사합니다. 실은 논문에서 논문을 인용했습니다. 나는 당신과 같은 기존 통계 학자에게 도움을 줄 수있는 영광을 얻었습니다.
마사토 나카자와

4

중개 패키지 의 데이터 세트 중 하나를 사용하여 분석을 수행하는 방법을 보여줄 것이라고 생각했습니다 . 에서 framing, 실험 대상자들이 이민에 관한 메시지를 의회에 보낼 기회가있는 곳에서 실험이 이루어졌다. 그러나 일부 주제 ( treat=1)는 처음에 라틴계 사람들을 부정적으로 묘사하는 뉴스 기사를 보여주었습니다. 이진 반응 (메시지 전송 여부에 관계없이)뿐만 아니라 emp치료가 적용된 후 피험자의 감정 상태를 측정했습니다 . 다양한 인구 통계 변수도 있습니다.

먼저 필요한 패키지를 R에로드하고 레이블 educ을 더 짧은 문자열로 변경합니다 .

> library("lsmeans")
> library("mediation")
> levels(framing$educ) = c("NA","Ref","< HS", "HS", "> HS","Coll +")

로지스틱 회귀 모형에 적합

> framing.glm = glm(cong_mesg ~ age + income + educ + emo + gender * factor(treat),
+                   family = binomial, data = framing)

여기서 상기 예측 공변량으로 만들어진 종래의 조정 수단의 표시이고 age, income그리고 emo그들의 평균값으로 설정은 :

> lsmip(framing.glm, treat ~ educ | gender, type = "response")

(응답 척도로 변환 된 기존의 "조정 된 수단"의 상호 작용 그림)

이것은 치료 효과가 남성에 비해 여성에게는 반대이며 교육의 효과가 예상대로 모노톤이 아니기 때문에 흥미로운 결과입니다.

그러나 h emo처리 후 측정입니다. 이는 치료가 치료에 영향을 줄 수 있음을 의미합니다. 즉 emo매개 공변량입니다. 따라서 emo상수 를 유지하면서 응답 변수의 예측을 비교하는 것은 의미가 없을 수 있습니다 . 대신 emo예측값 treat과 인구 통계 학적 변수로 설정 되는 예측을 살펴 보겠습니다 .

> lsmip(framing.glm, treat ~ educ | gender, type = "response",
+       cov.reduce = emo ~ treat*gender + age + educ + income)

(중재 효과를 고려한 예측의 상호 작용 도표)

이 결과는 상당히 다르므로 emo강력한 중재 역할을합니다. ( 중재 패키지에는 이러한 효과의 강도를 추정하는 기능이 있습니다.) 위 예측에 따르면 감정적 인 반응을 고려할 때 부정적인 뉴스 기사에 노출 된 남성 주제는 여성이나 부정적인 뉴스 기사. 또한 그 효과 educ는 (거의) 모노톤입니다.

@MasatoNakagawa에게 다시 한 번 감사의 말을 전하고 최근의 인과 관계에 대한 연구에 관심을 가져 주셔서 감사합니다.


3

유전자-환경 상호 작용 GWAS 연구를 찾아보십시오. 그들이 본질적으로 수행하는 통계 분석은 당신이 설명한 것입니다. 문제는 환경이 표현형 (관찰 가능한 특징)에 중요합니까? 한 학교는 일반적으로 모든 환경 정보를 무시하고 유전자 구성이 표현형을 설명한다고 말합니다. 이것은 이야기가 환경이며 유전자를 무시하는 생태 연구와 완전히 대조적입니다. 두 당사자가 동일한 문제를 이해하려고 노력하고 있기 때문에 최근 두 가지를 통합하려는 시도가있었습니다.

BMI를 공부하고 있다고 가정 해 봅시다. 유전자 매트릭스의 처음 몇 가지 주요 구성 요소를 유전자로 인한 고정 효과로 사용합니다. 우리는 교육 수준이 높고 교육 수준이 낮 으면 고정 효과로 0을 사용하여 교육에 적합합니다. 교육 지수와 사람이 속한 지역 사회의 부 간에는 상당히 강한 상관 관계가 있습니다. 따라서 저소득층이 패스트 푸드 식당을 가질 가능성이 높다고 주장 할 것입니다. 패스트 푸드는 비만 유발 트리거 역할을합니다. "유전 축적에서 지방 축적을 장려하는 무언가를 유발합니다"는 어떤 형태로 유전자 구성에 나타날 것입니다.

그러한 데이터를 시뮬레이션하는 것은 문제가되지 않습니다. 찾다

http://pngu.mgh.harvard.edu/~purcell/plink/simulate.shtml

이를 통해 증상을 일으키는 GWAS (유전자 단위로 생각) 데이터를 시뮬레이션 할 수 있습니다. 달리 지시하지 않으면 증상과 1000 개의 컨트롤로 1000을 생성합니다. 내가 사용하는 이러한 시뮬레이션의 표준은 9990 SNP이며 증상을 일으키지 않으며 10 SNP는 발생합니다. 시뮬레이션 방법에 대한 지침을 읽으십시오.

사람이 비만인 경우 1이 출력되고 그렇지 않은 경우 0이 출력됩니다. 비만 수준과의 합리적인 상관 관계를 기반으로 교육 요인 (대학 교육 종료 / 대학 교육 미완료)을 시뮬레이션합니다.

도움이 되었기를 바랍니다!!!


감사. 그래도 실제 데이터를 계속 유지하고 있습니다. 게다가 GWAS 연구가 무엇인지 잘 모르겠습니다. DUH, 방금 링크를 따라 찾았습니다.
rvl

다른 응답자에게 현상금을 제공했지만이 제안에 감사하며이를 따르려고합니다. 감사.
rvl

1

Freakonomics를 읽고 그들의 연구에 기반을 둔 논문을 찾고 그 데이터를 얻을 수 있는지 확인하는 것이 좋습니다. 그들은 정말 흥미로운 데이터 세트에 대한 흥미로운 작업을 수행하고 있으며, 어떤 경우에는 데이터의 한계에도 불구하고 가설을 테스트하는 매우 영리한 방법을 찾아냅니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.