나는 많은 R 데이터 세트, DASL 및 다른 곳의 게시물을 살펴 보았고 실험 데이터의 공분산 분석을 보여주는 흥미로운 데이터 세트의 좋은 예를 많이 찾지 못했습니다. 통계 교과서에는 많은 데이터가 포함 된 "장난감"데이터 세트가 있습니다.
다음과 같은 예를 갖고 싶습니다.
- 흥미로운 이야기가 담긴 실제 데이터
- 적어도 하나의 처리 인자와 두 개의 공변량이 있습니다
- 적어도 하나의 공변량은 하나 이상의 치료 인자에 의해 영향을 받고, 하나는 치료에 의해 영향을받지 않는다.
- 관찰보다는 실험적, 바람직하게는
배경
내 진짜 목표는 내 R 패키지의 비네팅을 넣을 좋은 예를 찾는 것입니다. 그러나 더 큰 목표는 사람들이 공분산 분석에서 몇 가지 중요한 문제를 설명하기 위해 좋은 예를보아야한다는 것입니다. 다음과 같은 구성 시나리오를 고려하십시오 (그리고 농업에 대한 나의 지식은 피상적이라는 것을 이해하십시오).
- 우리는 비료가 음모에 무작위 화되고 작물이 심어지는 실험을 수행합니다. 적절한 재배 기간이 끝나면 작물을 수확하고 품질 특성을 측정합니다. 이것이 반응 변수입니다. 그러나 우리는 또한 재배 기간 동안의 총 강우량과 수확 시점의 토양 산도 및 물론 비료가 사용되었는지 기록합니다. 따라서 우리는 두 개의 공변량과 치료법을 가지고 있습니다.
결과 데이터를 분석하는 일반적인 방법은 계수로 처리하고 공변량에 대한 추가 효과를 사용하여 선형 모형을 맞추는 것입니다. 그런 다음 결과를 요약하기 위해 평균 강우량과 평균 토양 산도에서 각 비료의 모델로부터 예측 한 "조정 된 평균"(AKA 최소 제곱 평균)을 계산합니다. 이 결과를 비교할 때 강우량과 산도를 일정하게 유지하기 때문에 모든 것이 동일한 기초에 놓입니다.
그러나 이것은 아마도 잘못된 일입니다. 비료는 아마도 토양 산도와 반응에 영향을 미치기 때문입니다. 이것은 치료 효과가 산성도에 영향을 미치기 때문에 조정 된 수단을 오도하게 만듭니다. 이를 처리하는 한 가지 방법은 모델에서 산도를 제거하는 것인데, 강우 조정 수단은 공정한 비교를 제공합니다. 그러나 산도가 중요한 경우이 공정성은 잔차 변동이 증가함에 따라 큰 비용이 듭니다.
원래 값 대신 조정 된 버전의 산도를 사용하여이 문제를 해결할 수있는 방법이 있습니다. 내 R 패키지 lsmeans에 대한 향후 업데이트 로이 문제 를 쉽게 해결할 수 있습니다. 그러나 나는 그것을 설명하기 위해 좋은 모범을 보이고 싶습니다. 나는 좋은 예시적인 데이터 세트를 지적 할 수있는 사람에게 매우 감사하고, 진정으로 인정할 것이다.