모델 ( x1:x2
또는 x1*x2 ... xn-1 * xn
) 에서 변수의 가능한 각 조합을 문자 그대로 테스트하는 것 외에 . 독립적 (희망) 변수 사이에 교호 작용이 있어야하는지 또는 어떻게해야하는지 어떻게 식별합니까?
상호 작용을 식별하려는 모범 사례는 무엇입니까? 사용할 수 있거나 사용할 수있는 그래픽 기술이 있습니까?
모델 ( x1:x2
또는 x1*x2 ... xn-1 * xn
) 에서 변수의 가능한 각 조합을 문자 그대로 테스트하는 것 외에 . 독립적 (희망) 변수 사이에 교호 작용이 있어야하는지 또는 어떻게해야하는지 어떻게 식별합니까?
상호 작용을 식별하려는 모범 사례는 무엇입니까? 사용할 수 있거나 사용할 수있는 그래픽 기술이 있습니까?
답변:
Cox and Wermuth (1996) 또는 Cox (1984)는 상호 작용을 탐지하는 몇 가지 방법을 논의했습니다. 문제는 일반적으로 교호 작용 용어의 일반적인 정도입니다. 기본적으로, 우리는 (a) 모든 2 차 상호 작용 항을 한 번에 하나씩 맞추고 (b) 대응하는 p- 값 (즉, 의 함수로서의 )을 플로팅합니다 . 그런 다음 아이디어는 특정 수의 교호 작용 항이 유지되어야하는지 확인하는 것입니다. 모든 교호 작용 항이 null이라는 가정하에 p- 값의 분포가 균일해야합니다 (또는 산점도의 점이 대략적으로 분포되어야 함). 원점을 통과하는 선).
이제 @Gavin이 말했듯이 많은 (모든 것은 아니지만) 상호 작용을 피팅하면 과적 합이 발생할 수 있지만 특정 의미로는 쓸모가 없습니다 (일부 상위 상호 작용 용어는 전혀 의미가 없습니다). 그러나이 해석이 아닌 상호 작용의 검출과 관련이있다, 좋은 검토는 이미 콕스에 의해 제공되었다 상호 작용의 해석, • 검토 ( 응용의 연보 통계 2007, 1 (2), 371-385) - 그 위에 인용 된 참고 문헌을 포함합니다. 살펴볼 가치가있는 다른 연구 라인은 유전자 연구에서 전이 효과 에 대한 연구, 특히 그래픽 모델을 기반으로 한 방법 (예 : 유전자 연관 네트워크에서 통계적 상호 작용자를 식별하는 효율적인 방법 )입니다.
모범 사례는 모델을 맞추기 전에 해결해야 할 문제에 대해 생각 하는 것 입니다. 공부하고있는 현상을 감안할 때 그럴듯한 모델은 무엇입니까? 변수와 상호 작용의 모든 가능한 조합을 맞추는 것은 데이터 준설처럼 들립니다.
Gavin에 전적으로 동의 할 때이 응답을 시작하고, 모든 유형의 모델에 관심이 있다면 연구중인 현상을 반영해야합니다. 문제는 모든 효과를 식별하는 논리와 데이터 준설을 말할 때 Gavin이 참조하는 논리에있어 무한한 상호 작용, 변수에 대한 2 차 항 또는 데이터의 변환 또는 데이터 변환에 적합 할 수 있다는 것입니다. 데이터의 일부 변형에 대한 "중요한"효과를 필연적으로 찾을 수 있습니다.
chl이 언급했듯이, 이러한 고차 상호 작용 효과는 실제로 어떤 해석도하지 않으며, 종종 저차 상호 작용조차도 의미가 없습니다. 인과 관계 모델 개발에 관심이있는 경우 모형에 적합하기 전에 종속 변수 A와 관련이 있다고 생각되는 용어 만 포함해야합니다 .
모델의 예측력을 높일 수 있다고 생각되면 모델 선택 기술에 대한 리소스를 찾아 모델이 과적 합되지 않도록해야합니다.
은 얼마나 니까? 몇 개의 관측치가 있습니까? 이것은 중요합니다 ...
소볼 지수 는 관측치가 많고 이 몇 개인 경우 상호 작용으로 설명 된 분산 의 비율을 알려줍니다 . 그렇지 않으면 모델링을 시작해야합니다 (처음에는 선형). 감도라는 멋진 R 패키지가 있습니다. 어쨌든 아이디어는 분산을 분해하는 아이디어입니다 (일반화 분산 분석이라고도 함).
이 분산 비율이 중요한지 알고 싶다면 모델링을 수행해야합니다 (대략, 모형을 분산과 비교하려면 자유도를 알아야합니다).
변수가 불 연속적입니까 아니면 연속적입니까? 바운드 또는 실제로 (즉, 최대 값을 모름)?