상호 작용 효과를 식별하는 모범 사례는 무엇입니까?


35

모델 ( x1:x2또는 x1*x2 ... xn-1 * xn) 에서 변수의 가능한 각 조합을 문자 그대로 테스트하는 것 외에 . 독립적 (희망) 변수 사이에 교호 작용이 있어야하는지 또는 어떻게해야하는지 어떻게 식별합니까?

상호 작용을 식별하려는 모범 사례는 무엇입니까? 사용할 수 있거나 사용할 수있는 그래픽 기술이 있습니까?


귀하의 데이터에 대해 조금 말씀해 주시겠습니까? 크기 (cf 내 답변)와 자연 (cf Gavin의 답변)
로빈 지라드

@Robin : 그에게 침대에서 나올 시간을 줘, Brandon은 토론토에있다 ;-)
Reinstate Monica-G. Simpson

1
@Robin, 나는 그것을 더 일반적으로 유지하고 싶습니다. 귀하의 응답으로 데이터의 크기 또는 특성에 대한 가정이 필요한 방법을 제공하는 경우이를 명시하십시오. 내가 겪고있는 문제는 서로 다른 데이터로 여러 가지 모델링 작업에 걸쳐 있습니다. 따라서이 경우 상호 작용 효과를 식별하는 데 대한 일반적인 권장 사항을 찾고 있습니다.
Brandon Bertelsen

답변:


20

Cox and Wermuth (1996) 또는 Cox (1984)는 상호 작용을 탐지하는 몇 가지 방법을 논의했습니다. 문제는 일반적으로 교호 작용 용어의 일반적인 정도입니다. 기본적으로, 우리는 (a) 모든 2 차 상호 작용 항을 한 번에 하나씩 맞추고 (b) 대응하는 p- 값 (즉, 의 함수로서의 )을 플로팅합니다 . 그런 다음 아이디어는 특정 수의 교호 작용 항이 유지되어야하는지 확인하는 것입니다. 모든 교호 작용 항이 null이라는 가정하에 p- 값의 분포가 균일해야합니다 (또는 산점도의 점이 대략적으로 분포되어야 함). 원점을 통과하는 선).1p

이제 @Gavin이 말했듯이 많은 (모든 것은 아니지만) 상호 작용을 피팅하면 과적 합이 발생할 수 있지만 특정 의미로는 쓸모가 없습니다 (일부 상위 상호 작용 용어는 전혀 의미가 없습니다). 그러나이 해석이 아닌 상호 작용의 검출과 관련이있다, 좋은 검토는 이미 콕스에 의해 제공되었다 상호 작용의 해석, • 검토 ( 응용의 연보 통계 2007, 1 (2), 371-385) - 그 위에 인용 된 참고 문헌을 포함합니다. 살펴볼 가치가있는 다른 연구 라인은 유전자 연구에서 전이 효과 에 대한 연구, 특히 그래픽 모델을 기반으로 한 방법 (예 : 유전자 연관 네트워크에서 통계적 상호 작용자를 식별하는 효율적인 방법 )입니다.

참고 문헌

  • 콕스, DR 및 Wermuth, N (1996). 다변량 종속성 : 모델, 분석 및 해석 . 채프먼과 홀 / CRC.
  • 콕스, DR (1984). 상호 작용 . 국제 통계 검토 , 52, 1–31.

16

모범 사례는 모델을 맞추기 전에 해결해야 할 문제에 대해 생각 하는 입니다. 공부하고있는 현상을 감안할 때 그럴듯한 모델은 무엇입니까? 변수와 상호 작용의 모든 가능한 조합을 맞추는 것은 데이터 준설처럼 들립니다.


5
말처럼 들리거나 대답은 "생각"입니까?
로빈 지라드

2
@Robin-후자. 나는 통계 모델링이 매우 어렵다는 것을 알았습니다 (저는 공식적인 통계 훈련이 거의없는 생태 학자입니다. 제가 배운 것들 대부분은 자발적으로 배웠습니다). 먼저 문제에 대해 생각하고, 그럴듯한 것을 결정하면 훨씬 쉽습니다. 이 모델을 만들고, 모델 진단을 수행하고, 과학적으로 이해되는 상호 작용을 시도하십시오.
복원 Monica Monica-G. Simpson

2
@Brandon : 상호 작용이 누락 된 경우 공변량 값에 따라 잔차에 패턴이 나타납니다. 공변량에 대한 잔차를 플로팅하면 상호 작용이 적절한 위치를 결정하는 데 도움이 될 수 있습니다.
복원 모니카-G. 심슨

2
@Brandon : 표준 모델 진단 및 탐색 플로팅 기술입니다. 나는 상호 작용에 관여한다고 생각되는 공변량의 값에 대해 조절 된 (ggplot2 또는 격자 방식으로) 간섭 후보가 될 수 있다고 생각되는 공변량 중 하나에 대해 잔차를 플로팅 할 것입니다. 패턴이 있는지 확인하기 위해 각 패널에 황토를 더 부드럽게 붙입니다. 공변량의 변수 유형에 따라 다릅니다.
복원 모니카-G. 심슨

2
데이터 준설? 데이터를 충분히 오래 고문하면 고백 할 것입니다.
Curious

16

트리 모델을 피팅하면 (즉, R 사용) 설명 변수 간의 복잡한 상호 작용을 식별하는 데 도움이됩니다. 여기 30 페이지의 예를 읽으 십시오 .


매우 간단하고 매우 유용합니다. Crawley의 텍스트를 참조 해 주셔서 감사합니다!
Brandon Bertelsen

조심하십시오-선형 모델에서는 이러한 종류의 상호 작용을 쉽게 맞출 수 없습니다. 상호 작용은 트리의 한 분기 (또는 일부)에서만 발생합니다. 실제 데이터에서 이러한 종류의 도구를 사용하려면 많은 데이터 가 필요합니다 .
복원 Monica Monica-G. Simpson

3
@Gavin이 말했듯이, 잠재적 인 함정 중 하나는 의사 결정 트리가 큰 표본 크기를 필요로하며 상당히 불안정하다는 것입니다 (배깅 및 임의의 숲이 실행 가능한 대안으로 제안 된 이유 중 하나임). 또 다른 문제는 우리가 2 차 또는 고차 상호 작용 효과를 찾고 있는지 명확하지 않다는 것입니다. 전자의 경우 CART는 해결책이 아닙니다. 어쨌든, 나는 모든 종류의 연구 (관측 또는 통제)에서 6 개의 변수 사이의 상호 작용에 대한 해석이 매우 의심 스럽다.
chl

7

Gavin에 전적으로 동의 할 때이 응답을 시작하고, 모든 유형의 모델에 관심이 있다면 연구중인 현상을 반영해야합니다. 문제는 모든 효과를 식별하는 논리와 데이터 준설을 말할 때 Gavin이 참조하는 논리에있어 무한한 상호 작용, 변수에 대한 2 차 항 또는 데이터의 변환 또는 데이터 변환에 적합 할 수 있다는 것입니다. 데이터의 일부 변형에 대한 "중요한"효과를 필연적으로 찾을 수 있습니다.

chl이 언급했듯이, 이러한 고차 상호 작용 효과는 실제로 어떤 해석도하지 않으며, 종종 저차 상호 작용조차도 의미가 없습니다. 인과 관계 모델 개발에 관심이있는 경우 모형에 적합하기 전에 종속 변수 A와 관련이 있다고 생각되는 용어 만 포함해야합니다 .

모델의 예측력을 높일 수 있다고 생각되면 모델 선택 기술에 대한 리소스를 찾아 모델이 과적 합되지 않도록해야합니다.


7

은 얼마나 니까? 몇 개의 관측치가 있습니까? 이것은 중요합니다 ...n

소볼 지수 는 관측치가 많고 이 몇 개인 경우 상호 작용으로 설명 된 분산비율을 알려줍니다 . 그렇지 않으면 모델링을 시작해야합니다 (처음에는 선형). 감도라는 멋진 R 패키지가 있습니다. 어쨌든 아이디어는 분산을 분해하는 아이디어입니다 (일반화 분산 분석이라고도 함).n

이 분산 비율이 중요한지 알고 싶다면 모델링을 수행해야합니다 (대략, 모형을 분산과 비교하려면 자유도를 알아야합니다).

변수가 불 연속적입니까 아니면 연속적입니까? 바운드 또는 실제로 (즉, 최대 값을 모름)?


Sobol 지수에 대한 지시에 감사드립니다. 다시 말하지만, 나는 여기에 구체적인 대답이 아닌 일반적인 것을 찾고 있다고 지정하고 싶습니다. 특정 데이터 세트에 대해 묻지 않고 여러 가지 다른 세트로 발생한 문제를 설명하려고합니다.
Brandon Bertelsen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.