다변량 회귀 전의 일 변량 회귀 점은 무엇입니까?


13

나는 현재 우리가 작은 데이터 세트를 가지고 있고 결과에 대한 치료의 인과 관계 영향에 관심이있는 문제에 대해 연구하고 있습니다.

고문은 각 예측 변수에 대해 일 변량 회귀 분석을 수행하고 결과를 반응으로, 처리 할당을 반응으로 수행하도록 지시했습니다. 즉, 한 번에 하나의 변수로 회귀를 맞추고 결과 테이블을 만들어야합니다. 나는 "우리가 왜 이것을해야합니까?"라고 물었고, 그 대답은 "분명한 사람을 나타낼 수 있기 때문에 어떤 예측자가 치료 과제 및 결과와 관련되어 있는지에 관심이있다"는 효과에 대한 것이 었습니다. 내 고문은 다른 분야의 과학자가 아닌 숙련 된 통계 전문가이므로이를 신뢰하는 경향이 있습니다.

이것은 의미가 있지만 일 변량 분석 결과를 사용하는 방법은 명확하지 않습니다. 이 결과에서 모형 선택을 선택하지 않으면 추정치의 치우침과 신뢰 구간이 좁아지지 않습니까? 왜 이렇게해야합니까? 혼란스러워서 문제를 제기했을 때 조언자가 상당히 불투명합니다. 이 기술에 대한 리소스가 있습니까?

(NB : 고문은 p- 값을 잘 사용하지 않고 "모든 것"을 고려하고 싶다고 말했습니다.)


6
"일 변량 회귀"에 의해 강사가 산점도를 그리는 것을 포함한다면 , 그것은 현명한 조언입니다. 그리고 이후 에는 당신이 이제까지 걱정 회귀가 음모를 꾸미고없이 진행되어서는 안된다, 당신은 몇 가지 유용한 정보를 얻을 것이다. 가능하면 산점도 행렬을 사용하여 한 번에 모두 수행하고 강력한 스무딩을 표시하십시오. 변수가 선형 관계를 나타내지 않는 다양한 방법을 볼 때 장점이 분명합니다.
whuber

1
응답 데이터가 이진이고 로짓 링크와 함께 glm을 사용하는 경우 어떻게됩니까? 여러분의 설명은 선형 사례에 대해 분명히 설명하고 있으며, 이제 그것에 대해 생각하기 때문에 산점도의 사용은 자연 스러울 것입니다
Marcel

5
나는 당신이 그것을 요청 할지도 모른다고 걱정했다 :-). 실제로, 좋은 평활은 여전히 ​​큰 통찰력을 제공 할 수 있습니다. 응답을 지 터링하여 분포를 만들 수 있습니다. stats.stackexchange.com/a/14501/919 와 같은 플롯의 예입니다 . stats.stackexchange.com/a/138660/919 에서 다른 솔루션을 보여줍니다 .
whuber

3
다 변수 회귀 기법 이전의이 단 변량 회귀를 Hosmer and Lemeshow의 저서 "Applied Logistic Regression"에서 "목적 변수 선택"이라고합니다
Great38

7
주의-변수는 불변량 회귀에 관계가 없지만 다변량 관계에 중요 할 수 있습니다.
Glen_b-복지 주 모니카

답변:


3

분석의 인과 적 맥락은 질문의 핵심 규정 자입니다. 예측에서 Hosmer와 Lemenshow가 제안한 "목적 선택 방법"의 정신에서 여러 회귀 전에 일 변량 회귀를 실행하는 것이 한 가지 목표가 있습니다. 인과 모형을 작성하는 경우 다중 회귀 분석을 실행하기 전에 일 변량 회귀 분석을 실행하는 것은 완전히 다른 목표입니다. 후자를 확장하겠습니다.

당신과 당신의 강사는 특정한 인과 관계 그래프를 염두에 두어야합니다. 인과 관계 그래프는 테스트 가능한 의미를 갖습니다. 당신의 임무는 당신이 가진 데이터 세트로 시작하고 그것을 생성했을 수있는 인과 모델로 추론하는 것입니다. 그가 제안한 일 변량 회귀 분석은 여러분이 생각하는 인과 관계 그래프의 의미를 테스트하는 과정의 첫 단계를 구성 할 가능성이 가장 높습니다. 아래 그래프에 묘사 된 인과 관계 모델에 의해 데이터가 생성되었다고 가정합니다. D가 E에 미치는 인과 적 영향에 관심이 있다고 가정하십시오. 아래 그래프는 다음과 같은 여러 가지 테스트 가능한 의미를 제안합니다.

  • E는 D에 의존적이다
  • E와 A는 의존적 일 가능성이있다
  • E와 C는 아마도 의존적입니다
  • E와 B는 아마도 의존적입니다
  • E와 N은 독립적 일 가능성이있다

여기에 이미지 설명을 입력하십시오

여러 회귀 분석을 실행하고 다른 변수를 조정하고 회귀 결과가 그래프의 의미와 일치하는지 테스트하기 시작하면 실제 재미가 시작되기 때문에 이것이 인과 검색 프로세스의 첫 번째 단계라고 언급했습니다. 예를 들어, 위의 그래프는 D를 조건으로 설정하면 E와 A가 독립적이어야 함을 나타냅니다. 즉, D와 A에 대해 E를 회귀하고 A의 계수가 0이 아닌 것을 발견하면 E는 D를 조건으로 한 후 A에 의존하므로 인과 관계 그래프가 잘못되어야합니다. 이 회귀의 결과는 A와 E 사이에 D로 분리되지 않은 경로가 있어야 함을 나타 내기 때문에 인과 관계 그래프를 변경하는 방법에 대한 힌트도 제공합니다.


1

대답하기 전에 해당 유형의 데이터와 그 분포가 평가 / 회귀 / 분류 방법에 영향을 줄 수 있음을 지적하고 싶습니다.

또한 권고자가 사용하기를 원하는 방법을 여기 에서 찾을 수 있습니다.

약간의 배경. 모형 선택 도구를 사용하는 것이 가능하지만 여전히 예측 변수가 사용되거나 누락 된 이유를 말할 수 있어야합니다. 이러한 도구는 블랙 박스가 될 수 있습니다. 데이터를 완전히 이해하고 특정 예측 변수가 선택된 이유를 설명 할 수 있어야합니다. (특히 논문 / 마스터 프로젝트를 가정하고 있습니다.)

예를 들어, 주택 가격과 연령을보십시오. 주택 가격은 일반적으로 연령에 따라 감소합니다. 따라서 데이터에서 가격이 높은 오래된 집을 볼 때 이상 치가 제거되는 것처럼 보이지만 그렇지 않습니다.

(NB : 내 고문은 p- 값을 컷오프로 사용하지 않지만 "모든 것"을 고려하고 싶다고 말했다.) p- 값은 전부가 아니며 모든 것을 끝내지 만 도움이 될 수 있습니다. . 리콜 알고리즘 / 프로그램은 제한되어 있으며 전체 그림을 볼 수 없습니다.

각 예측 변수 / 치료 할당에 대해 일 변량 회귀 분석이 필요한 이유에 대해

이는 기본 다변량 모델에 포함 할 예측 변수를 선택하는 데 도움이 될 수 있습니다. 그런 다음 기본 모형에서 해당 예측 변수가 유의하고 남아 있어야하는지 또는 가혹한 모형을 얻기 위해 제거해야하는지 확인합니다.

또는 데이터를 더 잘 이해하는 것이 좋습니다.


1
아내와 나는 낡은 집을 샀지 만 역사적인 집을 살 여유가 없었기 때문에 당신의 모범은 쉬운 예가됩니다.
Nick Cox

진실. 나는 실제로 주택 가격에 대해 이야기하고 싶었다. 주택 가격이 일반적으로 연령에 따라 어떻게 감소합니까? 따라서 높은 가격의 오래된 집을 볼 때 이상 치가 제거되는 것처럼 보입니다. 그 점을 편집하겠습니다. 고마워.
Apocryphon

0

귀하의 감독관은 변수 중 어느 것이 데이터 변동의 상당 부분을 설명 할 수 있는지 확인하기 위해 데이터에 대한 첫 번째 분석을 수행하도록 요청하고 있다고 생각합니다.

변수 중 일부가 변수의 일부를 설명 할 수 있는지 결론을 내린 후, 변수가 함께 작동하는 방식, 변수가 동일 선상에 있거나 서로 연관되어 있는지 등을 평가할 수 있습니다. 순전히 탐색 단계에서 다변량 분석 각 변수를 구성하면 다른 변수의 영향을 제거하므로 첫 번째 평가가 더 어려워 질 수 있습니다. 변수 중 하나라도 변동을 설명 할 수 있는지 평가하기가 더 어려울 수 있습니다.


0

이는 데이터를 이해하는 접근법 일 수 있지만 경험에 따르면 모든 예측 변수와 각 예측 변수를 하나씩 사용하면 예측이 달라집니다. 그것은 우리가 데이터의 예측 가능성을 이해하고 향후 단계를 위해 수행해야 할 것을 이해하는 것입니다.
모든 변수에서 p- 값이 일부 변수가 중요하지 않지만 중요하지 않은 변수만으로도 충분히 중요하다는 것을 여러 번 보았습니다. 그것은 혼합 된 효과 때문입니다. 관리자가 잘못한 것이 아니라 데이터를 이해하기 위해 우리는 이것을해야합니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.