다중 선형 회귀 분석에 대한 최소 관측치 수


12

여러 선형 회귀 분석을 수행하고 있습니다. 21 개의 관측치와 5 개의 변수가 있습니다. 내 목표는 변수 간의 관계를 찾는 것입니다.

  1. 내 데이터가 다중 회귀를 수행하기에 충분히 설정 되었습니까?
  2. 내 변수 중 3 개가 유의하지 않은 것으로 밝혀진 t- 검정 결과. 중요한 변수로 회귀 분석을 다시 수행해야합니까 (또는 첫 회귀 분석으로 결론을 내리기에 충분합니까)? 내 상관 행렬은 다음과 같습니다

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1과 var 2는 연속 변수이고 var 3 ~ 5는 범주 형 변수이며 y는 내 종속 변수입니다.

내 의존적 변수에 가장 영향을 미치는 요인으로 문헌에서 고려 된 중요한 변수는 데이터 제한으로 인해 회귀 변수에도 포함되지 않습니다. 이 중요한 변수없이 회귀를 수행하는 것이 여전히 타당합니까?

여기 내 신뢰 구간입니다

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

답변:


17

일반적인 경험 법칙 (Frank Harrell의 저서 Regression Modeling Strategies )에 근거 하여 합리적인 거듭 제곱으로 합리적인 크기의 효과를 감지 할 수 있으려면 추정 된 모수 (공변량) 당 10-20 개의 관측치가 필요합니다. Harrell은 PCA와 같은 "치수 감소"(공분산의 수를보다 합리적인 크기로 줄임)에 대한 많은 옵션에 대해 논의하지만, 가장 중요한 것은 결과에 대한 신뢰를 얻으려면 치수 축소를 수행해야한다는 것입니다 응답 변수를 보지 않고 . 위에서 언급했듯이 중요한 변수만으로 회귀를 다시 수행하는 것은 거의 모든 경우에 나쁜 생각입니다.

그러나 데이터 세트와 관심있는 공변량 세트가 붙어 있기 때문에 다중 회귀 분석을 이런 방식으로 실행하는 것이 본질적으로 잘못되었다고 생각하지 않습니다. 가장 좋은 방법은 전체 모델에서 결과를 그대로 받아들이는 것입니다. (실제로 중요한 효과가 "큰"것으로 추정되는지 확인하기 위해 점 추정치 및 신뢰 구간을 확인하는 것을 잊지 마십시오. 세계적 의미, 그리고 유의하지 않은 효과가 실제로 유의 한 효과보다 작은 것으로 추정되는지 여부).

해당 분야에서 중요하다고 생각하는 예측 변수없이 분석을 수행하는 것이 타당한 지 여부는 모르겠습니다. 모델에 따라 어떤 종류의 추론을 하려는지에 따라 다릅니다. 좁은 의미에서 회귀 모형은 여전히 ​​잘 정의되어 있지만 ( "이 반응에 대한 이러한 예측 변수의 한계 효과는 무엇입니까?") 해당 분야의 누군가는 분석이 의미가 없다고 말할 수 있습니다. 예측 변수가 잘 알려진 예측 변수 (무엇이든)와 상관 관계가 없거나 잘 알려진 예측 변수가 데이터에 대해 일정하거나 거의 일정하다는 것을 알고 있다면 약간 도움이 될 것입니다. 적어도 다음과 같이 말할 수 있습니다. 잘 알려진 예측 변수 이외의 다른 것이 반응에 영향을 미칩니다.


의견에 감사드립니다.하지만 신뢰 구간을 확인하는 요점이 무엇인지 이해하지 못합니까?
상승

벤이 프랭크에게 대답 한 이후로 벤에게 대답하고 다른 것을 염두에두고 있으면 바로 고칠 수 있습니다. Ben은 전체 모델을 사용하여 jsut을 제안하고 있습니다. 그런 다음 적어도 5의 집합에서 중요한 변수를 배제하지 않았다는 것을 알고 있습니다. 과적 합 문제는 예측에 영향을 줄 수 있지만 적어도 모수에 대한 신뢰 구간이 있으며 예측에 대한 신뢰 구간을 얻을 수 있습니다. 난 당신이 공선 문제가과 매개 변수에 대한 신뢰 구간은 당신이 매개 변수 값이 0이 될 수 있는지 알려 경우이 괜찮 작동합니다 생각
마이클 R. Chernick

모델에 여전히 중요 변수가 누락 된 경우 예측이 좋지 않을 수 있으며 주어진 데이터를 기반으로 한 예측 정확도 평가가 잘못되었을 수 있습니다. 모델의 잘못된 사양에 대해 걱정하고 항상 잔차를 확인하십시오. Frank Harrell은이 사이트의 활발한 회원입니다. 그래서 나는이 질문이 그의 관심을 끌기를 바랍니다. 그러면 우리는 그에게서 직접들을 수 있습니다.
Michael R. Chernick 2016 년

당신은 항상 중요한 변수를 놓칠 수 있습니다. 그리고 당신은 정말로 알 수 없습니다 ... 나는 변수가 에서 유의한지 아닌지를 묻는 것이 많은 정보를 잃어 가고 있기 때문에 신뢰 구간을 볼 것을 제안했습니다 . 한 가지 시나리오는 모든 모수의 추정 된 효과의 크기가 거의 같지만 불확실성이 다르기 때문에 일부는 중요하고 다른 것은 그렇지 않습니다. 당신은 확실히 하지 않는다 ", 변수 C, D 및 E가없는 변수 A와 B가 중요하다"고이 경우에 결론을합니다. CI가이 정보를 제공합니다. p<0.05
Ben Bolker 2016 년

토론에서 내 데이터 세트에 가장 중요한 독립 변수가 충분하지 않고 관찰이 충분하지 않기 때문에 결론을 얻어야합니다. 1-중요한 변수는 t- 검정을 통과 한 변수가 아닙니다. 중요한 것은 t- 검정을 통과 한 것으로 신뢰 구간은 0을 포함하지 않습니다. 2- 잔차의 정규성을 확인해야합니다. 3- 상관 상관 관계를 확인해야합니다.
상승

2

일반적인 질문에 대한 답은 주요 요인이 (1) 공변량의 수 (2) 추정치 및 잔차의 분산 인 많은 요인에 달려 있다는 것입니다. 작은 표본을 사용하면 0과의 차이를 탐지 할 수있는 검정력이 충분하지 않습니다. 따라서 회귀 모수의 추정 분산을 살펴 보겠습니다. 회귀에 대한 나의 경험으로는 5 개의 변수를 가진 21 개의 관측 값은 변수를 배제하기에 충분한 데이터가 아닙니다. 따라서 변수를 버리고 너무 중요한 변수에 너무 매혹되지는 않습니다. 가장 좋은 대답은 더 많은 데이터가있을 때까지 기다리는 것입니다. 때로는 말하기 쉽지만 말하기가 어렵습니다. 어떤 변수가 선택되는지 확인하기 위해 단계별 회귀, 순방향 및 역방향 회귀를 살펴 보겠습니다. 공변량이 서로 밀접하게 관련되어 있으면 선택된 변수와 매우 다른 변수가 표시 될 수 있습니다. 데이터 선택 변화에 대한 변수 선택의 민감도를 나타내는 모델 선택 절차를 부트 스트랩합니다. 공변량에 대한 상관 행렬을 계산해야합니다. 프랭크 하렐이이 일에 착수했을 것입니다. 그는 변수 선택에 대한 진정한 전문가입니다. 나는 적어도 21 개의 데이터 포인트만을 기반으로 최종 모델을 선택해서는 안된다고 동의한다고 생각합니다.


당신의 제안에 감사드립니다. 상관 관계 매트릭스를 추가했습니다. 이 상관 행렬로 회귀를하는 것이 합리적이라고 생각하십니까? 더 많은 데이터를 수집 할 수 없으며 모델링하거나 예측하고 싶지 않다는 점만 강조하십시오. 독립 변수와 종속 변수 사이의 가능한 관계를 찾고 싶습니다.
상승

상관 행렬은 공선성에 대한 아이디어를 제공합니다. 추정값은 아마도 큰 분산을 가지므로 통계적 중요성이 초점이되지 않아야합니다. Ypu는 공선성에 대한 회귀 진단을 볼 수 있습니다. 도움이 될 것입니다. 그러나 다양한 부분 집합 모델을 살펴보면 적합이 어떻게 변하는 지, 어떤 변수 조합이 효과가 있고 좋지 않은지 알 수 있습니다. 데이터를 부트 스트래핑하면 예측 변수 선택의 안정성에 대한 정보가 표시 될 것입니다.
Michael R. Chernick

1
그러나 데이터 부족을 보완하는 것은 없습니다. 나는 당신이 다른 사람들보다 어깨에 서있는 것처럼 보이는 하나 또는 두 개의 변수가 있는지보고 싶다고 생각합니다. 그러나 당신은 아무것도 찾을 수 없습니다.
Michael R. Chernick

공변량이란 정확히 무엇을 의미합니까? 예측 변수가 있다고합시다x그러면 말하기를 x2별도의 공변량으로 계산? 어때요?x3, x4이러한 예측 변수들 사이에는 약간의 상관 관계가 있기 때문에 추정 된 계수는 1 자유도보다 작은 "가치"일 것입니다. 그리고 회귀 스플라인 또는 다른 국소 회귀는 어떻습니까? 우리는 구성 요소의 구성에 관측의 하위 집합 만 사용된다는 사실을 고려해야합니까? 그리고 커널을 사용하여 예측 변수에 가중치를 적용하면 유효 관측치에 영향을 미칩니 까?
혼란
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.