간단한 선형 회귀, p- 값 및 AIC


13

예를 들어 here 전에이 주제가 여러 번 나타났음을 알지만 여전히 회귀 출력을 해석하는 가장 좋은 방법을 확신하지 못합니다 .

x 값 의 열과 y 값 의 열로 구성된 매우 간단한 데이터 세트가 있으며 위치 (loc) 에 따라 두 그룹으로 나뉩니다 . 포인트는 다음과 같습니다

여기에 이미지 설명을 입력하십시오

동료는 우리가 사용했던 각 그룹에 별도의 간단한 선형 회귀 분석을 적용해야한다고 가정했습니다 y ~ x * C(loc). 출력은 아래와 같습니다.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.873
Model:                            OLS   Adj. R-squared:                  0.866
Method:                 Least Squares   F-statistic:                     139.2
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           3.05e-27
Time:                        14:18:50   Log-Likelihood:                -27.981
No. Observations:                  65   AIC:                             63.96
Df Residuals:                      61   BIC:                             72.66
Df Model:                           3                                         
Covariance Type:            nonrobust                                         
=================================================================================
                    coef    std err          t      P>|t|      [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept         3.8000      1.784      2.129      0.037         0.232     7.368
C(loc)[T.N]      -0.4921      1.948     -0.253      0.801        -4.388     3.404
x                -0.6466      0.230     -2.807      0.007        -1.107    -0.186
x:C(loc)[T.N]     0.2719      0.257      1.057      0.295        -0.242     0.786
==============================================================================
Omnibus:                       22.788   Durbin-Watson:                   2.552
Prob(Omnibus):                  0.000   Jarque-Bera (JB):              121.307
Skew:                           0.629   Prob(JB):                     4.56e-27
Kurtosis:                       9.573   Cond. No.                         467.
==============================================================================

여기에 이미지 설명을 입력하십시오

계수에 대한 p- 값을 보면 위치 및 교호 작용 항에 대한 더미 변수는 0과 크게 다르지 않습니다.이 경우 내 회귀 모델은 본질적으로 위 그림의 빨간색 선으로 줄어 듭니다. 나에게 이것은 두 그룹에 별도의 선을 맞추는 것이 실수 일 수 있으며 더 나은 모델은 아래 표시된 것처럼 전체 데이터 세트에 대한 단일 회귀 선 일 수 있음을 제안합니다.

                            OLS Regression Results                            
==============================================================================
Dep. Variable:                      y   R-squared:                       0.593
Model:                            OLS   Adj. R-squared:                  0.587
Method:                 Least Squares   F-statistic:                     91.93
Date:                Mon, 13 Jun 2016   Prob (F-statistic):           6.29e-14
Time:                        14:24:50   Log-Likelihood:                -65.687
No. Observations:                  65   AIC:                             135.4
Df Residuals:                      63   BIC:                             139.7
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
==============================================================================
                 coef    std err          t      P>|t|      [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept      8.9278      0.935      9.550      0.000         7.060    10.796
x             -1.2446      0.130     -9.588      0.000        -1.504    -0.985
==============================================================================
Omnibus:                        0.112   Durbin-Watson:                   1.151
Prob(Omnibus):                  0.945   Jarque-Bera (JB):                0.006
Skew:                           0.018   Prob(JB):                        0.997
Kurtosis:                       2.972   Cond. No.                         81.9
==============================================================================

여기에 이미지 설명을 입력하십시오

이것은 시각적으로 괜찮아 보이고 모든 계수에 대한 p- 값이 중요합니다. 그러나 두 번째 모델의 AIC 는 첫 번째 모델 보다 훨씬 높습니다.

그 모델 선택에 대한 자세한보다 실현 단지 P-값이나 단지 AIC는하지만, 나는 확실히이의 무엇을 할 아니에요. 이 결과를 해석하고 적절한 모델을 선택하는 것과 관련하여 실질적인 조언을 제공 할 수 있습니까 ?

내 눈에 단일 회귀선은 괜찮아 보이지만 (특히 그중 어느 것도 좋지 않다는 것을 알고는 있지만) 별도의 모델을 맞추는 데 약간의 정당성이있는 것처럼 보입니다 (?).

감사!

댓글에 대한 응답으로 수정

@Cagdas Ozgenc

2 줄 모델은 파이썬의 통계 모델과 다음 코드를 사용하여 적합했습니다.

reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()

내가 이해하는 것처럼 이것은 본질적으로 다음과 같은 모델의 약식입니다.

y=β0+β1x+β2l+β3xl

여기서 은 위치를 나타내는 이진 "더미"변수입니다. 실제로 이것은 본질적으로 단지 두 개의 선형 모델일까요? 경우 , 하고, 모델에 감소l o c = D l = 0lloc=Dl=0

y=β0+β1x

위 그림의 빨간색 선입니다. 일 때 이고 모델은l = 1loc=Nl=1

y=(β0+β2)+(β1+β3)x

위 그림의 파란색 선입니다. 이 모델의 AIC는 통계 모델 요약에 자동으로보고됩니다. 내가 사용한 단선 모델의 경우

reg = ols(formula='y ~ x', data=df).fit()

괜찮아요?

user

단선 모델이 더 낫다고 생각하지는 않지만 대한 회귀선이 얼마나 제대로 구속되지 않았는지 걱정합니다 . 두 위치 (D와 N)는 공간에서 매우 멀리 떨어져 있으며 중간에 어딘가에서 추가 데이터를 수집하여 이미 가지고있는 빨간색과 파란색 군집 사이에 대략적으로 그려진 점에 대해 전혀 놀라지 않을 것입니다. 아직이 데이터를 백업 할 데이터가 없지만 단일 라인 모델이 너무 끔찍하다고 생각하지 않으며 가능한 한 간단하게 유지하고 싶습니다.loc=D

편집 2

완전성을 위해 @whuber가 제안한 잔차 그림이 있습니다. 2- 라인 모델은 실제로이 관점에서 훨씬 나아 보입니다.

2 줄 모델

여기에 이미지 설명을 입력하십시오

단선 모델

여기에 이미지 설명을 입력하십시오

모두 감사합니다!


3
왜 단일 회귀선이 더 나아 보이는지 설명해 주시겠습니까? 나에게는 선형으로 분리 가능한 두 개의 군집이 있으며 범주 N에는 거의 차이가 없습니다. 신뢰 구간이 겹치기 때문에 첫 번째가 더 나쁘다고 생각하십니까?
Marsenau 2016 년

6
(1) 절편 추정값은 데이터 의 값 범위와 관련이 없다고 거의 알려주지 않습니다 . 그들의 명백한 중요성 부족은 당신을 오도합니다. (2) 진행 상황을 진정으로 보려면 잔차를 두 피팅에 각각 플로팅하십시오. 두 번째 (한 줄) 적합도가 얼마나 나쁜지는 즉시 알 수 있습니다. x
whuber

3
@STudentT 모델은 서로 중첩되어 있습니다. AIC는 그것들을 비교하기에 완벽합니다. BTW, 통계는 두 경우 모두에 게시됩니다. R2
whuber

3
@StudentT 두 모델은 모든 데이터 포인트를 사용합니다. 단순 모형은 더 적은 독립 변수를 사용합니다. 하나의 데이터 포인트는 전체 튜플입니다.
Cagdas Ozgenc

5
모형 선택에 대한 가설 검정 기반 접근 방식을 사용하려는 경우 두 예측 변수가 각각 중요하지 않기 때문에 모형에서 두 예측 변수를 모두 제거 하면 거의 가져올 수 없다고 가정해서는 안됩니다 . 공동 유의성에 대한 F- 검정이 적합합니다.
Scortchi-Monica Monica 복원

답변:


1

교호 작용없이 두 예측 변수를 모두 사용해 보셨습니까? 따라서 다음과 같습니다.

y ~ x + Loc

위치가 중요하기 때문에 첫 번째 모델에서 AIC가 더 나을 수 있습니다. 그러나 교호 작용은 중요하지 않으므로 P- 값이 중요하지 않습니다. 그런 다음 Loc를 제어 한 후 x의 영향으로 해석합니다.


1

p- 값과 AIC 값만으로도 모델의 실행 가능성을 결정할 수 있다는 개념에 이의를 제기했다고 생각합니다. 또한 여기에서 공유하기로 선택하게되어 기쁩니다.

시연 한 바와 같이 다양한 용어와 상호 작용을 고려할 때 다양한 상충 관계가 있습니다. 명심해야 할 질문 은 모델 의 목적 입니다. 당신의 효과를 결정하기 위해 의뢰하는 경우 위치 에를 y, 당신은 상관없이 p- 값이 얼마나 약한 모델의 위치를 유지해야합니다. 이 경우 널 결과는 중요한 정보입니다.

언뜻보기에 D위치가 더 크다는 것을 알 수 y있습니다. 그러나 위치 와 값 x이 모두 좁은 범위 만 있습니다. 이 작은 구간에 대한 모형 계수를 재생성하면 표준 오차가 훨씬 커질 수 있습니다.DN

그러나 예측 능력 이상의 위치에 대해서는 신경 쓰지 않을 것 y입니다. 방금 가지고 있던 데이터 였고 줄거리에 색을 입히면 흥미로운 패턴이 나타났습니다. 이 경우 선호하는 계수 의 해석 가능성 보다 모형 의 예측 가능성 에 더 관심이있을 수 있습니다 . 이 경우 AIC 값이 더 유용하다고 생각합니다. 아직 AIC에 익숙하지 않습니다. 그러나 고정 위치를 변경할 수있는 범위가 좁기 때문에 혼합 용어에 불이익을 줄 수 있습니다 . 아직 설명하지 않은 위치 설명은 거의 없습니다.xx


0

두 그룹을 개별적으로보고해야하거나 다단계 모델링을 고려해야합니다. 단순히 집단을 결합하는 것은 관측의 독립성 인 회귀의 기본 가정 중 하나 (및 대부분의 다른 추론 적 통계 기법)에 위배됩니다. 또는 달리 말하면, 그룹화 변수 (위치)는 분석에서 고려되지 않는 한 숨겨진 변수입니다.

극단적 인 경우 그룹화 변수를 무시하면 Simpson의 역설로 이어질 수 있습니다. 이 역설에서 양의 상관 관계가있는 두 그룹을 가질 수 있지만, 이들 그룹을 결합하면 (거짓, 부정) 음의 상관 관계가 있습니다. (또는 그 반대의 경우도 마찬가지입니다.) http://www.theregister.co.uk/2014/05/28/theorums_3_simpson/을 참조 하십시오 .

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.