예를 들어 here 전에이 주제가 여러 번 나타났음을 알지만 여전히 회귀 출력을 해석하는 가장 좋은 방법을 확신하지 못합니다 .
x 값 의 열과 y 값 의 열로 구성된 매우 간단한 데이터 세트가 있으며 위치 (loc) 에 따라 두 그룹으로 나뉩니다 . 포인트는 다음과 같습니다
동료는 우리가 사용했던 각 그룹에 별도의 간단한 선형 회귀 분석을 적용해야한다고 가정했습니다 y ~ x * C(loc)
. 출력은 아래와 같습니다.
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.873
Model: OLS Adj. R-squared: 0.866
Method: Least Squares F-statistic: 139.2
Date: Mon, 13 Jun 2016 Prob (F-statistic): 3.05e-27
Time: 14:18:50 Log-Likelihood: -27.981
No. Observations: 65 AIC: 63.96
Df Residuals: 61 BIC: 72.66
Df Model: 3
Covariance Type: nonrobust
=================================================================================
coef std err t P>|t| [95.0% Conf. Int.]
---------------------------------------------------------------------------------
Intercept 3.8000 1.784 2.129 0.037 0.232 7.368
C(loc)[T.N] -0.4921 1.948 -0.253 0.801 -4.388 3.404
x -0.6466 0.230 -2.807 0.007 -1.107 -0.186
x:C(loc)[T.N] 0.2719 0.257 1.057 0.295 -0.242 0.786
==============================================================================
Omnibus: 22.788 Durbin-Watson: 2.552
Prob(Omnibus): 0.000 Jarque-Bera (JB): 121.307
Skew: 0.629 Prob(JB): 4.56e-27
Kurtosis: 9.573 Cond. No. 467.
==============================================================================
계수에 대한 p- 값을 보면 위치 및 교호 작용 항에 대한 더미 변수는 0과 크게 다르지 않습니다.이 경우 내 회귀 모델은 본질적으로 위 그림의 빨간색 선으로 줄어 듭니다. 나에게 이것은 두 그룹에 별도의 선을 맞추는 것이 실수 일 수 있으며 더 나은 모델은 아래 표시된 것처럼 전체 데이터 세트에 대한 단일 회귀 선 일 수 있음을 제안합니다.
OLS Regression Results
==============================================================================
Dep. Variable: y R-squared: 0.593
Model: OLS Adj. R-squared: 0.587
Method: Least Squares F-statistic: 91.93
Date: Mon, 13 Jun 2016 Prob (F-statistic): 6.29e-14
Time: 14:24:50 Log-Likelihood: -65.687
No. Observations: 65 AIC: 135.4
Df Residuals: 63 BIC: 139.7
Df Model: 1
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [95.0% Conf. Int.]
------------------------------------------------------------------------------
Intercept 8.9278 0.935 9.550 0.000 7.060 10.796
x -1.2446 0.130 -9.588 0.000 -1.504 -0.985
==============================================================================
Omnibus: 0.112 Durbin-Watson: 1.151
Prob(Omnibus): 0.945 Jarque-Bera (JB): 0.006
Skew: 0.018 Prob(JB): 0.997
Kurtosis: 2.972 Cond. No. 81.9
==============================================================================
이것은 시각적으로 괜찮아 보이고 모든 계수에 대한 p- 값이 중요합니다. 그러나 두 번째 모델의 AIC 는 첫 번째 모델 보다 훨씬 높습니다.
그 모델 선택에 대한 자세한보다 실현 단지 P-값이나 단지 AIC는하지만, 나는 확실히이의 무엇을 할 아니에요. 이 결과를 해석하고 적절한 모델을 선택하는 것과 관련하여 실질적인 조언을 제공 할 수 있습니까 ?
내 눈에 단일 회귀선은 괜찮아 보이지만 (특히 그중 어느 것도 좋지 않다는 것을 알고는 있지만) 별도의 모델을 맞추는 데 약간의 정당성이있는 것처럼 보입니다 (?).
감사!
댓글에 대한 응답으로 수정
@Cagdas Ozgenc
2 줄 모델은 파이썬의 통계 모델과 다음 코드를 사용하여 적합했습니다.
reg = sm.ols(formula='y ~ x * C(loc)', data=df).fit()
내가 이해하는 것처럼 이것은 본질적으로 다음과 같은 모델의 약식입니다.
여기서 은 위치를 나타내는 이진 "더미"변수입니다. 실제로 이것은 본질적으로 단지 두 개의 선형 모델일까요? 경우 , 하고, 모델에 감소l o c = D l = 0
위 그림의 빨간색 선입니다. 일 때 이고 모델은l = 1
위 그림의 파란색 선입니다. 이 모델의 AIC는 통계 모델 요약에 자동으로보고됩니다. 내가 사용한 단선 모델의 경우
reg = ols(formula='y ~ x', data=df).fit()
괜찮아요?
user
단선 모델이 더 낫다고 생각하지는 않지만 대한 회귀선이 얼마나 제대로 구속되지 않았는지 걱정합니다 . 두 위치 (D와 N)는 공간에서 매우 멀리 떨어져 있으며 중간에 어딘가에서 추가 데이터를 수집하여 이미 가지고있는 빨간색과 파란색 군집 사이에 대략적으로 그려진 점에 대해 전혀 놀라지 않을 것입니다. 아직이 데이터를 백업 할 데이터가 없지만 단일 라인 모델이 너무 끔찍하다고 생각하지 않으며 가능한 한 간단하게 유지하고 싶습니다.
편집 2
완전성을 위해 @whuber가 제안한 잔차 그림이 있습니다. 2- 라인 모델은 실제로이 관점에서 훨씬 나아 보입니다.
2 줄 모델
단선 모델
모두 감사합니다!