선형 회귀 및 데이터 스케일링


10

다음 그림은 선형 회귀로 얻은 계수를 보여줍니다 ( mpg목표 변수로, 다른 모든 변수는 예측 변수로).

데이터 를 스케일링하거나 스케일링하지 않은 mtcars 데이터 세트 ( herehere )의 경우 :

여기에 이미지 설명을 입력하십시오

이 결과를 어떻게 해석합니까? 변수 hpdisp데이터의 크기가 조절 된 경우에만 중요합니다. 인가 amqsec동등하게 중요이거나 am보다 더 중요 qsec? 어떤 변수가 중요한 결정 요인이라고 말해야 mpg합니까?

통찰력 주셔서 감사합니다.


마음에 들지 않으면 몇 가지 다른 모델을 실행하고 실제로 어떤 기능이 중요한지 교차 점검 할 수 있습니까? 데이터의 스케일링은 우리가 다른 열에 대해 매우 다른 스케일을 가질 때 수행되며 플롯 (좋은 플롯)과 크게 다르면 스케일링이 모델이 스케일링없이 데이터에 대한 실제 시야를 찾는 데 도움이되었다는 것이 분명합니다. 모델에는 선택의 여지가 없지만, 예측하고있는 것이 약간 높은 숫자라면 큰 규모의 변수에 더 많은 가중치를 부여하는 것입니다.
Aditya

줄거리에 대한 귀하의 의견에 감사드립니다. "몇 가지 다른 모델을 실행"한다는 것이 무슨 의미인지 잘 모르겠습니다. 신경망과 같은 다른 기술을 사용하여 선형 회귀 분석 결과와 비교할 수있는 기능이 실제로 중요한 기능을 찾을 수 있습니까?
rnso

불명확 한 점은 미안하지만, 트리 기반과 같은 다른 ml 알고리즘을 시도하고 모든 기능을 비교하는 것입니다 ..
Aditya

답변:


4

데이터가 스케일링되지 않은 경우 hp 및 disp 계수가 낮고 데이터가 스케일링 된 경우 높은 계수는 이러한 변수가 종속 변수를 설명하는 데 도움이되지만 크기가 크므로 스케일링되지 않은 경우의 계수가 낮아야 함을 의미합니다.

"중요도"의 관점에서, 스케일링 된 경우 계수의 절대 값이 스케일링되지 않은 경우보다 중요도의 좋은 척도라고 말할 수 있습니다. 변수의 크기도 관련이 있기 때문입니다. 아니.

물론 더 중요한 변수는 wt입니다.


4

이 경우 표준 오류없이 의미에 대해 이야기 할 수는 없습니다. 변수와 계수에 따라 확장됩니다. 또한 각 계수는 모형의 다른 변수에 대한 조건부이며 공선 성은 실제로 hp 및 disp의 중요성을 부풀려주는 것으로 보입니다.

변수의 크기를 조정하면 결과의 중요성이 전혀 바뀌지 않아야합니다. 실제로 회귀를 다시 실행하면 (변수를 그대로 사용하고 평균을 빼고 표준 오류로 나눔으로 정규화) 각 계수 추정치 (상수 제외)는 스케일링 전과 정확히 동일한 t-stat를 가지며 전반적인 중요성에 대한 F- 검정은 정확히 동일하게 유지되었습니다.

즉, 모든 변수가 평균이 0이고 분산이 1이되도록 조정 된 경우에도 각 회귀 계수에 대해 하나의 표준 오차 크기가 없으므로 각 변수의 크기를 살펴보면됩니다. 표준화 된 회귀는 여전히 중요성에 대해 오해의 소지가 있습니다.

David Masip이 설명했듯이 계수의 겉보기 크기는 데이터 포인트의 크기와 반비례 관계가 있습니다. 그러나 disp 및 hp의 계수가 크더라도 여전히 0과 크게 다르지 않습니다.

실제로 hp와 disp는 r = .79와 서로 밀접하게 관련되어 있으므로 이러한 계수의 표준 오차는 동일 선상이므로 계수 크기에 비해 특히 높습니다. 이 회귀 분석에서 이상한 카운터 밸런싱을 수행하고 있는데, 하나는 양의 계수를 갖고 다른 하나는 음의 계수를 갖습니다. 과적 합의 경우처럼 보이며 의미가없는 것 같습니다.

mpg의 가장 큰 변화를 설명하는 변수를 확인하는 좋은 방법은 (조정 된) R- 제곱입니다. 문자 그대로 x 변수의 변동으로 설명되는 y의 변동 비율입니다. (조정 된 R- 제곱은 과적 합을 상쇄하기 위해 방정식의 각 추가 x 변수에 대해 약간의 페널티를 포함합니다.)

다른 변수에 비추어 중요한 것이 무엇인지 알 수있는 좋은 방법은 회귀에서 해당 변수를 제거 할 때 조정 된 R 제곱의 변화를 보는 것입니다. 이 변화는 다른 변수를 일정하게 유지 한 후 해당 요인이 설명하는 종속 변수의 분산 비율입니다. (공식적으로, 남은 변수가 F- 검정 과 관련이 있는지 테스트 할 수 있습니다 . 이것이 변수 선택에 대한 단계적 회귀가 작동하는 방식입니다.)

이를 설명하기 위해 각 변수에 대해 단일 선형 회귀 분석을 실행하여 mpg를 예측했습니다. 변수 wt만으로는 mpg의 변화의 75.3 %를 설명하며 단일 변수는 더 이상 설명하지 않습니다. 그러나, 다른 많은 변수들은 wt와 상관 관계가 있으며 동일한 변이 중 일부를 설명합니다. (강력한 표준 오차를 사용하여 표준 오차와 유의도 계산에 약간의 차이가 생길 수 있지만 계수 또는 R 제곱에는 영향을 미치지 않습니다.)

+------+-----------+---------+----------+---------+----------+-------+
|      |   coeff   |   se    | constant |   se    | adj R-sq | R-sq  |
+------+-----------+---------+----------+---------+----------+-------+
| cyl  | -0.852*** | [0.110] |        0 | [0.094] |    0.717 | 0.726 |
| disp | -0.848*** | [0.105] |        0 | [0.095] |    0.709 | 0.718 |
| hp   | -0.776*** | [0.154] |        0 | [0.113] |    0.589 | 0.602 |
| drat |  0.681*** | [0.123] |        0 | [0.132] |    0.446 | 0.464 |
| wt   | -0.868*** | [0.106] |        0 | [0.089] |    0.745 | 0.753 |
| qsec |  0.419**  | [0.136] |        0 | [0.163] |    0.148 | 0.175 |
| vs   |  0.664*** | [0.142] |        0 | [0.134] |    0.422 | 0.441 |
| am   |  0.600*** | [0.158] |        0 | [0.144] |    0.338 | 0.360 |
| gear |  0.480*   | [0.178] |        0 | [0.158] |    0.205 | 0.231 |
| carb | -0.551**  | [0.168] |        0 | [0.150] |    0.280 | 0.304 |
+------+-----------+---------+----------+---------+----------+-------+

모든 변수가 함께 있으면 R- 제곱은 0.869이고 조정 된 R- 제곱은 0.807입니다. 따라서 9 개의 더 많은 변수를 결합하면 wt의 또 다른 11 %를 설명 할 수 있습니다. (다수의 변수는 wt와 동일한 mpg의 일부 변동을 설명했습니다.) 그리고 전체 모형에서, p- 값이 20 % 미만인 유일한 계수는 p, 0.089에서 wt입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.