회귀 모형에서 항을 언제 제거해야합니까?


20

다음과 같은 경우에 누군가가 조언 할 수 있습니까?

나는 4 개의 예측 변수가있는 일반적인 선형 모델을 다루고 있습니다. 가장 중요한 용어를 삭제할지 두 가지 생각을합니다. 그것의 - 값은 0.05 이상 조금이다. 이 항을 따라이 항을 떨어 뜨리는 것에 찬성하여 주장했습니다.이 항의 추정치에이 변수에 대한 표본 데이터의 사 분위수 범위를 곱하면이 항이 전체 모형에 미치는 임상 적 영향에 의미가 있습니다. . 이 수치는 임상 설정에서 변수를 측정 할 때 변수가 취할 수있는 일별 범위의 값과 대략적으로 매우 낮기 때문에 임상 적으로 유의하지 않은 것으로 간주되므로 더 그렇습니다. 떨어지면 조정 된 가 약간 줄어 듭니다 .R2


1
왜 더 많은 parsimonius 모델을 찾고 있습니까?
Michael Bishop

3
parsimony 자체가 좋은 것은 아닌가? 임상 적 의미에서 설명력을 거의 또는 전혀 추가하지 않는 변수가있는 모델 인이 변수가 통계적인 의미에서 중요하더라도 그 변수가없는 작은 모델보다 더 나쁩니다.
P Sellaz

: 나는 대답을 쓰기로했다 stats.stackexchange.com/questions/17624/...을 . 그러나 간단히 말해서, 아니요, 나는 parsimony가 그 자체로는 좋은 것이라고 생각하지 않습니다. 때로는 특정한 이유로 유용합니다.
Michael Bishop

1
마이클에 동의합니다. "중요한"기회가 주어진 경우 명백한 설명 능력이없는 변수를 포함하는 것이 가장 좋습니다. 당신은 이미 그 자유도를 보냈습니다.
Frank Harrell

유의미한 회귀 분석이 아닌 예측 변수는 다른 유의미한 회귀 분석에 영향을 주어 상관 회귀 분석의 경우 설명 된 분산에 0이 아닌 양을 기여할 수 있습니다. 특히 네 개의 예측 변수 만 있으면 회귀 분석기가 서로 관련이있는 경우 중요하지 않은 모형을 모형에 유지하는 것을 선호합니다.
Torvon

답변:


18

나는 parsimony에 대한 소망을 이해하지 못했습니다. 파시 모니를 찾는 것은 통계적 추론의 모든 측면 (회귀 계수, 표준 오차, 신뢰 구간, P- 값의 바이어스)을 파괴합니다. 변수를 유지해야하는 좋은 이유는 신뢰 구간 및 기타 수량의 정확성을 유지하기 때문입니다. 이런 식으로 생각하십시오 : 일반적인 다중 회귀 분석에서 잔차 분산에 대한 두 개의 편향 추정기가 개발되었습니다 : (1) 사전 지정된 (큰) 모델의 추정치 및 (2) 일반화 된 정도를 대체하는 축소 된 모델의 추정치 명백한 (감소 된) 회귀 자유도에 대한 자유도 (GDF). GDF는 최종 "유의 한"매개 변수의 수보다 후보 매개 변수의 수에 훨씬 더 가깝습니다.

그것을 생각하는 또 다른 방법이 있습니다. 4 개의 df F- 검정을 받고 5 개의 처리를 비교하기 위해 분산 분석을 수행했다고 가정합니다. 그런 다음 어떤 이유로 t- 검정을 사용한 처리 간의 쌍별 차이를보고 일부 처리를 결합 또는 제거하기로 결정했습니다 (이는 4 개의 더미 변수에서 P, AIC, BIC, Cp를 사용하여 단계별 선택을 수행하는 것과 같습니다). 1, 2 또는 3df의 결과 F- 검정은 유형 I 오류가 부풀려집니다. 4df의 원본 F- 검정에는 완벽한 다중 조정이 포함되었습니다.


3
+1 Parsimony는 매우 구체적인 상황에서만 의미가있는 것입니다. 두 가지를 모두하기에 충분한 정밀도를 가지고 있다면 바이어스 대 정밀도 게임을 할 이유가 없습니다.
Fomite

2
좋은 답변을 얻으려면 +1하십시오. 그러나 다중 공선 성이 있고 변수를 제거하면 변수가 줄어 듭니까? (원래 질문에서는 그렇지 않지만 종종 다른 데이터에 있습니다). 결과 모델이 모든 종류의 방식에서 종종 우수하지 않습니까 (추정 자의 분산, 계수의 징후가 기본 이론을 반영 할 가능성이 더 낮음)? 여전히 올바른 (원래 모델) 자유도를 사용하는 경우.
Peter Ellis

4
두 변수를 모두 포함하는 것이 좋습니다. 지불하는 유일한 가격은 다른 변수에 대해 조정 된 변수의 효과 중 하나를 추정 할 때 증가 된 표준 오류입니다. 두 공선 변수의 결합 테스트는 서로 경쟁하기보다는 힘을 결합하므로 매우 강력합니다. 또한 변수를 삭제하려는 경우 데이터에서 삭제할 변수를 알려줄 수 없습니다.
Frank Harrell

17

변수 선택에 대한이 답변은 모두 변수 관측 비용이 0이라고 가정합니다.

그리고 그것은 사실이 아닙니다.

주어진 모델에 대한 변수 선택 문제는 선택을 포함하거나 포함하지 않을 수 있지만, 향후 행동에 미치는 영향은 선택을 포함합니다.

어떤 대학 라인 맨이 NFL에서 최선을 다할 것인지 예측하는 문제를 고려하십시오. 당신은 스카우트입니다. NFL에서 현재 라인 맨의 자질이 그들의 성공을 가장 예측하는 것을 고려해야합니다. 500 개의 수량을 측정하고 향후 필요한 수량을 선택하는 작업을 시작합니다.

어떻게해야합니까? 500을 모두 유지해야합니까? 일부 (천문학적 표시, 요일)를 제거해야합니까?

이것은 중요한 질문이며 학문이 아닙니다. 데이터를 관찰하는 데에는 비용이 들며, 비용 효율성의 프레임 워크는 가치가 낮기 때문에 미래에 일부 변수가 관찰되지 않아야 함을 시사합니다.


4
+1 : 중요하고 흥미로운 점. 또한 모델의 목적을 나타내지 않기 때문에 질문이 불완전하다는 것을 나타냅니다. (설명 이론을 세우려고 노력하는 과학적 모델에는 비용이 덜 관련되어 있지만 반복적 인 사용을위한 예측 모델에 앞장서 게 될 것이다.)
whuber

6

변수를 유지해야하는 다른 두 가지 이유가 있습니다. 1) OTHER 변수의 매개 변수에 영향을줍니다. 2) 그것이 작다는 사실은 임상 적으로 그 자체로 흥미 롭습니다.

약 1을 보려면 모델의 변수가 있거나없는 모델에서 각 사람의 예측 값을 볼 수 있습니다. 이 두 세트의 값으로 산점도를 만드는 것이 좋습니다. 큰 차이가 없다면, 이것이이 이유에 대한 논쟁입니다

2의 경우 가능한 변수 목록에이 변수가있는 이유를 생각해보십시오. 이론에 근거하고 있습니까? 다른 연구에서 큰 효과 크기를 찾았습니까?


말할 공선 성이 거의 없으므로이 변수를 제거하면 다른 변수와 거의 차이가 없습니다. 그것이 작 으면 임상 적으로 흥미 롭다는 흥미로운 점입니다. 데이터는이 단계에서 적어도 하나의 변수가 다른 변수보다 더 중요하다고 기대할 이유가없는 탐색 적 조사에서 나온 것입니다. 그러나이 변수에 하루 종일 변동이 있기 때문에 그 영향으로 인해이 변동과 크기가 비슷하면 임상 적으로 중요하지 않은 것으로 보입니다.
P Sellaz 2016 년

그렇다면 제거하기에 좋은 후보 인 것 같습니다.
Peter Flom-Monica Monica 복원

@P Sellaz-만약 "자료가 탐색 적 조사에서 나온 것"이라면, 참가자들이 스스로를 선택한 것입니까? @Frank Harrell의 의견에 주목할만한 것이 있지만, 표본이 자체 선택되면 p- 값의 정확한 정확도, 신뢰 구간 등에 대한 우려가 약해집니다.
rolando2

나는 당신이 그것들을 사용하지 않으면 단지 무례하다고 생각합니다.
Frank Harrell

@FrankHarrel-명확히하십시오 : "그들"=?
rolando2

6

요즘 가장 일반적인 조언은 두 모델의 AIC를 얻고 더 낮은 AIC를 가진 것입니다. 따라서 전체 모형의 AIC가 -20이고 가장 약한 예측 변수가없는 모형의 AIC가 -20 인 경우 전체 모형을 유지합니다. 어떤 사람들은 차이가 <3이면 더 단순하게 유지한다고 주장 할 수 있습니다. AIC가 서로 3 개 안에있을 때 BIC를 사용하여 "타이"를 끊을 수있는 조언을 선호합니다.

R을 사용하는 경우 AIC를 얻는 명령은 ... AIC입니다.

90 년대 초부터 모델링에 관한 교과서가 있는데, 중요하지 않은 모든 예측 변수를 제거 할 것을 제안합니다. 그러나 이는 실제로 예측 변수가 모형에서 더하거나 빼는 복잡성과 무관하게 떨어진다는 것을 의미합니다. 또한 다른 것들이 설명 된 것에 비추어 기울기의 크기보다는 설명 된 변동성에 대한 중요성이있는 분산 분석에만 해당됩니다. AIC 사용에 대한보다 현대적인 조언은 이러한 요소를 고려합니다. 중요하지 않은 예측 변수가 중요하지 않더라도 포함되어야하는 모든 종류의 이유가 있습니다. 예를 들어, 다른 예측 변수와의 상관 관계 문제가있을 수 있으며 상대적 예측 변수가 될 수 있습니다. 가장 간단한 조언을 원한다면 AIC로 가서 BIC를 사용하여 동점을 끊고 평등의 창으로 3의 차이를 사용하십시오.


R 표현이 작을수록 좋습니다.
복원 모니카

답장을 보내 주셔서 감사합니다. 두 모델의 AIC 차이가 2에 불과하다는 사실을 발견했습니다.
P Sellaz

더 작은 모델은 약간 더 큰 AIC와 BIC AIC를가집니다 : 큰 작은 AIC = -2 BIC : 큰 작은 BIC- 7.8
P Sellaz

아론 .. 죄송합니다. 낮고 고정되어 있습니다.
John

1
무언가를 정리하기 위해이 추가 용어는 또 다른 공변량이며 공선 성이 거의 없습니다.
P Sellaz

4

이 모델을 무엇에 사용하고 있습니까? parsimony가 중요한 목표입니까?

일부 상황에서는 더 많은 교묘 한 모델이 선호되지만, 그 자체로는 좋은 것이 아닙니다. Parsimonious 모델은보다 쉽게 ​​이해하고 전달할 수 있으며, Parsimony는 과적 합을 방지하는 데 도움이 될 수 있지만 종종 이러한 문제는 주요 관심사가 아니거나 다른 방식으로 해결할 수 있습니다.

회귀 방정식의 추가 항을 포함하여 반대 방향에서 접근하면 추가 항 자체가 관심이없고 모형 적합도를 많이 향상시키지 않는 상황에서도 몇 가지 이점이 있습니다. 제어 할 중요한 변수이지만 다른 변수도 있습니다. 물론 변수를 배제해야하는 또 다른 중요한 이유가 있습니다. 예를 들어 변수가 결과로 인해 발생할 수 있습니다.


3

말로 표현하면 예측 값이 낮기 때문에 마지막 예측 변수를 삭제하려는 경향이 있습니다. 예측 변수에 대한 실질적인 변화가 반응 변수에 대한 실질적인 변화를 의미하지는 않습니다. 이 경우 예측 변수를 포함 / 삭제하는이 기준이 마음에 듭니다. AIC 나 BIC보다 실제 현실에 더 기반을두고 있으며이 연구를 위해 청중에게 더 설명 할 수 있습니다.


그렇습니다. 정확히 제가 의미 한 바입니다.
P Sellaz
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.