단계적 회귀를 사용하여 발생하는 짖는 짐승


20

회귀 모형에서 단계적 / 앞으로 / 뒤로 선택의 문제점을 잘 알고 있습니다. 방법을 비난하고 더 나은 대안을 제시하는 연구자들이 많이 있습니다. 통계 분석에 존재하는 이야기가 있는지 궁금합니다.

  • 단계적 회귀를 사용했습니다.
  • 최종 모델을 기반으로 중요한 결론을 내 렸습니다.
  • 결론이 잘못되어 개인, 연구 또는 조직에 부정적인 결과를 초래 함

단계적인 방법이 나쁘면 이것을 사용하는 "실제 세계"에 결과가 있어야합니다.


2
그러한 이야기를 찾지 못하면 단계적 회귀가 대부분 기본 연구 (또는 인식)에 사용되기 때문일 수 있습니다. 기본 연구원들은 데이터 나 다른 것을 위조하지 않는 한 일반적으로 잘못되는 데 어려움을 겪지 않습니다.
Kodiologist

3
업계와 강의실에서 많이 사용됩니다. 연구에서 저자는 아마도 그것을 사용했다고 밝히지 않았을 것입니다. 업계에서 주요한 두 가지 이유는 a) 연구를 수행하는 사람들이 연구에 대한 교육을받지 않은 사람, 예를 들어 학사 학위를 받았거나 b) 수십 년 전에 졸업 한 것입니다.
Aksakal

@Aksakal 처음부터 배우는 것이 아니라 어쨌든 양 피부를 얻는 것이 시간이 아닌 문제입니다. Exemplis가 무료 입니다. 나는 1971 년 경에 한 가지 통계 과정을 밟았으며 2006 년경에 처음으로 통계를 사용했습니다.
Carl

답변:


1

하나 이상의 질문이 있습니다. 가장 좁은 것은 단계적 회귀가 단계적으로 수행 되었기 때문에 단계적 회귀가 해를 끼친시기의 예를 요구하는 것입니다. 이것은 물론 사실이지만, 단계적 회귀에 사용 된 데이터가 게시되고 누군가가 데이터를 다시 분석하고 게시 된 기본 저자의 철회와 함께 동료 검토 된 수정을 게시 한 경우에만 명확하게 설정할 수 있습니다. 다른 상황에서 고발을하려면 법적 조치를 취해야하며, 다른 데이터 세트를 사용하는 경우 실수가 발생한 것으로 의심 할 수 있지만 "통계는 아무 것도 증명하지 못합니다"라는 실수를 저지른 것으로 판단 할 수 없습니다 만든; "합리적인 의심을 넘어".

사실, 회귀 방정식의 단계적 제거 또는 단계적 생성 여부에 따라 다른 결과를 얻는 경우가 많으므로 사용 방법을 권장하기에 접근 방법이 충분히 정확하지 않다는 것을 알 수 있습니다. 분명히, 다른 일이 일어나고 있으며, 그것은 우리에게 더 넓은 질문을하게하는데, 위에서도 질문했지만, "단계적 회귀 문제는 무엇입니까? 어쨌든?"라고 대답하는 더 유용한 질문입니다. 이에 대한 답변으로 저에게 소송을 제기하지 않을 것입니다.

단계별 MLR에 대해 올바르게 수행한다는 것은 1) 물리적으로 올바른 단위 (아래 참조) 2) 최상의 상관 관계 및 오류 분포 유형 (동일도 및 물리적)을위한 적절한 변수 변환 , 3) 변수 조합의 모든 순열을 사용하는 것을 의미합니다. 단계적으로, 모두 , 그리고 4) 철저한 회귀 진단을 수행하는 경우 오해의 소지가있는 높은 VIF (공선 성) 변수 조합이 누락되는 것을 피하면 보상이 더 나은 회귀입니다.

위의 # 1에서 약속 한대로 다음으로 실제 시스템에 적합한 단위를 탐색합니다. 회귀의 결과는 변수의 올바른 처리에 달려 있기 때문에 일반적인 물리 단위 차원을 염두에두고 방정식의 균형을 적절하게 조정해야합니다. 또한 생물학적 응용의 경우, 동위 원소 스케일링 의 차원에 대한 인식과 설명 이 필요합니다.

단위를 생물학으로 균형을 맞추는 방법에 대한 생물학적 시스템 의 물리적 조사 에 대한 이 예를 읽으십시오 . 이 논문에서, 위의 1)에서 4)까지의 단계를 따르고 와 같이 광범위한 회귀 분석을 사용하여 최상의 공식을 찾았습니다 . 여기서 은 사구체 입니다. 는 중량이 4 차원 프랙탈 기하학적 구성 이고 V는 부피가 유클리드 (euclidean), 또는 3 차원 변수라고하는, 프랙탈 기하학적 구조를 사용하여 이해되는 이화 작용의 마커이다 . 그런 다음 G F R W 1 = 1GFR=kW1/4V2/3GFRW GFR1=1443+23. 따라서 공식은 신진 대사와 차원이 일치합니다. 이해하기 쉬운 말이 아닙니다. 1) 이 신진 대사의 지표 라는 것은 일반적으로 잘 알려져 있지 않습니다 . 2) 프랙탈 기하학은 드물게 만 가르쳐지며 수학 공식을 가진 사람도 제시된 공식의 물리적 해석을 이해하기가 어렵습니다.GFR


2
이것은 단계별 회귀가 아니라 일반적으로 회귀 문제를 설명하는 것 같습니다.
우발적 통계 학자

2
그렇습니다. 이들은 일반적으로 고려해야 할 회귀 측면입니다. 그러나 질문이 어디에서 왔는지 올바르게 이해한다면, LASSO와 같은 것을 사용하는 것에 찬성하여 단계별 회귀가 종종 비난을받으며 동기 부여됩니다.
우발적 인 통계 학자

4
이 문제에 대한 당신의 솔직함과 선의의 고맙습니다, 칼. 나는 투표에 문제가 있다는 것을 부정하지 않을 것이다. 게시물에서 투표를 변경하는 방법을 알 수있는 유일한 방법은 답변을 변경하는 것입니다. 답변을 기술적으로 향상 시키거나 확장하거나 아이디어를 다르게 전달하는 것입니다. (또는 심지어 모든 응답!). 때때로, 다운 보터를 이해 하기위한 정중 한 노력 은 모든 사람이 게시물 개선에 대한 그러한 노력을 높이 평가하고 높이는 데 도움이되는 정보를 이끌어 낼 것입니다.
whuber

3
@Carl 정기적 인 다운 보트를 받고 있다면 가장 먼저해야 할 일은 게시물을 개선 할 수있는 방법을 고려하는 것입니다. 내가 의견을 말하는 사람이 동의하지 않더라도 나 자신을 위해 말하면, 그들은 종종 더 나은 답변을 이끌어내는 문제를 제기한다는 것이 밝혀졌습니다. 나는 정기적으로 답변을 내려 자신을 내리게 할 문제를 정기적으로 발견한다고 말할 것입니다. 그렇게 할 시간이 있으면 의견을 남기려고합니다.
Glen_b-복지 주 모니카

3
단계적 회귀 문제의 많은 문제 (예 : 0에서 벗어난 추정치 문제, 0으로 편향된 표준 오류 문제, 실제보다 훨씬 낮은 공칭 유형 I 오류율 및 기타 모든 문제가 여전히 모든 부분 집합에 존재 함) -실제로 거의 모든 형태의 최적화에 문제가 있습니다 (Frank Harrell의 회귀 모델링 전략 4 장은 유용한 참고 자료입니다). 축소 / 정규화는 이러한 문제 중 일부를 완화 할 수 있으며 (특히, 추정치를 외부로 편향시키는 선택 경향), 표본 외 평가는 많은 문제에 중요한 도구입니다.
Glen_b-복지 주 모니카
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.