선형 회귀 분석에서 특이 치를 분석하고 다중 공선 성을 조사하며 이분산성을 테스트합니다.
문제는 이것들을 적용하는 명령이 있습니까? 먼저 특이 치를 먼저 분석 한 다음 다중 공선 성을 조사해야합니까? 아니면 반대로?
이것에 대한 경험 규칙이 있습니까?
선형 회귀 분석에서 특이 치를 분석하고 다중 공선 성을 조사하며 이분산성을 테스트합니다.
문제는 이것들을 적용하는 명령이 있습니까? 먼저 특이 치를 먼저 분석 한 다음 다중 공선 성을 조사해야합니까? 아니면 반대로?
이것에 대한 경험 규칙이 있습니까?
답변:
이 과정은 반복적 이지만 자연스러운 순서가 있습니다.
명백한 수치 오류를 일으키는 조건 에 대해 먼저 걱정해야 합니다 . 다중 공선 성은 그 중 하나입니다. 불안정한 방정식 시스템을 생성하여 잠재적으로 옳지 않은 오답을 얻을 수 있기 때문입니다 (소수 16 자리까지). 여기의 문제는 일반적으로 문제가 해결 될 때까지 진행할 수 없음을 의미합니다. 다중 공선 성은 일반적으로 분산 팽창 인자 및 "모자 행렬"의 유사한 검사를 사용하여 진단됩니다. 이 단계에서의 추가 점검에는 데이터 세트에서 결 측값의 영향을 평가하고 중요한 매개 변수의 식별 가능성을 검증하는 것이 포함될 수 있습니다. (이산 독립 변수의 조합이 누락되면 때때로 문제가 발생할 수 있습니다.)
다음으로 출력이 대부분의 데이터를 반영하는지 또는 작은 서브 세트에 민감한 지 여부에 대해 걱정해야합니다 . 후자의 경우 이후에 수행하는 다른 모든 작업이 오도 될 수 있으므로 피해야합니다. 절차에는 이상치 및 레버리지 검사가 포함됩니다 . (높은 수준의 데이텀은 이상 치가 아니더라도 모든 결과에 과도하게 영향을 줄 수 있습니다.) 회귀 절차에 대한 강력한 대안이 존재하는 경우 적용하기에 좋은시기입니다. 이를 사용하여 외부 값을 감지하십시오.
마지막으로 수치 적으로 안정적이고 계산을 신뢰할 수 있고 전체 데이터 세트를 반영하는 상황을 달성 한 후에는 출력을 올바르게 해석하는 데 필요한 통계적 가정을 검토해야합니다 . 주로 이러한 문제는 잔차 분포 (이 분산도 포함하지만 대칭, 분포 형태, 예측 된 값 또는 기타 변수와의 상관 관계, 자기 상관으로 확장), 적합도 ( 상호 작용 항에 대한 가능한 요구 사항), 종속 변수의 재 발현 여부 및 독립 변수의 재 발현 여부
어떤 단계에서든 무언가를 수정해야하는 경우 처음으로 돌아가는 것이 좋습니다. 필요한만큼 반복하십시오.
상황에 따라 다르다고 생각합니다. 특정 문제가 예상되지 않으면 순서대로 확인할 수 있습니다. 특이 치를 예상하고이를 감지 한 후 제거해야 할 이유가있을 경우 먼저 특이 치를 확인하십시오. 관측치가 제거 된 후 모델의 다른 문제가 변경 될 수 있습니다. 그 후, 다중 공동 성과이 분산 사이의 순서는 중요하지 않습니다. 나는 이상 치가 임의로 제거되어서는 안된다는 Chris에 동의합니다. 관측치가 잘못되었다고 생각할 이유가 있어야합니다.
물론 다중 공선 성 또는 이분산성을 관찰하면 접근 방식을 변경해야 할 수도 있습니다. 다중 공선 성 문제는 공분산 행렬에서 관찰되지만 다중 공선 성을 탐지하기위한 특정 진단 테스트가 있으며 레버리지 지점과 같은 다른 문제 는 Belsley, Kuh 및 Welsch 의 Regression Diagnostics 책 또는 Dennis Cook의 회귀 책 중 하나를 참조하십시오 .