필요한 것은 회귀 방법론에 대한 견고한 검토입니다. 그러나 이러한 질문은 기본 통계에 대한 훌륭한 개요조차도 아마 당신에게 도움이 될 정도로 충분히 기본적입니다 (잘못하지 마십시오). Howell은 밀도 높은 수학을 요구하지 않고 광범위한 개념 기반을 제공 하는 매우 인기있는 교과서 를 작성했습니다 . 당신의 시간을 읽을 가치가 있습니다. 여기서 모든 자료를 다룰 수는 없습니다. 그러나 나는 당신이 당신의 특정 질문에 시작하도록 노력할 수 있습니다.
첫째, 요일은 코딩 체계 를 통해 포함됩니다.. 가장 인기있는 것은 '참조 카테고리'코딩 (일반적으로 더미 코딩)입니다. 데이터는 행렬로 표현되고 사례는 행으로, 변수는 열로 표현됩니다. 이 체계에서 7 개의 범주 형 변수 (예 : 요일)가있는 경우 6 개의 새 열을 추가합니다. 하루를 참조 범주 (일반적으로 기본값으로 생각되는 범주)로 선택합니다. 종종 이것은 이론, 맥락 또는 연구 질문에 의해 알려집니다. 나는 요일에 가장 적합한 것을 알지 못하지만 실제로 중요하지는 않습니다. 오래된 것을 선택할 수 있습니다. 참조 범주가 있으면 다른 변수를 새 6 개의 변수에 할당 한 다음 해당 변수가 각 사례에 대해 획득하는지 여부 만 표시하면됩니다. 예를 들어 일요일을 참조 카테고리로 선택하고 새 열 / 변수는 월요일-토요일입니다. 월요일에 일어난 모든 관찰은0 1 01월요일 열에 , 다른 곳에화요일 등의 관측에서도 마찬가지입니다. 어떤 경우도 in 2 이상의 열을 얻을 수 없으며 일요일에 발생한 관측치 (참조 범주)는 모든 새 변수에서 을 갖습니다 . 가능한 많은 다른 코딩 체계가 있으며 링크는이를 도입하는 데 효과적입니다. 새 6 개 변수가 모두 삭제 된 중첩 모델과 6 개가 모두 포함 된 전체 모델을 테스트하여 요일이 중요한지 테스트 할 수 있습니다. 당신이해야합니다 하지 이러한 독립하지 않으며 고유 다중 비교 문제를 가지고, 표준 출력으로보고 된 테스트를 사용합니다. 010
Excel이 통계를 수행하는 방식을 살펴본 지 오랜 시간이 지났으며 매우 명확하게 기억하지 못하므로 다른 사람이 더 많은 도움을 줄 수 있습니다. 이 페이지에는 Excel의 회귀 특성에 대한 정보가있는 것 같습니다. 회귀 출력에 일반적으로보고되는 통계에 대해 조금 더 말할 수 있습니다.
- 가까이에있어 -score 값 응답 변수가 거의 완전히 예측 변수들의 값에 의해 결정될 수 있음을 나타낸다. 분명히 이것은 큰 효과 일 것입니다. 그러나 이것이 '좋은'이라는 것은 분명한 일이 아닙니다 . 그것은 완전히 다르고 철학적으로 가시가 큰 문제입니다. 1r1
- 다중 회귀 분석을 수행하는 경우 ( 은 일반적으로보고되지 않음) ' '이 무엇을 의미하는지 명확 하지 않습니다. ' '은 선형 이변 량 연관 의 측도입니다 . 즉, (변수 만) 2 개의 변수 사이의 직선 관계에 적용됩니다. 그러나 모델 의 예측 값 과 응답 값 사이에 점수 를 얻을 수 있습니다. 이 경우 두 개의 변수를 사용하고 있습니다 (모델이 적절하게 지정된 경우 관계는 선형이어야 함). 이 버전을 '다중 점수' 라고 하지만 소프트웨어에서는 거의 논의하거나보고하지 않습니다. r r r rrrrrr
- R- 제곱 은 단순히 의 제곱 (즉, )입니다. 표준 편차 가 아닙니다 . 또한 관계가 아닌 보다 결정적이되어 을 향하는 경향이 있습니다 . 따라서 가까운 이 '양호'라고 생각하면 가까운 도 '양호' 라고 생각해야합니다 . 그러나 다중 (및 다중r × r 1 0 r 1 R 2 1 r R 2rr×r10r1R21rR2)는 다중 회귀 분석에서 매우 편향됩니다. 즉, 모형에 예측 변수를 더 많이 추가할수록 관계가 있든 없든 이러한 통계가 더 높아집니다. 따라서 해석에 신중해야합니다.
- 때때로 '의미'를 결정하기 위해 결과 는 개별 예측 변수에 대한 통계량 과 모형 전체에 대한 통계량 을 나열합니다. 통계적 검정 으로 계산할 수 있고 자유도 를 지정할 때 알려진 분포를 갖는 임의의 변수입니다 . tF
- 알고있는 분포와 실현 된 값 (즉, 찾은 값)을 비교 하여 귀무 가설이 참인 경우 값 을 극한 또는 극한 으로 찾을 가능성을 결정할 수 있습니다 . 그 확률은 값 입니다. p
- 당신이 하나의 매개 변수를 테스트 할 때 반면, - 값은, 사용하는 - 값이 여러 매개 변수 테스트에서 사용할 수 있습니다 (예를 내가주의에 관한 일 상술 한 바와 같이,). 와 연관된 -value 확률이다 적어도 파라미터를 '중요한'이다. 이를 고려하는 또 다른 방법은 ' 포함 된 의해 테스트 된 모든 매개 변수를 가진 모델이 널 모델보다 응답을 더 잘 예측하는 것'입니다.F p F 1 FtFpF1F
- 당신이 '의미 ' 라고 부르는 것은 아마도 0.05 수준에서 테스트가 '유의 한'것이되도록 일치하거나 초과해야 할 값이라고 추측합니다.FFF
강조해야 할 마지막 요점은이 프로세스를 컨텍스트와 분리 할 수 없다는 것입니다. 데이터 분석을 잘 수행하려면 배경 지식과 연구 질문을 염두에 두어야합니다. 나는 참고 카테고리의 선택과 관련하여 위에서 언급했다. 예를 들어, 신발 크기는 관련이 없어야하지만 플린트 스톤의 경우에는 그럴 것입니다! 종종 잊어 버린 것 같아서이 사실을 포함하고 싶습니다.