예를 들어 요일을 기준으로 한 회귀


11

올바른 방향으로 움직이려면 약간의 도움이 필요합니다. 통계를 연구 한 지 오랜 시간이 걸리고 전문 용어가 변경된 것 같습니다.

다음과 같은 자동차 관련 데이터 세트가 있다고 가정하십시오.

  • A 타운에서 B 타운까지의 여정 시간
  • 마을 A에서 마을 B까지의 거리
  • 엔진 크기
  • 운전자의 신발 사이즈
  • 자동차 제조사 및 모델
  • 요일

여행 시간을 예측하고 싶습니다.

나는 시간과 거리 사이에 강한 상관 관계가 있고 아마도 엔진 크기와 신발 크기 사이에는 약한 상관 관계가 있다고 생각합니다. 아마도 다중 회귀 분석 / ANOVA가 사용할 도구입니다. 그러나 일요일 = 1, 월요일 = 2 등으로 코딩하는 것이 매우 잘못되기 때문에 요일을 어떻게 포함합니까?

예를 들어 Excel의 회귀 도구를 사용한 결과는 어떻게 해석합니까? 아마도 R이 1에 가까우면 이것이 좋습니다 (데이터 항목이 많더라도 작지만 여전히 중요한 것처럼 보입니다). 그러나 일부 소스는 SD 인 것처럼 보이는 r 제곱을 참조하므로 0에 가까운 값이 좋습니다. 또한 t Stat, P-value, F 및 Significance F를 표시합니다. 누구든지 좋은 참조 소스를 추천 할 수 있습니까?


2
기록을 위해이 질문 (회귀 출력 해석에 대한)은 다른 스레드에서 요청 되었지만 질문이 너무 잘못 작성되어 좋은 대답을 얻지 못했습니다. 이것은 기초적이지만 철저하고 명확하며 잘 설명 된 "정식"답변을받을만한 기본적인 질문입니다.
whuber

답변:


26

필요한 것은 회귀 방법론에 대한 견고한 검토입니다. 그러나 이러한 질문은 기본 통계에 대한 훌륭한 개요조차도 아마 당신에게 도움이 될 정도로 충분히 기본적입니다 (잘못하지 마십시오). Howell은 밀도 높은 수학을 요구하지 않고 광범위한 개념 기반을 제공 하는 매우 인기있는 교과서 를 작성했습니다 . 당신의 시간을 읽을 가치가 있습니다. 여기서 모든 자료를 다룰 수는 없습니다. 그러나 나는 당신이 당신의 특정 질문에 시작하도록 노력할 수 있습니다.

첫째, 요일은 코딩 체계 를 통해 포함됩니다.. 가장 인기있는 것은 '참조 카테고리'코딩 (일반적으로 더미 코딩)입니다. 데이터는 행렬로 표현되고 사례는 행으로, 변수는 열로 표현됩니다. 이 체계에서 7 개의 범주 형 변수 (예 : 요일)가있는 경우 6 개의 새 열을 추가합니다. 하루를 참조 범주 (일반적으로 기본값으로 생각되는 범주)로 선택합니다. 종종 이것은 이론, 맥락 또는 연구 질문에 의해 알려집니다. 나는 요일에 가장 적합한 것을 알지 못하지만 실제로 중요하지는 않습니다. 오래된 것을 선택할 수 있습니다. 참조 범주가 있으면 다른 변수를 새 6 개의 변수에 할당 한 다음 해당 변수가 각 사례에 대해 획득하는지 여부 만 표시하면됩니다. 예를 들어 일요일을 참조 카테고리로 선택하고 새 열 / 변수는 월요일-토요일입니다. 월요일에 일어난 모든 관찰은0 1 01월요일 열에 , 다른 곳에화요일 등의 관측에서도 마찬가지입니다. 어떤 경우도 in 2 이상의 열을 얻을 수 없으며 일요일에 발생한 관측치 (참조 범주)는 모든 새 변수에서 을 갖습니다 . 가능한 많은 다른 코딩 체계가 있으며 링크는이를 도입하는 데 효과적입니다. 새 6 개 변수가 모두 삭제 된 중첩 모델과 6 개가 모두 포함 된 전체 모델을 테스트하여 요일이 중요한지 테스트 할 수 있습니다. 당신이해야합니다 하지 이러한 독립하지 않으며 고유 다중 비교 문제를 가지고, 표준 출력으로보고 된 테스트를 사용합니다. 010

Excel이 통계를 수행하는 방식을 살펴본 지 오랜 시간이 지났으며 매우 명확하게 기억하지 못하므로 다른 사람이 더 많은 도움을 줄 수 있습니다. 페이지에는 Excel의 회귀 특성에 대한 정보가있는 것 같습니다. 회귀 출력에 일반적으로보고되는 통계에 대해 조금 더 말할 수 있습니다.

  • 가까이에있어 -score 값 응답 변수가 거의 완전히 예측 변수들의 값에 의해 결정될 수 있음을 나타낸다. 분명히 이것은 큰 효과 일 것입니다. 그러나 이것이 '좋은'이라는 것은 분명한 일이 아닙니다 . 그것은 완전히 다르고 철학적으로 가시가 큰 문제입니다. 1r1
  • 다중 회귀 분석을 수행하는 경우 ( 은 일반적으로보고되지 않음) ' '이 무엇을 의미하는지 명확 하지 않습니다. ' '은 선형 이변 량 연관 의 측도입니다 . 즉, (변수 만) 2 개의 변수 사이의 직선 관계에 적용됩니다. 그러나 모델 의 예측 값응답 값 사이에 점수 를 얻을 수 있습니다. 이 경우 두 개의 변수를 사용하고 있습니다 (모델이 적절하게 지정된 경우 관계는 선형이어야 함). 이 버전을 '다중 점수' 라고 하지만 소프트웨어에서는 거의 논의하거나보고하지 않습니다. r r r rrrrrr
  • R- 제곱 은 단순히 의 제곱 (즉, )입니다. 표준 편차 가 아닙니다 . 또한 관계가 아닌 보다 결정적이되어 을 향하는 경향이 있습니다 . 따라서 가까운 이 '양호'라고 생각하면 가까운 도 '양호' 라고 생각해야합니다 . 그러나 다중 (및 다중r × r 1 0 r 1 R 2 1 r R 2rr×r10r1R21rR2)는 다중 회귀 분석에서 매우 편향됩니다. 즉, 모형에 예측 변수를 더 많이 추가할수록 관계가 있든 없든 이러한 통계가 더 높아집니다. 따라서 해석에 신중해야합니다.
  • 때때로 '의미'를 결정하기 위해 결과 는 개별 예측 변수에 대한 통계량 과 모형 전체에 대한 통계량 을 나열합니다. 통계적 검정 으로 계산할 수 있고 자유도 를 지정할 때 알려진 분포를 갖는 임의의 변수입니다 . tF
  • 알고있는 분포와 실현 된 값 (즉, 찾은 값)을 비교 하여 귀무 가설이 참인 경우을 극한 또는 극한 으로 찾을 가능성을 결정할 수 있습니다 . 그 확률은 입니다. p
  • 당신이 하나의 매개 변수를 테스트 할 때 반면, - 값은, 사용하는 - 값이 여러 매개 변수 테스트에서 사용할 수 있습니다 (예를 내가주의에 관한 일 상술 한 바와 같이,). 와 연관된 -value 확률이다 적어도 파라미터를 '중요한'이다. 이를 고려하는 또 다른 방법은 ' 포함 된 의해 테스트 된 모든 매개 변수를 가진 모델이 널 모델보다 응답을 더 잘 예측하는 것'입니다.F p F 1 FtFpF1F
  • 당신이 '의미 ' 라고 부르는 것은 아마도 0.05 수준에서 테스트가 '유의 한'것이되도록 일치하거나 초과해야 할 값이라고 추측합니다.FFF

강조해야 할 마지막 요점은이 프로세스를 컨텍스트와 분리 할 수 ​​없다는 것입니다. 데이터 분석을 잘 수행하려면 배경 지식과 연구 질문을 염두에 두어야합니다. 나는 참고 카테고리의 선택과 관련하여 위에서 언급했다. 예를 들어, 신발 크기는 관련이 없어야하지만 플린트 스톤의 경우에는 그럴 것입니다! 종종 잊어 버린 것 같아서이 사실을 포함하고 싶습니다.


5
(+1) Excel에서는 실제로 여러 회귀 분석을 수행 할 수 있으며 표준 요약 테이블을 생성 할 수있는 명령이 있습니다. 역사적으로 분포 값을 계산하는 (매우) 조잡한 경향을 감안할 때, 그 능력은 Samuel Johnson의 개와 같이보아야합니다 . "... 개가 뒷다리를 걷고있다. "완전히 끝났습니다."
whuber

3

"교육"회귀가 필요한 많은 질문으로 끝납니다. R ^ 2가 높을수록 좋지만 경고가 있습니다. R ^ 2는 변수를 추가 할 때 항상 올라가므로 인위적으로 부 풀릴 수 있습니다. 유의성 테스트, 잔류 진단 등을보십시오. 요일과 관련하여 월요일 = 1, 화요일 = 2 등은 갈 수 없습니다. 계절별 지표 변수는 월요일이면 0/1, 화요일이면 0/1 등입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.