가장 밀접하게 연관된 예측 변수가 이진일 때 회귀 모델 구축을 시작하는 방법


11

I, 즉 세 개의 변수 (365)의 관찰을 포함하는 데이터 세트를 pm, temp그리고 rain. 이제 pm다른 두 변수의 변경에 대한 응답 으로 동작을 확인하고 싶습니다 . 내 변수는 다음과 같습니다

  • pm10 = 응답 (종속)
  • temp = 예측 자 (독립)
  • rain = 예측 자 (독립적)

다음은 내 데이터의 상관 관계 매트릭스입니다.

> cor(air.pollution)
               pm        temp       rainy
pm     1.00000000 -0.03745229 -0.15264258
temp  -0.03745229  1.00000000  0.04406743
rainy -0.15264258  0.04406743  1.00000000

문제는 회귀 모델의 구성을 연구 할 때 첨가 방법이 반응 변수와 가장 관련이 높은 변수로 시작하는 것으로 작성되었습니다. 내 데이터 세트 rainpm(와 비교하여 temp) 상관 관계가 높지만 동시에 더미 변수 (비 = 1, 비 = 0)이므로 이제 어디서부터 시작 해야하는지 단서가되었습니다. 제가 질문을 두 개의 이미지를 첨부 : 첫 번째는 데이터의 산점도이고, 두 번째 이미지의 산점도이다 pm10rain, 또한의 산점도 해석 할 수없는 나는 pm10대를 rain. 시작하는 방법을 알려줄 수 있습니까?

이것은 내 데이터의 산점도입니다

PM10 대 비의 산점도


3
이것은 오해로 진행 되더라도 완벽하게 실행 가능한 질문 인 IMO입니다.
gung-Monica Monica 복원

와이나는엑스나는1,엑스나는2,,엑스나는|아르 자형제이케이|>0.8

답변:


17

많은 사람들은 가장 관련성이 높은 변수로 시작한 다음 중요하지 않을 때까지 변수를 추가하는 등의 전략을 사용해야한다고 생각합니다. 그러나이 방법을 강요하는 논리는 없습니다. 또한 이것은 일종의 '욕심 많은'변수 선택 / 검색 전략입니다 (참조, 내 대답 은 자동 모델 선택 알고리즘 ). 이 작업을 수행 할 필요가 없으며 실제로는 안됩니다. 당신이 사이의 관계를 알고 싶다면 pm, 및 temprain세 변수를 모두 사용하여 다중 회귀 모형을 적합합니다. 모델이 합리적이고 가정이 충족되는지 여부를 결정하기 위해 모델을 평가해야하지만 그게 전부입니다. 우선 순위 가설을 검정하려면 모형을 사용하여 수행 할 수 있습니다. 표본의 예측 정확도를 벗어난 모델을 평가하려면 교차 검증을 통해 수행 할 수 있습니다.

다중 공선성에 대해서도 걱정할 필요가 없습니다. 사이의 상관 관계 temp및은 rain으로 표시됩니다 0.044당신의 상관 행렬이다. 상관 관계가 매우 낮으므로 아무런 문제가 발생하지 않습니다.


1
당신의 친절한 제안에 대단히 감사합니다. 이 사이트를 처음 사용하는 방법을 모르겠습니다. 추가 제안이나 연구 자료를 제공해 주시겠습니까?
Syed Asif Ali Shah

1
@SyedAsifAliShah, 영어 이외의 언어는 귀하의 모국어가 아닌 것 같습니다. 사이트 사용 방법에 관한 문제는 없습니다. 학습 자료와 관련하여 this 또는 this 를 보거나 참조 태그로 스레드를 찾아 볼 수 있습니다 .
gung-Monica Monica 복원

내 데이터에 대해 선형 모델 또는 GLM을 시도해야합니까 ??
Syed Asif Ali Shah

1
@SyedAsifAliShah, 아마도 선형 모델은 데이터에 적합 할 것입니다.
gung-복원 Monica Monica

bro 나는 당신의 도움이 필요해
Syed Asif Ali Shah

10

이것은 이미 수집 된 데이터 세트를 직접 다루지는 않지만 다음에 데이터를 수집 할 때 시도 할 수있는 또 다른 방법은 "비"를 바이너리로 기록하지 않는 것입니다. 강우 율 (cm / hour)을 측정 한 경우 0 ... max_rainfall에서 지속적으로 (측정의 정밀도까지) 분포 된 변수를 제공하면 데이터가 더 유익 할 것입니다.

이것은 당신이 다른 변수와 "비가 내리는가"뿐만 아니라 "비가 얼마나 내리는가"와 상관 관계가있게합니다.


안녕 브로 난 당신의 제안에 따라 같은 비를 수행하고 비의 전체 ​​데이터를 수집하고 모델을 구축
Syed Asif 알리 샤

이메일을 요청할 수 있습니까 ??? 나는 단지 몇 가지 질문을하고 싶다
Syed Asif Ali Shah

모델 설정에 대한 추가 질문이있는 경우 새로운 StackExchange 질문이있을 수 있습니다. 그렇게하면 더 많은 사람들로부터 피드백을받을 수 있습니다. 많은 사람들이 저보다 더 전문적입니다.
JKreft

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.