선형 모형에서 중요하지 않은 수준의 요인에 대한 계수를 무시할 수 있습니까?


15

여기서 선형 모델 계수에 대한 설명을 찾은 후 요인 수준 계수에 대한 비의 미적 (높은 p 값)에 대한 후속 질문이 있습니다.

예 : 선형 모델에 10 개의 수준이있는 요인이 포함되어 있고 해당 수준 중 3 개만 관련 p 값이있는 경우 모형을 사용하여 Y를 예측할 때 대상이 다음 중 하나에 해당하는 경우 계수 항을 포함하지 않도록 선택할 수 있습니다 무의미한 수준?

더 심각하게, 7 개의 중요하지 않은 레벨을 한 레벨로 묶어 다시 분석하는 것이 잘못 되었습니까?


2
예를 들어 예측 간격을 형성하는 경우 7 가지 중요하지 않은 수준의 개인에게는 적용 범위 확률이 잘못 될 수 있습니다.
Macro

1
여기서 좋은 대답을 얻었지만 p- 값이 높은 요인을 제거하는 것이 부적절한 이유에 관심이있을 수 있습니다 . 컴퓨터가 자동으로 수행하는 대신 직접 수행하더라도 자동 모델 선택 절차와 논리적으로 동일합니다. 이 질문 과 제공된 답변을 읽으면 왜 이런 것들이 사실인지 이해하는 데 도움이 될 수 있습니다.
gung-모니 티 복원

1
이 Q는 2012 년 11 월과 stats.stackexchange.com/questions/18745/…와 완전히 동일 합니다. 거기에는 약간의 생각을 불러 일으키는 정보도 있습니다.
rolando2

2
이것은 매우 중요한 질문이지만 이론으로 논쟁을 뒷받침하는 답은 없습니다. 그대로, 그들은 단지 의견 일뿐입니다. 답변 중 하나에 연결된 책 (다른 결론과 다른 결론)도 참고 문헌을 제공하지는 않습니다. 이것이 의미하는 것처럼, 나는 그것들 중 어느 것도 신뢰하지 않으므로 오히려 아무것도하지 않을 것입니다 (즉, 모든 카테고리 / 요소를 유지하십시오).
luchonacho

답변:


13

여러 수준의 예측 변수를 넣는 경우 변수를 넣거나 넣지 않은 경우 수준을 선택하고 선택할 수 없습니다. 예측 변수의 수준을 재구성하여 수준의 수를 줄이려고 할 수 있습니다 (분석의 맥락에서 의미가있는 경우).하지만 이것이 통계적 무효화의 원인인지 확실하지 않습니다. 붕괴 수준은 중요하지 않기 때문에 볼 수 있습니다.

또한 작은 은 중요하지 않습니다. 나는 당신이 작은 값이 중요 하다는 것을 의미한다고 가정합니다 . 즉, 값이 .0001이 중요하므로 널을 거부합니다 ( 레벨이 ? 라고 가정 ). p p α > .0001α>.0001


(내 p- 값 오타를 수정했습니다.) 여기서 좋은 지적입니다. 따라서 연구의 맥락에서 정당화 할 수있는 현실적이고 논리적 인 이유에 근거한다면 (중요도에 따라 파싱 될 수도있는) 합리적 수준이지만 합리적이지만 그 중요성에 따라 임의로 무너 뜨리지는 않습니다. . 알았다.
Trees4theForest

15

@Ellie의 답변은 좋은 것입니다.

여러 수준의 변수를 넣는 경우 분석에서 해당 수준을 모두 유지해야합니다. 유의 수준에 따라 선택하고 선택하면 기적에 따라 추정치가 동일하게 유지되는 경우에도 결과를 바이어스하고 추론에 매우 이상한 일을 할 수 있습니다. 변하기 쉬운.

예측 변수의 각 수준에 대한 추정치를 그래픽으로 검토하는 것이 좋습니다. 레벨을 올리면서 추세가 보입니까, 아니면 불규칙합니까?

일반적으로 말하자면, 나는 통계적 테스트 또는 순수한 통계적 순간을 기반으로 변수를 코딩하는 것에 반대합니다. 변수의 나눗셈은 논리적으로 의미가있는 컷 포인트, 특정 전 이점에 대한 필드 관심 등보다 확실한 것을 기반으로해야합니다.


8

이미 얻은 두 가지 좋은 답변을 확장하여 실질적으로 살펴 보겠습니다. 귀하의 종속 변수가 소득 (예 : 소득)이고 귀하의 독립 변수가 인구 조사 정의에 따른 수준 (백색, 검정 / 법규, 암, 인도 / 알래스카 원주민, 아시아, 하와이 하와이 / 팩 아일랜드, 기타 및 다인종). White를 참조 범주로 사용하여 더미 코드를 작성한다고 가정 해 보겠습니다.

나는영형미디엄이자형=0+1+2나는+에스+4H나는+5영형+6미디엄아르 자형

뉴욕에서이 연구를하고 있다면 하와이 원주민 / 태평양 섬 주민은 거의 없을 것입니다. 다른 사람과 함께 (있는 경우) 포함하기로 결정할 수 있습니다. 그러나 전체 방정식을 사용할 수는 없으며 해당 계수 만 포함하면됩니다. 그러면 가로 채기가 잘못되고 예상 수입에 대한 가치도 마찬가지입니다.

그러나 카테고리를 어떻게 결합해야합니까?

다른 사람들이 말했듯이, 그것은 의미가 있습니다.


4

다른 의견을 제시하려면 다음과 같이하십시오. 무작위 효과로 포함하지 않겠습니까? 그것은 약한 지원으로 그 수준을 처벌하고 효과 크기가 최소화되도록해야합니다. 그렇게하면 바보 같은 예측에 대해 걱정할 필요없이 모든 것을 유지할 수 있습니다.

그리고 그렇습니다. 이것은 무작위 효과에 대한 전체 "샘플 가능한 모든 수준의"관점보다 무작위 효과에 대한 베이지안 관점에서 더 동기 부여됩니다.


0

또한 중요하지 않은 범주를 참조 범주와 결합 할 수 있는지 궁금합니다. "비즈니스 인텔리전스를위한 데이터 마이닝 : XLMiner®를 사용한 Microsoft Office Excel®의 개념, 기술 및 응용 프로그램, Galit Shmueli, Nitin R. Patel, Peter C. Bruce의 2 판", p87-89 (Dimension) 축소 섹션) ( Google 검색 결과 )은 @Ellie의 응답의 두 번째 문장을 지원하는 것으로 보입니다.

  • "피트 회귀 모델을 사용하여 유사한 범주를 추가로 결합 할 수도 있습니다. 통계적으로 유의하지 않은 계수가있는 (즉, p- 값이 높은) 범주는 참조 범주와의 구별이없는 것으로 보이므로 참조 범주와 결합 될 수 있습니다. 출력 변수에 중요한 영향 "
  • "출력 변수에 미치는 영향이 유사하기 때문에 계수 값이 비슷한 (및 동일한 부호) 카테고리를 결합 할 수 있습니다."

그러나 카테고리를 결합하는 것이 논리적으로 의미가 있는지 (예 : @Fomite, @gung과 같은 이전 답변 / 의견에 암시되어 있는지) 주제 전문가에게 확인할 계획입니다.


이 답변은 다른 답변과 모순됩니다.
kjetil b halvorsen '
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.