분산이 큰 예측 변수가 더 낫습니까?


13

"기본 통계"개념 질문이 있습니다. 학생으로서 나는 이것이 완전히 잘못 생각하고 있는지, 왜 그렇게 생각하는지 알고 싶습니다.

하자 내가 가설 이혼 "분노 관리 문제"사이의 관계를보고 말을하려고 말 (예 / 아니오) 로지스틱 회귀와 나는 두 개의 서로 다른 분노 관리 점수를 사용하는 옵션이 - (100)의 모두 밖으로
점수 1 설문지 평가 도구 1과 다른 선택에서 비롯됩니다. 점수 2는 다른 설문지에서 나옵니다. 가설 적으로, 우리는 분노 관리 문제로 인해 이혼이 일어났다는 이전 연구 결과를 믿을만한 근거가 있습니다.
500 명으로 구성된 표본에서 점수 1의 분산이 점수 2의 분산보다 훨씬 높다면, 점수 1이 분산에 기초하여 이혼의 예측 자로 사용하기에 더 좋은 점수라고 믿을만한 이유가 있습니까?

나에게 이것은 본능적으로 옳은 것처럼 보이지만 그렇지 않습니까?


흥미로운 질문은 Whuber의 답변이 완벽하게 설명한다고 생각합니다. 이 질문에 대한 나의 첫 반응은 '분산 증가는 더 높은 계급 차별 정보를 수반하지 않는다'는 것이었다.
바브

답변:


11

몇 가지 빠른 포인트 :

  • 변수에 다른 척도를 채택하여 분산을 임의로 늘리거나 줄일 수 있습니다. 스케일에 1보다 큰 상수를 곱하면 분산이 증가하지만 변수의 예측력은 변경되지 않습니다.
  • 분산과 안정성이 혼동 될 수 있습니다. 다른 모든 것이 같으면 (적어도 실제 점수 예측이 있다고 가정 할 때) 구조물을 측정 할 때 신뢰도를 높이면 예측력이 높아집니다. 감쇠 보정에 대한 이 논의를 확인하십시오 .
  • 두 척도 모두 5 개의 25 개 항목으로 구성되어 있고 총 점수가 20에서 100 사이 인 것으로 가정하면 분산이 큰 버전도 더 안정적 일 것입니다 (적어도 내부 일관성 측면에서).
  • 내부 일관성 신뢰도는 심리 테스트를 판단 할 수있는 유일한 표준이 아니며 주어진 구성에 대해 한 스케일의 예측력과 다른 스케일의 예측력을 구별하는 유일한 요인은 아닙니다.

9

간단한 예는 우리가 필수적인 것을 식별하는 데 도움이됩니다.

하자

Y=C+γX1+ε

여기서 및 는 매개 변수이고 은 첫 번째 계측기 (또는 독립 변수)의 점수이며 은 바이어스되지 않은 iid 오류를 나타냅니다. 두 번째 기기의 점수가 첫 번째 기기의 점수와CγX1ε

X1=αX2+β.

예를 들어, 두 번째 기기의 점수는 25에서 75 사이이며 첫 번째 점수는 0에서 100 사이이며 입니다. 의 분산 은 곱하기 의 분산입니다 . 그럼에도 불구하고 우리는 다시 쓸 수 있습니다X1=2X250X1α2X2

Y=C+γ(αX2+β)=(C+βγ)+(γα)X2+ε=C+γX2+ε.

모수는 변하고 독립 변수의 분산 은 변하지 만 모델의 예측 능력은 변하지 않습니다 .

일반적으로 과 의 관계는 비선형 일 수 있습니다. 이는 더 좋은 예측기이다 에 가까운 선형 관계를 갖는 의존한다 . 따라서이 문제는 ( 의 분산에 의해 반영된) 규모 중 하나가 아니라 기기 간의 관계와 예측에 사용되는 대상에 의해 결정되어야합니다. 이 아이디어는 회귀에서 독립 변수를 선택 하는 것에 대한 최근의 질문에서 탐구 된 것과 밀접한 관련이 있습니다.X 2 Y Y X iX1X2YYXi

완화 요소가있을 수 있습니다. 예를 들어, 과 가 이산 변수이고 둘 다 와 동일하게 관련되어있는 경우, 분산 더 큰 변수 (균일하게 분산되어있는 경우) 값을보다 세밀하게 구분하여 정밀도를 높일 수 있습니다. 예를 들어, 두 악기 모두 동일하게와 상관 관계가 1-5 리 커트 척도로 설문 조사, 경우, , 그리고에 대한 답변 모든 (2), (3)과 답변입니다 1 ~ 5 사이에 확산되어, 에 선호 될 수있다 이 기초.X 2 Y Y X 1 X 2 X 2X1X2YYX1X2X2


1

사용중인 통계 테스트에 대한 가정을 항상 확인하십시오!

로지스틱 회귀 분석의 가정 중 하나는 오류의 독립성으로, 데이터 사례가 관련되어서는 안된다는 의미입니다. 예 : 분노 관리 설문 조사를했을지도 모른다는 다른 시점에서 같은 사람들을 측정 할 수 없습니다.

또한 두 가지 분노 관리 설문 조사를 통해 기본적으로 동일한 것을 측정하고 있으며 분석에 다중 공선 성이 발생할 수 있습니다.


1
N26이 사고 실험을 제안하고 있다고 생각합니다. 즉, 연구를 설계 할 때 두 가지 척도 중에서 선택해야한다면, 가장 큰 차이를 갖는 원 초면을 선호해야합니다. 또한 동일한 구성을 나타내지 만 다르게 측정되는 두 개의 예측 변수가 있어도 관측의 독립성에 대한 가정을 위반하지 않습니다.
Jeromy Anglim
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.