다른 예측 변수 집합의 중요성 비교


13

나는 특정한 문제를 가진 연구생에게 조언하고 있었고,이 사이트에서 다른 사람들의 의견을 듣고 싶어했습니다.

문맥:

연구원은 세 가지 유형의 예측 변수를 가졌습니다. 각 유형에는 다른 개수의 예측 변수가 포함되었습니다. 각 예측 변수는 연속 변수입니다.

  • 소셜 : S1, S2, S3, S4 (예 : 4 개의 예측 변수)
  • 인지 : C1, C2 (예 : 두 예측 변수)
  • 행동 : B1, B2, B3 (예 : 세 예측 자)

결과 변수도 계속되었습니다. 이 샘플에는 약 60 명의 참가자가 포함되었습니다.

연구원은 결과 변수를 설명하는 데 어떤 유형의 예측 변수가 더 중요한지 언급하고 싶었습니다. 이는 이러한 유형의 예측 변수의 상대적 중요성에 대한 광범위한 이론적 관심과 관련이 있습니다.

질문

  • 한 세트의 예측 변수가 다른 세트와 비교하여 상대적 중요성을 평가하는 좋은 방법은 무엇입니까?
  • 각 세트마다 다른 수의 예측 변수가 있다는 사실을 다루는 좋은 전략은 무엇입니까?
  • 해석에 어떤 경고가 있습니까?

기술에 대한 예나 토론에 대한 언급도 환영합니다.

답변:


8

제안

  • 각 예측 변수 유형에 대해 개별 다중 회귀 분석 을 수행 하고 여러 회귀 분석, 조정 된 r- 제곱, 일반화 된 r- 제곱 또는 기타 다른 parsimony 조정 분산 측정을 비교할 수 있습니다.
  • 가변 중요성 에 대한 일반 문헌을 대안으로 탐색 할 수도 있습니다 ( links에 대한 토론은 여기 참조 ). 이를 통해 개별 예측 변수의 중요성에 중점을 둘 수 있습니다.
  • 어떤 상황에서는 계층 적 회귀 가 유용한 프레임 워크를 제공 할 수 있습니다. 한 블록에 한 유형의 변수 (예 :인지 변수)를 입력하고 두 번째 블록에 다른 유형 (예 : 사회 변수)을 입력합니다. 이것은 한 유형의 변수가 다른 유형을 초과하여 예측하는지에 대한 질문에 답하는 데 도움이됩니다.
  • 측면 검사로 예측 변수에 대한 요인 분석 을 실행 하여 예측 변수 간의 상관이 변수를 유형에 할당하는 것과 매핑되는지 확인할 수 있습니다.

경고

  • 인지, 사회적, 행동과 같은 변수의 유형은 광범위한 변수 클래스입니다. 주어진 연구에는 항상 가능한 변수의 서브 세트 만 포함되며 일반적으로 이러한 서브 세트는 가능한 변수에 비해 작습니다. 더욱이, 측정 된 변수는 의도 된 작 제물을 측정하는 가장 신뢰할 수 있거나 유효한 수단이 아닐 수 있습니다. 따라서 실제로 측정 된 것 이상으로 주어진 유형의 변수의 상대적 중요성에 대한 더 넓은 추론을 그릴 때주의해야합니다.
  • 또한 종속 변수를 측정하는 방식에 치우침을 고려해야합니다. 특히 심리학 연구에서, 자기보고 척도는 자기보고, 능력 능력, 다른보고와 다른보고 등과 관련이있는 경향이 있습니다. 문제는 측정 모드가 실제 관심 구조를 넘어서 큰 영향을 미친다는 것입니다. 따라서 종속 변수가 특정 방식 (예 : 자체 보고서)으로 측정되는 경우 해당 유형도 자체 보고서를 사용하는 경우 한 유형의 예측 변수와 더 큰 상관 관계를 과도하게 해석하지 않습니다.

나는이 명확하고 유용한 답변을 읽고 그것을 동료와 공유하려고합니다.
rolando2

7

중요성

가장 먼저해야 할 일은 '예측의 중요성'을 운영하는 것입니다. 나는 그것이 '예측 자 가치의 변화에 ​​대한 평균 결과의 민감도'와 같은 것을 의미한다고 가정한다. 예측 변수가 그룹화되어 있으므로 예측 변수 그룹에 대한 평균 결과의 민감도는 변수 분석에 의한 변수보다 더 흥미 롭습니다. 민감도를 인과 적으로 이해하는지 여부를 열어 둡니다. 이 문제는 나중에 제기됩니다.

중요성의 세 가지 버전

많은 분산 설명 : 심리학자의 첫 번째 호출 포트는 아마도 각 예측 변수 그룹의 분산-코 발란스 구조로 설명되는 결과 분산의 양을 측정하는 분산 분해 일 것으로 추측됩니다. 실험적인 사람이 아니기 때문에 나는 여기에서 많은 것을 제안 할 수는 없습니다. 단, '변형 설명'전체 개념은 '어떤 정사각형'문제가 없어도 내 취향에 약간 근거가 없다는 점에 유의하십시오. 다른 사람들은 동의하지 않고 더 발전시키기를 환영합니다.

큰 표준화 된 계수 : SPSS는 변수에 비교할 수있는 방식으로 영향을 측정하기 위해 (잘못된 이름의) 베타를 제공합니다. 이것을 사용하지 않는 몇 가지 이유가 있습니다. 여기 의 Fox의 회귀 교재 에서 , 그리고 다른 곳 에서 논의되었습니다 . 모두 여기에 적용됩니다. 또한 그룹 구조를 무시합니다.

반면에 나는 그룹의 예측 변수를 표준화하고 공분산 정보를 사용하여 모든 표준 편차 표준의 영향을 판단 할 수 있다고 생각 합니다. 개인적으로 모토 : "할 가치가없는 일이 아니라면 가치가 없다"는 나의 관심을 떨어 뜨린다.

큰 한계 효과 : 다른 방법은 측정 규모를 유지하고 신중하게 선택한 샘플 포인트 사이의 한계 효과를 계산하는 것입니다. 그룹에 관심이 있기 때문에 하나의 변수가 아닌 변수 그룹을 변화시키는 점을 선택하는 것이 유용합니다 (예 : 두 가지인지 변수 모두 한 번에 조작). (여기에 멋진 음모가 많이 있습니다). 기본 용지는 여기 입니다. effectsR 의 패키지는이 작업을 훌륭하게 수행합니다.

여기에 두 가지 경고가 있습니다.

  1. 그렇게하면 개별적으로 그럴듯하지만, 예를 들어 중앙값과 같은 두 가지인지 변수를 선택하지 않는 것이 관찰 될 수 있습니다.

  2. 일부 변수는 이론적으로 조작 할 수 없으므로 인과적인 한계 효과의 해석은 여전히 ​​유용하지만 더 섬세합니다.

다른 수의 예측 변수

그룹화 된 변수 공분산 구조로 인해 문제가 발생합니다.이 변수는 일반적으로 걱정하지 않지만이 작업에서는해야합니다.

특히 단일 변수가 아닌 그룹에 대한 한계 효과 (또는 해당 문제에 대한 표준화 된 계수)를 계산할 때 더 큰 그룹에 대한 차원 저주로 인해 비교가 사례가없는 영역으로 쉽게 벗어날 수 있습니다. 그룹의 예측 변수가 많을수록 공간이 더 희박 해 지므로 중요도 측정은 모델 가정에 의존하고 관측치에 의존하지 않습니다 (그러나 말하지는 않겠지 만 ...). 이것은 모형 적합 단계와 동일한 문제입니다. 정말. 확실히 모델 기반의 인과 관계 영향 평가에서와 동일한 결과입니다.


7

χ2L1,L2,L3χ2L1a,L2b,L3cχ2


확인하려면, 네 가지 사회적 변수를 포함하여 발생하는 이탈도 감소 (-2 *)로 L1을 계산하고이 네 가지 변수의 df로 조정하는 것입니까? 그리고 L2와 L3도 마찬가지입니까?
B_Miner

χ2

또한 순전히 통계적 솔루션을 고안 할 때 3 가지 예측 변수 그룹이 동시에 발생하는 특성 / 행동을 측정 할 수있는 중요한 문제를 놓칠 위험이 있음을 인정하십시오. 인과 관계 체인에 대한 초기 원인과 후기의 근거가 없다면,이 상황에서 인과 관계를 결정적으로 분리하는 것이 불가능할 수 있습니다. (나는 인과 관계의 논리에서 제임스 데이비스가하는 방식을 생각하려고한다.)
rolando2

확실 해요 인과 사슬은 모델링을 시작하기 전에 이해해야합니다.
Frank Harrell

@FrankHarrell이 결과가 페널티 된 가능성에도 적용됩니까? 불이익 가능성은이 변수 중요성 측정과 관련하여 가능성과 다른 속성을 가지고 있습니까? 이에 대해 자세히 설명하는 논문을 제안 해 주시겠습니까? 감사.
줄리엣

2

한 가지 방법은 변수 세트를 뭉치 변수로 결합하는 것입니다. 이 방법은 사회학 및 관련 분야에서 광범위하게 사용되었습니다.

참조 :

Whitt, Hugh P. 1986. "뭉치 계수 : 단순화되고 확장 된 접근." 사회 과학 연구 15 : 174-189.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.