구조 방정식 모델에서 매우 작은 샘플을 갖는 복잡한 문제


13

저는 Amos 18에서 구조 방정식 모델 (SEM)을 운영하고 있습니다. 나는 느슨하게 사용 된 실험에 100 명의 참가자를 찾고 있었는데 이는 아마도 성공적인 SEM을 수행하기에 충분하지 않은 것으로 간주됩니다. SEM (EFA, CFA와 함께)이 "큰 표본"통계 절차라고 반복해서 들었습니다. 간단히 말해서, 나는 100 명의 참가자에게 그것을 만들지 않았으며 (놀랍습니다!) 두 개의 문제가있는 데이터 포인트를 배제 한 후 42 명 밖에 없었습니다. 어쨌든 나는 어쨌든 모델을 시험해 보았고 놀랍게도 매우 잘 맞는 것 같았습니다! CFI> .95, RMSEA <.09, SRMR <.08.

이 모델은 단순하지 않습니다. 사실 비교적 복잡하다고 말할 수 있습니다. 두 개의 잠재 변수가 있습니다. 하나는 두 개가 있고 다른 하나는 5 개가 있습니다. 또한 모델에 4 개의 추가 관측 변수가 있습니다. 예를 들어, 변수는 간접 변수와 직접 변수 사이에 많은 관계가 있으며, 일부 변수는 4 개의 다른 변수에 내생 적입니다.

저는 SEM을 처음 접합니다. 그러나 SEM에 대해 잘 알고있는 두 사람은 적합 지수가 좋으면 효과를 해석 할 수 있고 (중요한 한) 해당 모델에 "잘못된"것은 없다고 말합니다. 나는 약간의 적합 지수가 좋은 적합을 제안한다는 점에서 작은 표본에 대해 또는 작은 표본에 대해 편향되어 있다는 것을 알고 있지만, 앞에서 언급 한 세 가지는 괜찮은 것처럼 보이며 유사하게 편견이 없다고 생각합니다. 간접 효과를 테스트하기 위해 부트 스트래핑 (2000 개 정도의 샘플), 90 % 바이어스 보정 신뢰도, 몬테 카를로를 사용하고 있습니다. 추가 메모는 세 가지 조건에 대해 세 가지 다른 SEM을 실행하고 있다는 것입니다.

두 가지 질문이 있습니다. 여러분 중 일부가 고려할 내용이 있다면 답장을 보내 주시기 바랍니다.

  1. 피팅 지수에 의해 입증되지 않은 내 모델에 중대한 약점이 있습니까? 작은 표본은 연구의 약점으로 강조 될 것이지만, 내가 완전히 잊어 버린 거대한 통계적 문제가 있는지 궁금합니다. 앞으로 10-20 명의 참가자를 추가로 확보 할 계획이지만 이러한 분석을위한 비교적 작은 샘플이 남아 있습니다.

  2. 작은 샘플이 있거나 부트 컨텍스트를 사용하는 상황에서 부트 스트랩 사용에 문제가 있습니까?

이 질문이이 포럼에서 "기본"이 아니기를 바랍니다. SEM 및 관련 문제에 대한 여러 장을 읽었지만이 분야의 사람들은 의견면에서 매우 분산되어 있습니다.

건배


1
@Behacad-잘 설명 된 문제. 매우 드문 데이터를 사용하여 많은 매개 변수를 추정하고 있습니다. 따라서 추론은 끔찍하게 흔들릴 것입니다. 하지만 물러서서 물어보고 싶습니다.이 42 개를 사용하여 더 많은 인구의 관계를 유추하고 있습니까? 그렇다면, 42는 무작위 표본입니까, 아니면 적어도 대표적으로 대표적인 표본입니까?
rolando2

의견 rolando2에 감사드립니다! 이 샘플에는 42 명의 대학생이 포함되어 있으며 여러 요인과 불안의 관계를보고 있습니다. 내가 추론하고자하는 관계는 일반 인구 사이에있을 것입니다. 참가자는 모두 비교적 어린 학생이기 때문에 추론이 제한적이지만 특정 인구 (예 : 불안 장애로 고통받는 개인)를 찾고 있지 않습니다. 예를 들어 X가 비-클리 니캠 샘플에서 Y와 간접적으로 연관되어 있다고 널리 설명하고 싶습니다. 그게 당신의 질문에 대답합니까?
Behacad

1
@Behacad-잠재적 비평가들에게 표본의 대표성을 방어 할 수 있다고 가정하면 12 가지 변수 간의 관계를 추정하려고하면 42 가지 사례를 너무 많이 요구한다는 것이 분명합니다. 가장 흥미로운 예측 변수 3 개만 포함하도록 모형을 단순화 할 수 있는지 확인하십시오. 데이터로 나누기가 고통 스럽다는 것을 알고 있지만 수집하기 위해 열심히 노력했을 수도 있습니다!
rolando2

답장을 보내 주셔서 감사합니다. 나는이 모든 변수들 사이의 관계를 추정하는 것이 42 개의 데이터 포인트와는 관계가 없다는 느낌을 가지고 있으며, 당신이 어디에서 왔는지 알 수 있습니다. 즉,이 문제에 대한 통계적 이유 (바람직하게 인용 된)는 무엇입니까? 이것은 다른 종속 변수에 대해 많은 회귀 / 상관 관계를 실행하는 것과 어떻게 다릅니 까? 적합도는 양호하며 (실제로 다른 실험 과제에 대해 세 가지 다른 모델을 실행하고 있음) 결과는 모델간에 이론적으로 일치합니다. 방어적인 태도를 취하지 않으면 미안합니다!
Behacad

(방어 적이 지 않음-걱정할 필요가 없습니다!) 42 개의 사례가 있으면 일 변량 통계를 추정 할 때라도 최소한 샘플링 오류에 노출됩니다. 이제 SEM에서는 C, D 등을 제어하면서 A와 B의 관계를 추정하기 때문에 각 변수가 여러 번 사용됩니다. 따라서 샘플링 오류의 영향이 전파되어 내 이해에 따라 하나는 일반적으로 큰 샘플을 원합니다. 귀하의 경우 무작위 샘플이 없기 때문에 샘플링 오류보다 더 많은 종류의 오류가 발생할 수 있습니다. 따라서 얻은 결과 주위에 매우 큰 신뢰할 수있는 간격을 그려야합니다.
rolando2

답변:


4

한 가지 요점 : "기본 질문"과 같은 것은 없으며, 아는 것만 아는 것이 아니라 아는 것만 아는 것입니다. 질문하는 것이 종종 알아내는 유일한 방법입니다.

작은 샘플을 볼 때마다 모델에 실제로 "믿음"이있는 사람과 그렇지 않은 사람을 찾을 수 있습니다. 작은 샘플은 일반적으로 모델이 가장 큰 영향을 미치기 때문입니다.

나 자신이 예리한 (정신?) 모델러이기 때문에 가자고! 신중한 접근 방식을 채택하고있는 것으로 보이며 작은 표본으로 인해 잠재적 인 치우침 등을 인정했습니다. 작은 데이터에 모델을 피팅 할 때 고려해야 할 한 가지 사항은 12 개의 변수가 있다는 것입니다. 이제 12 개의 변수 가 있는 모델 을 42 개의 관측 값으로 얼마나 잘 결정할 수 있습니까? 42 개의 변수가있는 경우 모든 모델이 42 개의 관측치 (완전히 말하면)에 완벽하게 맞을 수 있으므로 사례가 너무 유연하지 않습니다. 모델이 너무 유연하면 어떻게됩니까? 그것은 잡음에 맞는 경향이 있습니다. 즉, 당신이 가정 한 것 이외의 것들에 의해 결정되는 관계.

또한 미래의 10-20 개 샘플이 모델에서 어떤 것이 될지 예측하여 모델이 어디에 있는지 자아를 배치 할 수 있습니다. 나는 당신의 비평가들이 올바른 예측을 제공하는 소위 "도지 (Dodgy)"모델에 어떻게 반응하는지 궁금합니다. 모델이 데이터를 잘 예측하지 못하면 유사한 "그렇습니다"라고 표시됩니다.

결과가 신뢰할 만하다는 것을 확신 할 수있는 또 다른 방법은 결과를 시도해 보는 것입니다. 원본 데이터를 그대로 유지하고 새 데이터 세트를 작성하고 SEM 결과가 어리석게 보이도록이 새 데이터 세트에 대해 수행해야 할 작업을 확인하십시오. 그런 다음해야 할 일을 살펴보고 다음과 같이 고려하십시오. 이것이 합리적인 시나리오입니까? 내 "우스운"데이터가 진정한 가능성과 비슷합니까? 어리석은 결과를 생성하기 위해 어리석은 영역으로 데이터를 가져와야하는 경우, 분석법이 적절하다는 약간의 보증 (휴식 적, 형식적 아님)을 제공합니다.


1

내가 볼 수있는 주요 문제는 힘이 부족하다는 것입니다. 확인 요인과 SEM 테스트는 널 (null)을 받아들이려고합니다. 중요하지 않은 p- 값을 보려고하므로 전력 부족이 문제가 될 수 있습니다. 검정의 검정력은 표본 크기 (42)와 자유도에 따라 다릅니다. AMOS는 자유도를 제공합니다. 당신은 그것을 인용하지 않았지만,이 경우에는 크지 않습니다. 12 개의 변수를 사용하면 66 개의 DF로 시작하고 추정 한 각 매개 변수에 대해 1을 뺍니다. 나는 그것이 얼마나 될지 모르지만, 당신은 여러 가지 구성 요소 사이에 몇 가지 요인과 상관 관계가 있다고 말합니다.

Rolando2에 전적으로 동의하지 않습니다. SEM에서는 기본 구성의 신뢰할 수있는 지표라고 가정 할 때 많은 변수를 가짐으로써 얻을 수 있습니다. 따라서 변수 수를 줄이지 마십시오. 같은 이유로 나는 @probabilityislogic에 전적으로 동의하지 않습니다. SEM에서는 42 개의 관측치로 12 개의 변수를 모델링하지 않습니다. 42 개의 복제로 강화 된 12 개의 지표를 통해 구문을 모델링하려고합니다. 매우 간단한 요인 모형 (12 개의 지표가있는 1 요인)은 42 명으로 테스트 할 수 있습니다.

RMSEA 및 기타 적합도 측정 값은 모형의 포화 정도에 가까워 질수록 향상되는 경향이 있으므로 잘못된 결과를 초래할 위험이 있습니다.

즉, 작은 데이터 세트가 요인 모델을 거부하는 것을 보았습니다. 아마도 적합하다고 생각되는 것을 의미합니다.

참고 : SEM 모델의 잔차를 확인할 수도 있습니다. 이들은 추정 공분산 행렬과 모형 공분산 행렬의 차이입니다. 요청하면 AMOS가 귀하에게 제공합니다. 잔차를 조사하면 잔차가 고르게 분포되어 있는지 또는 특정 공분산이 매우 적합하지 않은지를 나타낼 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.