한 사람이 어떻게“다른 변수를 제어”합니까?


141

이 질문에 동기를 부여한 기사는 다음과 같습니다. 조바심은 우리를 뚱뚱하게합니까?

나는이 기사를 좋아했고, 문제가되는 두 변수 사이의 진정한 관계를 가장 잘 분리하기 위해“다른 변수에 대한 통제”(IQ, 경력, 수입, 나이 등) 개념을 잘 보여줍니다.

일반적인 데이터 세트에서 변수를 실제로 제어 하는 방법 을 설명해 주 시겠습니까?

예를 들어, 조급함 수준과 BMI는 같지만 소득이 다른 두 사람이있는 경우 이러한 데이터를 어떻게 처리합니까? 수입, 인내심 및 BMI가 비슷한 여러 하위 그룹으로 분류합니까? 그러나 결국 (IQ, 커리어, 수입, 나이 등)에 대해 통제 할 수있는 변수가 수십 개 있습니다. 그런 다음 100 개의 하위 그룹을 어떻게 잠재적으로 집계합니까? 사실, 나는이 접근법이 잘못된 나무를 짖고 있다고 느꼈습니다.

내가 몇 년 동안 바닥에 닿을 무언가에 빛을 비추어 주셔서 감사합니다 ...!


3
Epi & Bernd, 이에 답변 해 주셔서 감사합니다. 불행히도, 이러한 답변은 내 질문에서 큰 도약이며 내 머리 위에 있습니다. 어쩌면 그것은 B / C입니다 .R에 대한 경험이 없으며 기본적인 통계 101 기초입니다. 당신의 가르침에 대한 피드백과 마찬가지로, BMI, 나이, 조바심 등을 "공변량"등으로 추상화 한 후에는 완전히 나를 잃었습니다. 의사 데이터를 자동 생성하는 것도 개념을 명확하게하는 데 도움이되지 않았습니다. 사실, 그것은 더 나빠졌습니다. 이미 설명 된 원리를 이미 알고 있지 않는 한, 본질적 의미가없는 더미 데이터에 대해서는 배우기가 어렵습니다 (예 : Teacher knows
JackOfAll

7
@JackOfAll이라는 근본적인 중요성에 대한이 질문을 해주셔서 감사합니다. 사이트는 이러한 라인을 따라 질문없이 불완전 할 것입니다. 나는 이것을 '좋아했습니다'. 여기에 대한 답변은 저에게 많은 도움을 주었다. 이 숙고 한 후, 당신은 자신에 대한 답변이 도움이 발견했습니다 (또는에 대한 답변하면 모든 질문의)는, 당신이 당신의 upvotes을 사용하고 당신이 확실한 발견하면 답변을 받아 보시기 바랍니다. 답과 확인 표시 옆에있는 작은 위쪽을 가리키는 종 곡선을 클릭하면됩니다.
매크로

4
이것은 완전한 해답이나 다른 것은 아니지만 Chris Achen의 "쓰레기통 회귀 및 쓰레기통을 버리자"를 읽는 것이 가치가 있다고 생각합니다. (PDF 링크 : http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) 이는 베이지안과 빈번한 접근 방식에 동일하게 적용됩니다. 설정에 용어를 넣는 것만으로는 효과를 "제어"하기에 충분하지 않지만 슬프게도 많은 문헌에서 제어를 위해 통과하는 것입니다.
ely

9
" 컴퓨터 소프트웨어가 수학적으로 모든 변수를 동시에 제어하는 ​​방법 "을 묻습니다 . 또한 "공식과 관련이없는 답변이 필요합니다"라고 말합니다. 실제로 두 가지를 동시에 수행하는 것이 가능한지 모르겠습니다. 최소한 직관에 결함이 생길 위험이 없습니다.
Glen_b

2
나는이 질문이 더 많은 주목을받지 않았다는 것에 놀랐다. 사이트의 다른 질문은 여기에 제기 된 특정 문제를 정확하게 다루지 않는다는 OP의 의견에 동의합니다. @Jen, (두 번째) 질문에 대한 가장 짧은 대답은 여러 공변량이 실제로 설명 할 때 반복적으로가 아니라 부분적으로 나뉘어져 있다는 것입니다. 이제이 질문들에 대한보다 상세하고 직관적 인 답변이 어떻게 보일지 생각할 것입니다.
Jake Westfall

답변:


124

변수를 제어하는 ​​방법에는 여러 가지가 있습니다.

가장 쉬운 방법은 데이터를 계층화하여 비슷한 특성을 가진 하위 그룹을 갖도록하는 것입니다. 그런 다음 단일 "응답"을 얻기 위해 이러한 결과를 함께 모을 수있는 방법이 있습니다. 제어하고자하는 변수 수가 매우 적 으면 제대로 작동하지만 올바르게 발견 한대로 데이터를 더 작은 단위로 나누면 빠르게 떨어집니다.

보다 일반적인 방법은 회귀 모형에서 제어하려는 변수를 포함시키는 것입니다. 예를 들어 개념적으로 설명 할 수있는 회귀 모델이있는 경우 :

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

조바심에 대한 추정치는 다른 공변량 수준 내에서 조바심의 영향이 될 것입니다. 회귀를 통해 많은 데이터가없는 곳 (계층화 접근법의 문제)에서 본질적으로 부드럽게 할 수 있습니다. 조심스럽게.

다른 변수를 제어하는 ​​방법은 더 정교하지만 다른 사람이 "다른 변수를 제어 함"이라고 말하면 회귀 모형에 포함 된 것입니다.

자, 당신은 이것이 어떻게 진행되는지보기 위해 당신이 할 수있는 예제를 요청했습니다. 단계별로 안내해 드리겠습니다. R 사본 만 설치하면됩니다.

먼저 데이터가 필요합니다. 다음 코드 조각을 잘라내어 R에 붙여 넣습니다.이 부분은 제가 그 자리에서 만들어 낸 좋은 예이지만 프로세스를 보여줍니다.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

그게 당신의 데이터입니다. 우리는 이미 결과, 노출 및 공변량 사이의 관계를 알고 있습니다. 이것이 많은 시뮬레이션 연구의 요점입니다 (이것은 매우 기본적인 예입니다. 아는 구조로 시작하여 분석법이 정답을 얻으십시오.

이제 회귀 모델로 넘어갑니다. 다음을 입력하십시오.

lm(outcome~exposure)

가로 채기 = 2.0, 노출 = 0.6766을 얻었습니까? 또는 데이터에 임의의 변형이있을 수 있습니다. 좋습니다-이 답변은 잘못되었습니다. 우리는 그것이 잘못되었다는 것을 알고 있습니다. 왜 잘못 되었나요? 결과와 노출에 영향을 미치는 변수를 통제하지 못했습니다. 이진 변수이므로 성별, 흡연자 / 비 흡연자 등 원하는대로 만드십시오.

이제이 모델을 실행하십시오 :

lm(outcome~exposure+covariate)

이번에는 절편 계수 = 2.00, 노출 = 0.50 및 공변량 0.25를 얻어야합니다. 우리가 알고 있듯이 이것은 정답입니다. 다른 변수를 제어했습니다.

이제 필요한 모든 변수를 처리했는지 알지 못하면 어떻게됩니까? 이것을 잔류 혼동 이라고하며 , 대부분의 관측 연구에서 우리가 불완전하게 통제하고 있으며, 정답은 정확하지 않다는 점에 대한 우려입니다. 더 도움이 되나요?


감사. 누구나 온라인 또는 교과서에서 간단한 예제 회귀 기반 예제를 알고 있습니까?
JackOfAll

@JackOfAll 수백 가지의 예제가있을 수 있습니다. 어떤 분야 / 질문에 관심이 있고 어떤 소프트웨어 패키지를 사용할 수 있습니까?
Fomite

글쎄요, 어떤 학문적 / 고려 된 사례라도 저에게는 괜찮습니다. 다중 변수 회귀를 수행 할 수있는 Excel이 있습니까? 아니면 이것을하기 위해 R과 같은 것이 필요합니까?
JackOfAll

10
+1 내가 사용하게 될 부정성없이 이것에 답하십시오. :) 전형적인 말로, 다른 변수에 대한 제어는 저자가 변수를 회귀에 넣었다는 것을 의미합니다. 변수가 상대적으로 독립적이며 전체 모델 구조 (일반적으로 일종의 GLM)가 잘 확립되어 있음을 검증하지 않았다면 이것이 의미한다고 생각하는 것은 아닙니다. 요컨대, 누군가 가이 문구를 사용할 때마다 통계에 대한 단서가 거의 없으며 제공 한 계층화 방법을 사용하여 결과를 다시 계산해야한다는 견해가 있습니다.
반복자

7
@SibbsGambling 원래 질문자 간단한 예제를 요청 했음을 알 수 있습니다.
Fomite

56
  1. 소개

    @EpiGrad의 답변 (+1)이 마음에 들지만 다른 관점을 취하겠습니다. 다음에서는이 PDF 문서를 참조합니다. "다중 회귀 분석 : 다중 회귀 분석 의"부분 분할 "해석"(83 페이지) 섹션이있는 "다중 회귀 분석 : 추정" . 불행히도, 나는이 장의 저자가 누구인지 전혀 모른다. 나는 이것을 REGCHAPTER라고 언급 할 것이다. 비슷한 설명은 Kohler / Kreuter (2009) "Stata를 사용한 데이터 분석" , 8.2.3 장 " '통제 중'이란 무엇입니까?"에서 찾을 수 있습니다.

    이 접근법을 설명하기 위해 @EpiGrad의 예제를 사용할 것입니다. R 코드와 결과는 부록에서 찾을 수 있습니다.

    또한 "다른 변수에 대한 제어"는 설명 변수가 적당히 상관 된 경우에만 의미가 있습니다 (공선 성). 상기 예에서, 사이의 제품 - 순간의 상관 관계 exposure와는 covariate0.50, 즉,

    > cor(covariate, exposure)
    [1] 0.5036915
    
  2. 잔차

    회귀 분석의 잔차 개념에 대한 기본적인 이해가 있다고 가정합니다. 다음은 Wikipedia의 설명입니다 . "일부 데이터에서 회귀를 실행하면 적합 함수에서 종속 변수 관측치의 편차가 잔차입니다."

  3. '통제권'이란 무엇입니까?

    변수에 대한 제어 covariate의 효과 (회귀 무게) exposure에 대한 outcome설명 될 수있다 (나는 정확한 설명은 위에서 언급 한 텍스트를 참조하십시오, 실수이고 대부분의 인덱스 모든 모자를 건너 뛸) 다음과 같습니다 :

    β1=residi1yiresidi12

    residi1 우리가 회귀 할 때 잔류 물은 exposurecovariate, 즉,

    exposure=const.+βcovariatecovariate+resid

    은 "잔차 [...]의 일부 비상 관적이다 . [...] 따라서, 의 샘플 관계 측정 및 후 있었다 부분적으로 표시됨 "(제 84 장). "부분적으로"는 "제어 대상"을 의미합니다.xi1xi2β^1yx1x2

    @EpiGrad의 예제 데이터를 사용하여이 아이디어를 보여줄 것입니다. 먼저에 회귀 exposure합니다 covariate. 잔차에만 관심이 lmEC.resid있으므로 출력을 생략합니다.

    summary(lmEC <- lm(exposure ~ covariate))
    lmEC.resid   <- residuals(lmEC)
    

    다음 단계는 outcome이러한 잔차 ( lmEC.resid) 를 회귀 하는 것입니다 .

    [output omitted]
    
    Coefficients:
                Estimate Std. Error t value Pr(>|t|)    
    (Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
    lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
    ---
    Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 
    
    [output omitted]
    

    시피위한 회귀 중량 lmEC.resid(열 추정치 참조 이 단순 회귀)을위한 회귀 중량 동일하다 또한, (EpiGrad의 대답 또는 R 출력 @ 참조 이하).βlmEC.resid=0.50covariate0.50

부록

R 코드

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

R 출력

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0***0.001**0.01*0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
> 

5
이 장은 Baby Wooldridge처럼 보입니다 (일명 소개 계량 경제학 : Jeffrey M. Wooldridge의 현대적인 접근 방식)
Dimitriy V. Masterov

2
나는 무언가를 오해하고 있지만 공변량에 대한 결과를 회귀하고 노출 잔차에 대한 결과 잔차를 회귀 해야하는 이유는 무엇입니까?
hlinee

@ hlinee이 맞습니다. 왜 그렇게하지 않는지 설명 할 수 있습니까?
Parseltongue

41

물론 일부 수학이 관여하지만 그다지 많지 않습니다. 유클리드가 그것을 잘 이해했을 것입니다. 실제로 알아야 할 것은 벡터 를 추가 하고 크기를 조정 하는 방법 입니다. 요즘에는 "선형 대수학"이라는 이름이 사용되지만 두 차원으로 만 시각화하면됩니다. 이를 통해 선형 대수의 행렬 기계를 피하고 개념에 집중할 수 있습니다.


기하학적 이야기

첫 번째 그림에서 는 과 입니다. ( 숫자 인자 스케일링 된 벡터 ; 그리스 문자 α, (베타) 및 (감마)는 이러한 수치 스케일 팩터를 나타냅니다.)yy1αx1x1ααβγ

그림 1

이 그림은 실제로 원래 벡터 (실선으로 표시) 및 . 의 최소 자승 "일치" 의 여러 복용에 의해 발견 에에 가장 가까운 그림의 평면에있다. 그것이 를 찾은 방법입니다. 멀리이 매치 촬영 좌측 의 잔여 의 에 대하여 . 점 " "는 어떤 벡터가 "일치", "탈취"또는 "제어"되었는지를 일관되게 나타냅니다.x1yyx1x1yαyy1yx1

다른 벡터를 과 일치시킬 수 있습니다 . 여기 픽처 일치 하였다 복수로 표현 의 플러스 잔존 :x1x2x1βx1x21

그림 2

( 과 포함하는 평면이 과 포함하는 평면과 다를 수 는 없습니다 .이 두 숫자는 서로 독립적으로 얻습니다. 공통적으로 보장되는 것은 벡터 .) 의 벡터 를 과 일치시킬 수 있습니다 .x1x2x1yx1x3,x4,x1

이제 두 잔차 과 포함 된 평면을 고려하십시오 . 이 (가) 을 (를) 일치시키는 역할을 하기 때문에 이 (가) 수평 으로 만들도록 이전 그림의 방향을 지정한 것처럼 수평 으로 만들도록 그림 방향을 지정합니다 .y1x21x21x1x21

그림 3

세 가지 경우 모두 에서 잔차가 경기와 직각을 이룹니다. 그렇지 않은 경우에는 , 또는 더 가깝게 일치하도록 조정할 수 있습니다 .yx2y1

핵심 아이디어는 마지막 그림에 도달 할 때 관련 벡터 ( 및 )가 구성 상 이미 직각이라는 것 입니다. 따라서 대한 후속 조정 에는 모두 수직 인 변경 사항이 포함됩니다 . 결과적으로, 새로운 일치 및 새로운 잔차 는 직각을 유지 합니다.x21y1x1y1x1γx21y12x1

(다른 벡터가 포함 된 경우 동일한 방법으로 잔차 를 에 일치시키는 방식으로 진행합니다 .)x31,x41,x2

한 가지 더 중요한 점이 있습니다. 이 구조는 과 수직 인 잔차 를 생성했습니다 . 이것은 가 및 의해 확장 된 공간 (3 차원 유클리드 영역) 의 잔차 이기도 함을 의미합니다 . 즉, 잔차를 취하는이 2 단계 프로세스는 가장 가까운 평면 의 위치를 ​​찾아야합니다 . 이 기하학적 설명에서 과 중 어느 것이 먼저 중요하지 않기 때문에y12x1x2y12x1,x2,yx1,x2yx1x2프로세스가 다른 순서로 수행 된 경우 로 시작 일치 프로그램으로 다음 사용 , 결과는 동일했을 것이다.x2x1

(추가 벡터가있는 경우 각 벡터가 차례가 될 때까지이 "매칭 기 제거"프로세스를 계속합니다. 모든 경우에 작업은 여기에 표시된 것과 동일하며 항상 비행기 .)


다중 회귀에 적용

열은 숫자 열이 기하 벡터와 똑같이 작용하기 때문에 직접 다중 회귀 해석 을합니다. 그것들은 우리가 벡터에 요구하는 모든 속성 (공식적으로)을 가지고 있으므로 완벽한 수학적 정확성과 엄격함과 동일한 방식으로 생각하고 조작 할 수 있습니다 . 변수 , 및 하는 다중 회귀 설정 에서 목표는 가장 가까운 및 ( ) 의 조합을 찾는 것입니다 . 기하학적으로, 모두 같은 조합 및 ( X1X2,YX1X2YX1X2)는 공간의 포인트에 해당 합니다. 다중 회귀 계수를 맞추는 것은 투영 ( "일치하는") 벡터에 지나지 않습니다. 기하학적 인 주장은X1,X2,

  1. 매칭은 순차적으로 수행 될 수 있고

  2. 일치하는 순서는 중요하지 않습니다.

다른 모든 벡터를 잔차로 대체하여 매처를 "취득"하는 프로세스를 매처에 대한 "제어"라고합니다. 그림에서 알 수 있듯이, 매 처가 제어되면 모든 후속 계산에서 해당 매처에 수직 인 조정을 수행합니다. 원하는 경우 "제어"는 "다른 모든 변수에서 일치하는 사람의 기여 / 영향 / 효과 / 연관에 대한 설명 (최소한 의미에서)"으로 생각할 수 있습니다.


참고 문헌

https://stats.stackexchange.com/a/46508 의 답변에서 데이터 및 작업 코드 로이 모든 작업을 볼 수 있습니다 . 이 대답은 비행기 사진보다 산술을 선호하는 사람들에게 더 매력적일 수 있습니다. (매치 러가 순차적으로 입력 될 때 계수를 조정하는 산술은 간단합니다.) 일치 언어는 Fred Mosteller와 John Tukey에서 온 것입니다.


1
이 선들을 따라 더 많은 그림은 Wicken의 저서 "다변량 통계의 기하학"(1994)에서 찾을 수 있습니다. 예에는 몇 가지 예가 있습니다 .
caracal

2
@Caracal 참고해 주셔서 감사합니다. 나는 원래 당신의 답변에있는 다이어그램과 같은 다이어그램을 사용하여 답변을 구상했습니다. 여기서 나의 답변을 훌륭하게 보완합니다. 나는 인수가 평면에서 가장 간단한 벡터 연산으로 완전히 줄어들 수 있다는 것을 알게되어 기뻤습니다. 사이에 0이 아닌 상수 벡터를 포함하여 처리되기 때문에 데이터의 예비 센터링이 필요하지 않다는 것도 지적 할 가치가 있습니다 . xi
whuber

1
대수보다 직관력이 뛰어 나기 때문에이 답변을 좋아합니다. BTW,이 사람의 YouTube 채널 을 확인했는지 확실하지 않습니다 . 나는 그것을 많이 즐겼다
Haitao Du

3

"다른 변수에 대한 제어"수단으로서 공변량 조정에 대한 훌륭한 논의가 있습니다 . 그러나 나는 그것이 이야기의 일부일 뿐이라고 생각합니다. 실제로, 여러 가지 혼란스러운 변수의 영향을 해결하기위한 많은 (기타) 설계, 모델 및 기계 학습 기반 전략이 있습니다. 이것은 가장 중요한 (비 조정) 주제에 대한 간단한 설문 조사입니다. 조정은 다른 변수에 대한 "제어"의 가장 널리 사용되는 수단이지만, 좋은 통계학자는 다른 프로세스와 절차의 맥락에서 그것이 무엇을하고하지 않는지를 이해해야한다고 생각합니다.

어울리는:

매칭은 관측이 가장 중요한 측면에서 유사한 두 세트로 그룹화되는 쌍으로 된 분석을 설계하는 방법입니다. 예를 들어, 교육, 소득, 전문직 재직 기간, 나이, 결혼 여부 등을 준수하지만 조바심에 대해서는 불일치하는 두 명의 개인을 샘플링 할 수 있습니다. 이진 노출의 경우 간단한 paired-t 테스트 는 모든 일치하는 기능을 제어 하는 BMI의 평균 차이를 테스트하기에 충분 합니다. 연속 노출을 모델링하는 경우 유사한 측정은 차이의 원점을 통한 회귀 모델이됩니다. Carlin 2005 참조

E[Y1Y2]=β0(X1X2)

가중치

가중은 연속 또는 이진 예측 변수 와 결과 사이의 연관성을 모델링하여 노출 수준의 분포가 그룹간에 균질하도록하는 또 다른 일 변량 분석입니다 . 이러한 결과는 일반적으로 두 국가 또는 여러 병원의 연령 표준화 사망률 과 같은 표준화 된 것으로보고됩니다 . 간접 표준화 는 참조 모집단의 지층 분포로 예상되는 "통제"또는 "건강한"모집단에서 얻은 비율에서 예상 결과 분포를 계산합니다. 직접 표준화 는 다른 방식으로 진행됩니다. 이러한 방법은 일반적으로 이진 결과에 사용됩니다. 성향 점수 가중XY이진 노출의 가능성을 설명하고 그러한 변수에 대한 통제. 노출에 대한 직접 표준화와 유사합니다. Rothman, Modern Epidemiology 3 판을 참조하십시오.

무작위 화와 유사 분포

그것은 미묘한 점이지만 실제로 사람들을 특정 실험 조건으로 무작위 화 할 수 있다면 다른 변수의 영향이 완화됩니다. 다른 변수가 무엇인지 알 필요조차 없기 때문에 훨씬 더 강한 조건입니다. 그런 의미에서, 당신은 그들의 영향력을 "통제"했습니다. 이것은 관측 연구에서는 가능하지 않지만 성향 점수 방법 은 노출에 대한 간단한 확률 적 척도를 만들어 참가자를 가중, 조정 또는 일치시켜 준 무작위 연구와 동일한 방식으로 분석 할 수 있습니다. . Rosenbaum, Rubin 1983 참조 .

미세 시뮬레이션

무작위 연구에서 얻은 데이터를 시뮬레이션하는 또 다른 방법은 미세 시뮬레이션을 수행하는 것입니다. 여기서는 실제로 모델과 같은 더 크고 복잡한 기계 학습에 관심을 돌릴 수 있습니다. Judea Pearl이 제가 좋아하는 용어는 " Oracle Models "입니다. 수많은 기능과 결과를 예측하고 예측할 수있는 복잡한 네트워크입니다. 이러한 oracle 모델의 정보를 "폴딩"하여 무작위 코호트를 대표하는 사람들의 균형 잡힌 코호트에서 결과를 시뮬레이션하고 "제어 변수"분포로 균형을 잡고 간단한 t- 검정 루틴을 사용하여 가능한 차이의 크기와 정밀도. Rutter, Zaslavsky 및 Feuer 2012 참조

회귀 모델에서 일치, 가중 및 공변량 조정은 모두 동일한 연관성을 추정하므로 다른 변수에 대한 "제어"방법이라고 주장 할 수 있습니다 .


내 머리 위로
JackOfAll

그것은 질문에 대한 답변이며, 지금까지 좋은 토론은 다변량 모델의 ​​조정을 선호하는 다소 일방적입니다.
AdamO

다변량 모델, 매칭 등은 모두 유효한 기술이지만, 연구원은 일반적으로 한 기술을 다른 기술보다 언제 사용합니까?
mnmn

-1

소프트웨어는 문자 그대로 변수를 제어하지 않습니다. 회귀 의 행렬 표기법에 익숙한 경우 최소 제곱 해는 입니다. 따라서 소프트웨어는 계산 선형 대 수법을 사용하여이 식을 수치 적으로 평가합니다.Y=Xβ+εb=(XTX)1XTY


4
이 정보를 제공해 주셔서 감사합니다. 질문에 제시된 요구 사항을 해결하기 위해 두 번째 표현에서 소수의 의미와 두 번째 표현의 의미를 알아야합니다. 기울기는 다른 축의 변경에 대한 한 축의 변경이라는 것을 이해합니다. 표기법은 원래 비표 기적 어휘를 사용하여 작성되고 학습 된 특수 언어입니다. 언어를 모르는 사람들에게 다가 가려면 다른 단어를 사용해야하며, 여러 분야에 걸쳐 지식을 가져 오는 지속적인 도전입니다.
Jen

2
다변량 회귀 분석에 들어가면 선형 대수없이 진행할 방법이 없습니다. Wiki 링크에는 변수에 대한 모든 설명이 있습니다. 여기서 는 행렬 의 전치를 나타 냅니다. 디자인 매트릭스 구성 방법을 배워야합니다. 여기에 설명하기에는 너무 깁니다. 내가 게시 한 Wiki를 읽으십시오. 많은 정보가 있습니다. 선형 대수학을 이해하지 않으면 의미있는 방식으로 질문에 대답 할 수 없습니다. XX
Aksakal
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.