통계적 독립성은 인과 관계 부족을 의미합니까?


40

두 개의 랜덤 변수 A와 B는 통계적으로 독립적입니다. 이는 프로세스의 DAG에서 및 물론 입니다. 그러나 그것은 B에서 A 로의 정문이 없다는 것을 의미합니까?P ( A | B ) = P ( A )(AB)P(A|B)=P(A)

따라서 합니다. 그렇다면, 통계적 독립성은 자동적으로 인과 관계 부족을 의미합니까?P(A|do(B))=P(A)

답변:


37

그렇다면, 통계적 독립성은 자동적으로 인과 관계 부족을 의미합니까?

아니요, 여기에는 다변량 법선이있는 간단한 카운터 예제가 있습니다.

set.seed(100)
n <- 1e6
a <- 0.2
b <- 0.1
c <- 0.5
z <- rnorm(n)
x <- a*z + sqrt(1-a^2)*rnorm(n)
y <- b*x - c*z + sqrt(1- b^2 - c^2 +2*a*b*c)*rnorm(n)
cor(x, y)

해당 그래프로

여기에 이미지 설명을 입력하십시오

여기서 우리는 와 가 한계 적으로 독립적이라는 것을 알 수 있습니다 (다변량 정상의 경우, 0의 상관 관계는 독립성을 의미합니다). 를 통한 백도어 경로 는 에서 까지의 직접 경로 , 즉 정확하게 취소 하기 때문에 발생 합니다 . 따라서 입니다. 그러나 는 직접 유발 하며 이며 과 다릅니다 .xyzxycov(x,y)=bac=0.10.1=0E[Y|X=x]=E[Y]=0xyE[Y|do(X=x)]=bxE[Y]=0

협회, 중재 및 반상

나는 협회, 중재 및 반 상황에 대해 여기에서 명확하게 설명하는 것이 중요하다고 생각합니다.

인과 관계 모델은 시스템의 행동에 대한 진술을 수반한다 : (i) 수동적 관찰, (ii) 개입, (iii) 반 사실. 한 수준의 독립성이 반드시 다른 수준으로 해석되는 것은 아닙니다.

위의 예에서 알 수 있듯이, 와 사이에 연관성을 가질 수 없으며 , 즉 이고 조작 하면 의 분포 , 즉 가 변경되는 경우가 여전히 있습니다 .XYP(Y|X)=P(Y)XYP(Y|do(x))P(Y)

이제 한 걸음 더 나아갈 수 있습니다. 대한 개입 이 의 모집단 분포를 변경하지 않는 인과 관계 모델을 가질 수 있지만, 이것이 반 의도적 인과 관계가 없다는 의미는 아닙니다! 즉, 이지만 모든 개인에 대해 를 변경하면 결과 가 달라졌을 것 입니다. 이것은 정확하게 user20160과 여기의 이전 답변에서 설명한 경우 입니다.Y P ( Y | d o ( x ) ) = P ( Y ) Y XXYP(Y|do(x))=P(Y)YX

이 세 가지 수준 은 각각에 대한 쿼리에 응답하는 데 필요한 정보 측면에서 인과 추론 작업계층 구조를 만듭니다 .


1
고마워요. 바로 내가 찾던 것입니다. 따라서 통계적 독립성이 두 변수 사이의 D 분리를 의미한다고 생각하여 혼란이 발생했다고 생각합니다. 그러나 그것은 다른 방법으로 만 작동합니다. 맞습니까?
user1834069

@ user1834069 맞습니다. d- 분리는 독립성을 의미하지만 독립성은 d- 분리를 의미하지 않습니다. 이 두 가지는 분포가 그래프에 충실하지 않은 예 이며 매개 변수 선택에 따라 달라집니다. 매개 변수를 변경하면 종속성이 다시 나타납니다.
카를로스

좋은 예입니다. 내가 정확하게 기억한다면, 이것은 관측 가능한 데이터로부터 마이닝 인과 데이터 마이닝에 대한 테스트 불가능한 가정 중 하나입니다. SEM의 선형 모델의 경우, Pearl의 책은 또한 불충실 한 분포를 초래하는 계수 세트가 측정 값 0이라고 언급합니다.
Vimal

37

두 개의 스위치로 제어되는 전구가 있다고 가정하십시오. 하자 및 0 또는 1 일 수하자 스위치의 상태를 나타내며 중 0 (OFF) 또는 1 (ON) 될 수 lighbulb의 상태를 나타내고있다. 우리는 두 스위치가 다른 상태에있을 때 lighbulb가 켜지고 같은 상태에있을 때 꺼 지도록 회로를 설정했습니다. 따라서 회로는 배타적 또는 기능을 구현합니다. .S1S2LL=XOR(S1,S2)

구성에 의해 은 및 와 인과 관계가 있습니다. 시스템 구성이 주어지면 스위치 하나를 뒤집 으면 전구의 상태가 바뀝니다.S 1 S 2LS1S2

이제 두 스위치가 Bernoulli 프로세스에 따라 독립적으로 작동한다고 가정하면 상태 1에있을 확률은 0.5입니다. 따라서 이고 과 는 독립적입니다. 이 경우 회로 설계에서 이고, 또한 입니다. 즉, 하나의 스위치 상태를 알면 전구가 켜져 있는지 꺼져 있는지에 대한 정보가 없습니다. 그래서 및 독립적 등이다 과 .S (1) S (2) P ( L = 1 ) = 0.5 P ( L | S 1 ) = P ( L | S 2 ) = P ( L ) L S 1 L S 2p(S1=1)=p(S2=1)=0.5S1S2P(L=1)=0.5p(LS1)=p(LS2)=p(L)LS1LS2

그러나 위와 같이 은 및 와 인과 관계가 있습니다. 따라서 통계적 독립성은 인과 관계가 없음을 의미하지 않습니다.S 1 S 2LS1S2


2
stats.stackexchange.com/questions/26300/… 여기에서 설명하는 것처럼 사용자는이 예제에 의존성이없는 인과 관계가 있다고 생각합니다 . 그러나이 예제에서는 이므로 OP의 질문에 직접 대답하지 않습니다. P(L|do(S1))=P(L)
카를로스

사용자, 질문하십시오 : 어떻습니까? 즉, 과 동일 합니까? 나는 개인적으로 어떤을 위해, 생각 , , 하지만 입니다. 내가 맞아? (실제로 관련이 없지만 내 이해를 다시 확인하고 싶습니다)p(L|S1,S2)p(L)(vL,v1,v2){0,1}3p(L=vL|S1=v1)=p(L=vL|S2=v2)=0.5 p(L=vL|S1=v1,S2=v2){0,1}
caveman

0

귀하의 질문에 따라 다음과 같이 생각할 수 있습니다.

P(AB)=P(A)P(B) 와 가 독립적 일 때 . 마찬가지로 암시 할 수 있습니다AB

P(AB)/P(A)=P(B|A)=P(B) 입니다. 또한,

P(AB)/P(B)=P(A|B)=P(A) 입니다.

이와 관련하여 독립성은 인과 관계가 부족하다는 것을 의미합니다. 그러나 의존성이 반드시 인과 관계를 암시하는 것은 아닙니다.


2
가 의미 하는지 묻습니다 . (Pearl Do-calculus 표기법 사용)P ( A | d o ( B ) ) = P ( A )P(AB)=P(A)P(B)P(A|do(B))=P(A)
user1834069
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.