관절 분포가 가우스가 아닌 한 쌍의 가우스 랜덤 변수를 가질 수 있습니까?

누군가가 면접에서이 질문을하고 공동 분포가 항상 가우시안이라고 답했습니다. 나는 항상 평균과 분산 및 공분산으로 이변 량 가우시안을 작성할 수 있다고 생각했습니다. 두 가우시안의 공동 확률이 가우시안이 아닌 경우가 있는지 궁금합니다.

— 마크 살렌
소스

Wikipedia의 또 다른 예 . 물론 변수가 독립적이며 한계 가우시안이면 공동 가우시안입니다.

예 : wu.ece.ufl.edu/books/math/probability/jointlygaussian.pdf

— Stéphane Laurent

답변:

138

이변 량 정규 분포는 예외 가 아니라 규칙입니다!

정규 한계를 갖는 "거의 모든"관절 분포가 이변 량 정규 분포 가 아님 을 인식하는 것이 중요합니다 . 즉, 이변 량 법선이 아닌 법선 한계 값을 갖는 관절 분포가 어떻게 든 "병리학 적"이라는 일반적인 관점은 약간 잘못된 것입니다.

다변량 법선은 선형 변환에서의 안정성으로 인해 매우 중요하므로 응용 분야에서 많은 관심을 받고 있습니다.

예

몇 가지 예제로 시작하는 것이 좋습니다. 아래 그림은 여섯 개 이변 량 분포의 히트 맵을 포함 하는 모든 표준 정규 marginals이있는이. 맨 위 줄의 왼쪽과 가운데는 이변 량 법선이고 나머지는 그렇지 않습니다 (명백해야 함). 아래에 더 자세히 설명되어 있습니다.

표준 정규 한계 값을 갖는 이변 량 분포의 예.

copulas의 베어 본

의존성의 속성은 종종 copulas를 사용하여 효율적으로 분석됩니다 . 이변 접합부는 단위 제곱에 대한 확률 분포 단지 공상 이름 로 균일 marginals. $[0,1]^2$

가 이변 량의 copula 라고 가정하십시오 . 그런 다음 위에서 바로 , 및 입니다. $C(u,v)$ $C(u,v) \geq 0$ $C(u,1) = u$ $C(1,v) = v$

이변 량 copula의 간단한 변형으로 미리 지정된 한계 값을 갖는 유클리드 평면에 이변 량 랜덤 변수를 생성 할 수 있습니다 . 하자 및 랜덤 변수 쌍에 대한 한계를 정하는 분포 . 그런 다음 가 이변 량 copula이면 는 한계 값 및 가있는 이변 량 분포 함수입니다 . 이 마지막 사실을 보려면 대해서도 같은 주장이 적용됩니다 . $F_1$ $F_2$ $(X,Y)$ $C(u,v)$

F (x, y) = C (F_{1} (x), F_{2} (y))

$F(x,y) = C(F_1(x), F_2(y))$

F_{1}

$F_1$

F_{2}

$F_2$

P (X \leq x) = P (X \leq x, Y < \infty) = C (F_{1} (x), F_{2} (\infty)) = C (F_{1} (x), 1) = F_{1} (x) .

$\renewcommand{\Pr}{\mathbb P} \Pr(X \leq x) = \Pr(X \leq x, Y < \infty) = C(F_1(x), F_2(\infty)) = C(F_1(x),1) = F_1(x) \>.$

F_{2}

$F_2$

연속 및 경우 Sklar 정리 는 대화를 암시하는 고유성을 암시합니다. 즉, 연속 마진이 , 인 이변 량 분포 가 주어지면 해당하는 copula는 고유합니다 (적절한 범위 공간에서). $F_1$ $F_2$ $F(x,y)$ $F_1$ $F_2$

이변 량 법선은 예외적입니다

Sklar의 정리는 (실질적으로) 이변 량 정규 분포를 생성하는 하나의 copula 만 있다고 말합니다. 이것은, 적절하게 상기라는 가우시안 접합부 의 밀도가 여기서 분자는 및 에서 평가 된 상관 관계 갖는 이변 량 정규 분포입니다. . $[0,1]^2$

c_{ρ} (u, v) := \frac{\partial^{2}}{\partial u \partial v} C_{ρ} (u, v) = \frac{φ_{2, ρ} (Φ^{- 1} (u), Φ^{- 1} (v))}{φ (Φ^{- 1} (u)) φ (Φ^{- 1} (v))},

$c_\rho(u,v) := \frac{\partial^2}{\partial u \partial v} C_\rho(u,v) = \frac{\varphi_{2,\rho}(\Phi^{-1}(u),\Phi^{-1}(v))}{\varphi(\Phi^{-1}(u)) \varphi(\Phi^{-1}(v))} \>,$

ρ

$\rho$

Φ^{- 1} (u)

$\Phi^{-1}(u)$

Φ^{- 1} (v)

$\Phi^{-1}(v)$

그러나, 거기에 많은 다른 copulas의은과 모든 그들이다 정상 marginals와 이변 량 분포를 줄 것이다 없습니다 이전 섹션에 설명 된 변환을 사용하여 이변 량 정상을.

예제에 대한 세부 사항

참고한다면 그 오전이며 , 임의의 밀도와 접합부 의 변화 하에서 표준 정규 marginals와 해당 이변 밀도 는 $C(u,v)$ $c(u,v)$ $F(x,y) = C(\Phi(x),\Phi(y))$

f (x, y) = φ (x) φ (y) c (Φ (x), Φ (y)) .

$f(x,y) = \varphi(x) \varphi(y) c(\Phi(x), \Phi(y)) \> .$

위의 방정식에서 가우스 copula를 적용하여 2 변량 정규 밀도를 회복합니다. 그러나 다른 선택에 대해서는 그렇지 않습니다. $c(u,v)$

그림의 예는 다음과 같이 구성되었습니다 (한 번에 한 열씩 각 행을 이동).

독립 성분을 가진 이변 량 법선.
이변 량 법선 . $\rho = -0.4$
이 Dilip Sarwate의 답변 에 주어진 예 . 밀도 의 copula 에 의해 쉽게 유도되는 것을 볼 수 있습니다. . $C(u,v)$ $c(u,v) = 2 (\mathbf 1_{(0 \leq u \leq 1/2, 0 \leq v \leq 1/2)} + \mathbf 1_{(1/2 < u \leq 1, 1/2 < v \leq 1)})$
매개 변수 Frank copula 에서 생성됩니다 . $\theta = 2$
매개 변수 Clayton copula 에서 생성됩니다 . $\theta = 1$
매개 변수 Clayton copula의 비대칭 수정으로 생성됩니다 . $\theta = 3$

— 추기경
소스

이변 량 정규 밀도가 예외적 인 경우는 +1입니다!

— Dilip Sarwate 2016 년

어쩌면 내가 누락 된 것이지만 에서 시작하면 공동 분포 가 copula 구성과 상관없이 자동으로 정의되며 CDF에 대한 가우시안 copula 구성, 우리는 비 가우시안 CDF 얻는 것이 사실 이지만,이 함수는 일반적으로 우리가 시작한 임의의 변수 의 CDF가 아닙니다. ?

X_{1}, X_{2} \sim N (0, 1)

$X_1, X_2\sim\mathcal N(0,1)$

(X_{1}, X_{2})

$(X_1, X_2)$

F (x_{1}, x_{2})

$F(x_1,x_2)$

X_{,} X_{2}

$X_, X_2$

— RandomGuy

오른쪽 하단 패널에서와 같이 시뮬레이션하는 방법의 예 : library(copula) kcf <- khoudrajiCopula(copula2 = claytonCopula(6), shapes = fixParam(c(.4, 1), c(FALSE, TRUE))) # force normal margins evil <- mvdc(kcf, c("norm", "norm"), list(list(mean = 0, sd =1), list(mean = 0, sd = 1))) contour(evil, dMvdc, xlim = c(-3, 3), ylim=c(-3, 3))

— 1 / 2-pass

@RandomGuy, 당신은 이라는 추정되지 않은 가정을 놓치고 있습니다. 그들이 독립적이라고 가정한다면, 그렇습니다. 당신은 이미 공동 분포를 알고 있습니다. 독립성 가정이 없으면 한계 분포를 아는 것은 공동 분포를 지정하기에 충분한 정보를 제공하지 않습니다.

X_{1}, X_{2} \sim i n d e p e n d e n t N (0, 1)

$X_1, X_2 \sim independent N(0, 1)$

— MentatOfDune

다변량 법선 벡터의 각 요소는 그 자체로 정규 분포되어 있으며 그 평균과 분산을 추론 할 수 있습니다. 그러나 두 개의 구 아시안 랜덤 변수가 함께 정규 분포되어 있다는 것은 사실이 아닙니다. 예를 들면 다음과 같습니다.

편집 : 점 질량 인 임의 변수가 인 정규 분포 변수로 생각할 수 있다는 의견에 동의하여 예제를 변경하고 있습니다. $\sigma^2=0$

하자 및하자 A는 랜덤 변수. 즉, 각각 확률이 입니다. $X \sim N(0,1)$ $Y = X \cdot (2B-1)$ $B$ ${\rm Bernoulli}(1/2)$ $Y = \pm X$ $1/2$

먼저 에 표준 정규 분포가 있음을 보여줍니다 . $Y$ 으로 총 확률의 법칙 ,

P (Y \leq y) = \frac{1}{2} (P (Y \leq y | B = 1) + P (Y \leq y | B = 0))

$P(Y \leq y) = \frac{1}{2} \Big( P(Y \leq y | B = 1) + P(Y \leq y | B = 0) \Big)$

다음,

P (Y \leq y | B = 0) = P (- X \leq y) = 1 - P (X \leq - y) = 1 - Φ (- y) = Φ (y)

$P(Y \leq y | B = 0) = P(-X \leq y) = 1-P(X \leq -y) = 1-\Phi(-y) = \Phi(y)$

여기서 는 표준 일반 CDF 입니다. 비슷하게, $\Phi$

P (Y \leq y | B = 1) = P (X \leq y) = Φ (y)

$P(Y \leq y | B = 1) = P(X \leq y) = \Phi(y)$

따라서,

P (Y \leq y) = \frac{1}{2} (Φ (y) + Φ (y)) = Φ (y)

$P(Y \leq y) = \frac{1}{2} \Big( \Phi(y) + \Phi(y) \Big) = \Phi(y)$

따라서 의 CDF 는 이므로 입니다. $Y$ $\Phi(\cdot)$ $Y \sim N(0,1)$

이제 우리는 가 공동으로 정규 분포되지 않음 을 보여줍니다 . $X,Y$ @cardinal이 지적했듯이, 다변량 법선의 한 특성은 요소의 모든 선형 조합이 정규 분포한다는 것입니다. 에는이 속성이 없습니다. $X,Y$

Y + X = {\begin{cases} 2 X & if B = 1 \\ 0 & if B = 0. \end{cases}

$Y+X = \begin{cases} 2X &\mbox{if } B = 1 \\ 0 & \mbox{if } B = 0. \end{cases}$

따라서 는 랜덤 변수와 0의 점 질량 의 혼합물 이므로 정규 분포를 사용할 수 없습니다. $Y+X$ $50/50$ $N(0,4)$

— 매크로
소스

이 답변에 동의하지 않습니다. 에서 의 축 퇴점 질량 은 일반적으로 분산이 0 인 축퇴 가우시안 랜덤 변수로 간주됩니다. 또한 는 약간 연속적이지만 공동으로 연속적이지는 않습니다. 한계 가우시안이지만 공동 가우시안이 아닌 두 개의 연속 연속 랜덤 변수 의 예는 예를 들어이 답변 의 후반을 참조하십시오 .

1

$1$

μ

$\mu$

(X, - X)

$(X, -X)$

— Dilip Sarwate 2018 년

@ DilipSarwate, 문제는 정규 분포이지만 두 분포 변수가 다변량 정규 분포가 아닌 두 변수의 예를 제시하는 것입니다. 이것은 예입니다. 정규 분포의 대부분의 표준 정의 (예 : wikipedia en.wikipedia.org/wiki/Normal_distribution )는 분산이 엄격하게 양수 여야하므로 정규 분포 패밀리의 일부로 점 질량을 포함하지 않습니다.

— Macro

다변량 가우시안의 표준 특성은 모든 대해 가 가우시안 인 경우에만 이 다변량 가우시안 입니다. @Dilip이 암시하는 것처럼, 이것이 귀하의 예에 해당되는지 고려해 볼 가치가 있습니다.

X \in R^{n}

$X \in \mathbb R^{n}$

a^{T} X

$a^T X$

a \in R^{n}

$a \in \mathbb R^n$

— 추기경

당신은 분명히 합리성에 대한 호소를 좋아하지 않기 때문에 ;-), 권위에 대한 호소는 어떻습니까? (이것이 분명하지 않은 경우 농담입니다.) 방금 다른 것을 찾는 동안 우연히이 일이 발생했습니다. GAF Seber의 22 페이지 Example 2.4 및 AJ Lee, Linear Regression Analysis , 2nd. 에디, 와일리 " 를 입력하고 . 따라서 는 다변량 정규 분포를 갖습니다."

Y \sim N (μ, σ^{2})

$Y \sim \mathcal N(\mu,\sigma^2)$

Y^{'} = (Y, - Y)

$\mathbf Y' = (Y, -Y)$

Y

$\mathbf Y$

— 추기경

토론은 정의에 관한 것입니다. 정의에 의한 공분산 행렬이 단수형 매크로 여야하는 경우가 분명 하지만, @cardinal이 참조하는보다 자유로운 정의에 따른 예는 아닙니다. 보다 자유로운 정의를 선호하는 한 가지 좋은 이유 는 정규 변수의 모든 선형 변환이 정상이기 때문입니다. 특히, 정규 오차가있는 선형 회귀 분석에서 잔차는 결합 정규 분포를 갖지만 공분산 행렬은 특이합니다.

— NRH 2016 년

다음 게시물에는 주요 아이디어를 제공하고 시작하기위한 증명 개요 가 포함되어 있습니다 .

하자 두 개의 독립적 인 가우시안 랜덤 변수 일 및하자 수 $z = (Z_1, Z_2)$ $x = (X_1, X_2)$

x = (\begin{matrix} X_{1} \\ X_{2} \end{matrix}) = (\begin{matrix} α_{11} Z_{1} + α_{12} Z_{2} \\ α_{21} Z_{1} + α_{22} Z_{2} \end{matrix}) = (\begin{matrix} α_{11} & α_{12} \\ α_{21} & α_{22} \end{matrix}) (\begin{matrix} Z_{1} \\ Z_{2} \end{matrix}) = A z .

$x = \begin{pmatrix} X_1 \\ X_2 \end{pmatrix} = \begin{pmatrix} \alpha_{11} Z_1 + \alpha_{12} Z_2\\ \alpha_{21} Z_1 + \alpha_{22} Z_2 \end{pmatrix} = \begin{pmatrix} \alpha_{11} & \alpha_{12}\\ \alpha_{21} & \alpha_{22} \end{pmatrix} \begin{pmatrix} Z_1 \\ Z_2 \end{pmatrix} = A z.$

각 이지만 둘 다 동일한 독립 r.vs의 선형 조합이므로 공동으로 의존합니다. $X_i \sim N(\mu_i, \sigma_i^2)$

정의 r.vs 쌍은 독립 정규 r.vs 의 선형 조합 로 쓸 수있는 경우 이변 량 정규 분포라고합니다 . $x = (X_1, X_2)$ $x = Az$ $z = (Z_1, Z_2)$

보조 정리 하면 이변 량 가우시안 후 그 임의의 다른 선형 조합들은 다시 정상 랜덤 변수이다. $x = (X_1, X_2)$

증거 . 사소한, 다른 사람을 화나게하지 않기 위해 건너 ped

속성 가 서로 관련이 없으면 독립적이며 그 반대도 마찬가지입니다. $X_1, X_2$

분포 $X_1 | X_2$

가정 이전 만의 그들이 긍정적 인 변화가 제로가 단순에 대한 의미 가정하자 같은 가우스 r.vs 있습니다. $X_1, X_2$

가 에 의해 확장 된 부분 공간 인 경우 및 입니다. $\mathbf S$ $X_2$ $X_1^{\mathbf S} = \frac{\rho \sigma_{X_1}}{\sigma_{X_2}} X_2$ $X_1^{\mathbf S^\perp} = X_1 - X_1^{\mathbf S}$

$X_1$ 과 는 선형 조합 이므로 도 동일합니다. 그것들은 공동 가우시안이고 상관되지 않으며 (증명) 독립적입니다. $X_2$ $z$ $X_2, X_1^{\mathbf S^\perp}$

분해 는

X_{1} = X_{1}^{S} + X_{1}^{S^{⊥}}

$X_1 = X_1^{\mathbf S} + X_1^{\mathbf S^\perp}$

E [X_{1} | X_{2}] = \frac{ρ σ_{X_{1}}}{σ_{X_{2}}} X_{2} = X_{1}^{S}

$\mathbf{E}[X_1 | X_2] = \frac{\rho \sigma_{X_1}}{\sigma_{X_2}} X_2 = X_1^{\mathbf S}$

\begin{aligned} V [X_{1} | X_{2}] & = V [X_{1}^{S^{⊥}}] \\ = E {[X_{1} - \frac{ρ σ_{X_{1}}}{σ_{X_{2}}} X_{2}]}^{2} \\ = (1 - ρ)^{2} σ_{X_{1}}^{2} . \end{aligned}

$\begin{split} \mathbf{V}[X_1 | X_2] &= \mathbf{V}[X_1^{\mathbf S^\perp}] \\ &= \mathbf{E} \left[ X_1 - \frac{\rho \sigma_{X_1}}{\sigma_{X_2}} X_2 \right]^2 \\ &= (1 - \rho)^2 \sigma^2_{X_1}. \end{split}$

그런 다음

X_{1} | X_{2} \sim N (X_{1}^{S}, (1 - ρ)^{2} σ_{X_{1}}^{2}) .

$X_1 | X_2 \sim N\left( X_1^{\mathbf S}, (1 - \rho)^2 \sigma^2_{X_1} \right).$

두 개의 일 변량 가우스 랜덤 변수 는 조건부 와 도 가우시안입니다. $X, Y$ $X | Y$ $Y|X$

— 보조의, 보조적인
소스

이 관찰이 질문에 어떻게 대답하는지는 분명하지 않습니다. 곱셈 규칙은 실질적으로 조건부 분포의 정의이므로이 분포 분포에는 특별하지 않습니다. 다음에 나오는 "다음 순서대로 ..."는 어떤 이유도 제공하지 않습니다. 왜 조건부 분포도 왜 정상이어야합니까?

— whuber

whuber, 나는 주요 질문에 대답하고있다 : "두 가우시안의 합동 확률이 가우시안이 아닌 경우가 있을까 궁금하다." 답은 조건이 정상이 아닐 때입니다. -보조

— 보조

데모를 완료 할 수 있습니까? 지금은 증거가없는 당신의 주장 일뿐입니다. 그것이 정확하다는 것이 전혀 분명하지 않습니다. 즉, 당신이 실제로의 증명해야한다 : 당신의 존재를 확립 할 필요가 있기 때문에, 또한 불완전 가능한 공동 분포가 정상 marginals을하기 만하는 조건 적어도 하나의 비 정상입니다. 이제 한계를 변경하지 않고 측정 값 0 세트에서 바이 노멀의 각 조건부 분포를 자유롭게 변경할 수 있기 때문에 사실은 사소한 사실이지만, 그 가능성은 주장과 모순되는 것처럼 보입니다.

— whuber

안녕하세요 @ whuber, 이것이 더 도움이되기를 바랍니다. 제안이나 수정 사항이 있습니까? 나는 여가 시간이 많지 않은 순간에 이것을 매우 빨리 썼다 :-) 그러나 나는 당신이 할 수있는 제안이나 개선을 소중히 생각합니다. 최고

— 보조

(1) 무엇을 증명하려고합니까? (2) 가우시안 한계를 갖는 분포가 공동 가우시안 이 아닌 경우 질문이 있기 때문에 , 나는이 주장이 어떻게 관련이 있는지 알지 못한다.

— whuber