가장 작은 공분산 행렬을 찾기위한 적절한 측정

교과서에서 그들은 양의 공분산 행렬을 비교하기 위해 양의 정한도 (반 양성의 유한도)를 사용합니다. 가 pd이면 가 보다 작다 는 아이디어 입니다. 그러나 나는이 관계의 직감을 얻는 데 어려움을 겪고 있습니까? $A-B$ $B$ $A$

비슷한 스레드가 있습니다 :

/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices

행렬을 비교하기 위해 유한성을 사용하는 직관은 무엇입니까?

대답은 훌륭하지만 실제로 직관을 다루지는 않습니다.

다음은 혼란스러운 예입니다.

[\begin{matrix} 16 & 12 \\ 12 & 9 \end{matrix}] - [\begin{matrix} 1 & 2 \\ 2 & 4 \end{matrix}]

$\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation}$

이제 차이의 결정 요인은 -25이므로 관계는 pd 또는 psd가 아니며 첫 번째 행렬이 첫 번째 행렬보다 크지 않습니까?

두 개의 3 * 3 공분산 행렬을 비교하여 가장 작은 것을 확인하고 싶습니까? 유클리드 표준과 같은 것을 사용하여 비교하는 것이 더 직관적 인 것처럼 보일까요? 그러나 이것은 위의 첫 번째 행렬이 두 번째 matix보다 큼을 의미합니다. 또한 공분산 행렬을 비교하는 데 사용되는 pd / psd 기준 만 본 적이 있습니다.

유클리드 규범과 같은 다른 수단을 사용하는 것보다 왜 pd / psd가 더 나은지 설명 할 수 있습니까?

나는 또한이 질문을 수학 포럼에 게시했습니다 (최상의 것이 무엇인지 확실하지 않았습니다).이 규칙을 위반하지 않기를 바랍니다.

/math/628135/comparing-two-covariance-matrices

— 바즈
소스

긍정적 (반) 정확도의 직관이 고려되는 곳에서 이것을 읽으십시오 . 당신이이 개 차이를 비교할 때 a와 b경우에, a-b긍정적 우리는 변화를 제거하기에 말할 것 b중 a에 남아있는 일부 "진짜"변동성이 남아있다 a. 다변량 분산 (공분산 행렬) A과 의 경우도 마찬가지입니다 B. 만약 A-B것을 의미 한 후 명확한 긍정적 인 A-B즉, 제거시 : 벡터의 구성은 유클리드 공간에서 "진짜"이다가 B에서 A, 후자는 여전히 가능한 변화입니다.

— ttnphns 2012 년

두 공분산 행렬의 "가장 작은"은 무엇 을 의미합니까?

— whuber

공분산 행렬이 경쟁 추정기와 관련이있는 안녕 whuber, 나는 가장 작은 분산을 갖는 추정기를 선택하고 싶습니다. (이것이 문제를 명확히합니까?)

— Baz

Baz : 그렇다면 추정기의 분산을 직접 비교해 보지 않겠습니까?

— Glen_b-복지 주 모니카

거기에 메소드가 설정되면 분산이라고하는 표현식 (공분산 포함)이 제공됩니다. 그러나 분산 만 비교하려고해도 행렬 값 비교와 비슷한 문제가있는 벡터 값을 비교해야합니까?

— Baz

답변:

참조하는 행렬의 순서는 Loewner 순서 라고하며 양의 한정 행렬 연구에 많이 사용되는 부분 순서입니다. 양의 유한 (posdef) 행렬 매니 폴드의 지오메트리에 대한 책 길이 처리가 여기 있습니다 .

먼저 직관 에 대한 귀하의 질문을 해결하려고 노력할 것 입니다. 모든 대해 경우 (대칭) 행렬 는 posdef 입니다. 경우 공분산 행렬을 갖는 랜덤 변수 (RV)이다 후, 어떤 하나의 어두운 부분 공간에의 투영 (비례)이고, . 이것을 Q의 에 적용하면 , 먼저 공분산 행렬입니다. 둘째 : 공분산 행렬 있는 랜덤 변수 는 공분산 행렬 가있는 rv보다 분산이 작은 모든 방향으로 투영 됩니다 $A$ $c^T A c\ge 0$ $c \in \mathbb{R}^n$ $X$ $A$ $c^T X$ $\mathbb{Var}(c^T X) = c^T A c$ $A-B$ $B$ $A$ . 이것은이 순서가 부분적인 것일 수 있다는 것을 직관적으로 명확하게 해주 며, rv가 매우 다른 분산으로 다른 방향으로 투영 될 것입니다. 일부 유클리드 규범에 대한 귀하의 제안에는 그러한 자연적인 통계 해석이 없습니다.

두 행렬의 행렬식이 0이므로 "혼란 예"가 혼동됩니다. 따라서 각각에 대해 항상 0으로 투영 되는 한 방향 (고유 값이 0 인 고유 벡터)이 있습니다. 그러나이 방향은 두 행렬에 따라 다르므로 비교할 수 없습니다.

가 posdef 인 경우 Loewner 차수는 , 가 보다 양의 값으로 정의되도록 정의됩니다 . 이것은 일부 순서입니다. 일부 posdef 행렬의 경우 나 가 posdef가 아닙니다. 예를 들면 다음과 같습니다. 한 가지 방법 이것을 그래픽으로 보여주는 것은 두 개의 타원이있는 플롯을 그리지 만 행렬과 표준 방식으로 연결된 원점을 중심으로합니다 (각 방향의 반경 거리는 해당 방향으로 투영하는 분산에 비례합니다). $A \preceq B$ $B$ $A$ $B-A$ $B-A$ $A-B$

A = (\begin{matrix} 1 & 0.5 \\ 0.5 & 1 \end{matrix}), B = (\begin{matrix} 0.5 & 0 \\ 0 & 1.5 \end{matrix})

$A=\begin{pmatrix} 1 & 0.5 \\ 0.5 & 1 \end{pmatrix}, \quad B= \begin{pmatrix} 0.5 & 0\\ 0 & 1.5 \end{pmatrix}$

이 경우 두 타원은 합리적이지만 다르게 회전합니다 (사실 각도는 45 도입니다). 이는 행렬 와 가 동일한 고유 값을 갖지만 고유 벡터가 회전 한다는 사실에 해당합니다 . $A$ $B$

이 답변은 타원의 속성에 따라 크게 달라 지므로 다음과 같은 조건부 가우스 분포의 직관은 무엇입니까? 타원을 기하학적으로 설명하면 도움이 될 수 있습니다.

이제 행렬과 관련된 타원이 어떻게 정의되는지 설명하겠습니다. posdef 행렬 는 2 차 형태 합니다. 이것은 함수로 그려 질 수 있으며 그래프는 2 차입니다. 경우 다음의 그래프 항상의 그래프 위에있을 것이다 . 높이 1의 수평면으로 그래프를 자르면 컷은 타원 (사실 타원을 정의하는 방법)을 설명합니다. 이 컷은 타원 방정식에 의해 주어진다 우리는 참조 그 $A$ $Q_A(c) = c^T A c$ $A \preceq B$ $Q_B$ $Q_A$

Q_{A} (c) = 1, Q_{B} (c) = 1

$Q_A(c)=1, \quad Q_B(c)=1$

A ⪯ B

$A \preceq B$ B의 타원에 해당합니다 (현재 내부에 있음)는 A의 타원에 포함되어 있습니다. 순서가 없으면 격리가 없습니다. 우리는 역의 타원을 그릴 수있는 것을 싫어하면 포함 순서가 Loewner 부분 순서와 반대임을 알 수 있습니다. 는 과 동일하기 때문 입니다. 그러나 여기서 정의한대로 타원을 유지합니다.

A ⪯ B

$A \preceq B$

B^{- 1} ⪯ A^{- 1}

$B^{-1} \preceq A^{-1}$

타원은 반축과 길이로 설명 할 수 있습니다. 여기서 우리는 행렬에 대해서만 논의 할 것입니다. 그것들은 우리가 그릴 수있는 것이므로 ... 두 개의 주축과 길이가 필요합니다. 이것은 posdef 매트릭스의 고유 분해와 함께 여기 에서 설명 된 바와 같이 찾을 수 있습니다 . 그런 다음 주축은 고유 벡터로 주어지며, 길이 는 고유 값 에서 나타내는 타원의 영역 이 . $2\times 2$ $a,b$ $\lambda_1, \lambda_2$

a = \sqrt{1 / λ_{1}}, b = \sqrt{1 / λ_{2}} .

$a = \sqrt{1/\lambda_1}, \quad b=\sqrt{1/\lambda_2}.$

A

$A$

π a b = π \sqrt{1 / λ_{1}} \sqrt{1 / λ_{2}} = \frac{π}{\sqrt{det A}}

$\pi a b= \pi \sqrt{1/\lambda_1}\sqrt{1/\lambda_2} = \frac{\pi}{\sqrt{\det A}}$

행렬을 주문할 수있는 마지막 예를 하나 들어 보겠습니다.

이 경우 두 행렬은 다음과 같습니다.

A = (\begin{matrix} 2 / 3 & 1 / 5 \\ 1 / 5 & 3 / 4 \end{matrix}), B = (\begin{matrix} 1 & 1 / 7 \\ 1 / 7 & 1 \end{matrix})

$A =\begin{pmatrix}2/3 & 1/5 \\ 1/5 & 3/4\end{pmatrix}, \quad B=\begin{pmatrix} 1& 1/7 \\ 1/7& 1 \end{pmatrix}$

— 크 제틸 비 할보 르센
소스

@kjetil b halvorsen은 양의 반정도 뒤에있는 기하학적 직관에 대해 부분적 순서로 설명합니다. 나는 같은 직관에 대해 더 멍청한 손길을 줄 것이다. 분산 행렬을 사용하여 어떤 종류의 계산을 수행 할 것인지를 결정하는 것입니다.

두 개의 임의 변수 와 가 있다고 가정하십시오 . 스칼라 인 경우 분산을 스칼라로 계산하고 스칼라 실수 및 사용하여 명백한 방식으로 비교할 수 있습니다 . 따라서 이고 이면 랜덤 변수 는 보다 분산이 더 작습니다 . $x$ $y$ $V(x)$ $V(y)$ $V(x)=5$ $V(y)=15$ $x$ $y$

반면에 와 가 벡터 값 랜덤 변수 인 경우 (두 벡터라고합시다) 분산을 비교하는 방법은 그다지 명확하지 않습니다. 분산이 다음과 같다고 가정하십시오 : 이 두 랜덤 벡터의 분산을 어떻게 비교합니까? 우리가 할 수있는 한 가지는 각 요소의 분산을 비교하는 것입니다. 그래서 우리는의 분산 말할 수 의 분산보다 작은 :처럼 실수를 비교하여 및 $x$ $y$

\begin{aligned} V (x) = [\begin{array}{cc} 1 & 0.5 \\ 0.5 & 1 \end{array}] V (y) = [\begin{array}{cc} 8 & 3 \\ 3 & 6 \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} 1 & 0.5 \\ 0.5 & 1 \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} 8 & 3 \\ 3 & 6 \end{array} \right] \end{align}$

x_{1}

$x_1$

y_{1}

$y_1$

V (x_{1}) = 1 < 8 = V (y_{1})

$V(x_1)=1<8=V(y_1)$

V (x_{2}) = 1 < 6 = V (y_{2})

$V(x_2)=1<6=V(y_2)$ . 그래서, 어쩌면 우리의 분산 말할 수 것입니다 의 분산 의 각 요소의 분산 경우 있다 의 해당 요소의 분산 . 이 말하는 것과 같다 의 대각선 요소들 각각의 경우 이다 의 대응하는 대각 요소 .

x

$x$

\leq

$\le$

y

$y$

x

$x$

\leq

$\le$

y

$y$

V (x) \leq V (y)

$V(x) \le V(y)$

V (x)

$V(x)$

\leq

$\le$

V (y)

$V(y)$

이 정의는 처음에 홍당무가 합리적으로 보입니다. 또한 고려하는 분산 행렬이 대각선 인 경우 (즉, 모든 공분산이 0 인 경우) 반 정확도를 사용하는 것과 같습니다. 즉, 분산이 그리고 는 양의 반 미정 (즉, )은 및 . 공분산을 도입 할 때까지는 모두 좋아 보입니다. 이 예제를 고려하십시오.

\begin{aligned} V (x) = [\begin{array}{cc} V (x_{1}) & 0 \\ 0 & V (x_{2}) \end{array}] V (y) = [\begin{array}{cc} V (y_{1}) & 0 \\ 0 & V (y_{2}) \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} V(x_1) & 0 \\ 0 & V(x_2) \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} V(y_1) & 0 \\ 0 & V(y_2) \end{array} \right] \end{align}$

V (y) - V (x)

$V(y)-V(x)$

V (x) \leq V (y)

$V(x) \le V(y)$

V (x_{1}) \leq V (y_{1})

$V(x_1) \le V(y_1)$

V (x_{2}) \leq V (y_{2})

$V(x_2) \le V(y_2)$

\begin{aligned} V (x) = [\begin{array}{cc} 1 & 0.1 \\ 0.1 & 1 \end{array}] V (y) = [\begin{array}{cc} 1 & 0 \\ 0 & 1 \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} 1 & 0.1 \\ 0.1 & 1 \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} 1 & 0 \\ 0 & 1 \end{array} \right] \end{align}$ 이제 대각선 만 고려한 비교를 사용하면 그리고 실제로 요소 별 입니다. 이것에 대해 우리를 귀찮게하기 시작할 수있는 것은 및 와 같이 벡터 요소의 가중치 합계를 계산 하면 우리가 라고 .

V (x) \leq V (y)

$V(x) \le V(y)$

V (x_{k}) \leq V (y_{k})

$V(x_k) \le V(y_k)$

3 x_{1} + 2 x_{2}

$3x_1 + 2x_2$

3 y_{1} + 2 y_{2}

$3y_1 + 2y_2$

V (3 x_{1} + 2 x_{2}) > V (3 y_{1} + 2 y_{2})

$V(3x_1 + 2x_2) \gt V(3y_1 + 2y_2)$

V (x) \leq V (y)

$V(x) \le V(y)$

이거 이상 해요? 경우 및 스칼라이고, 다음 을 보장하는 임의의 고정 된, 비 - 무작위위한 , . $x$ $y$ $V(x) \le V(y)$ $a$ $V(ax) \le V(ay)$

어떤 이유로 든 임의의 변수 요소의 선형 조합에 관심이 있다면 분산 행렬에 대한 정의를 강화할 수 있습니다 . 어쩌면 우리 는 고정 숫자 과 관계없이 이면 라고 말할 수 있습니다. 우리가 선택하는 경우 이후 공지 사항, 이것은 대각선 전용 정의보다 더 강한 정의입니다 그것이 말하는 우리가 선택하는 경우, 그리고 이 말한다 입니다. $\le$ $V(x) \le V(y)$ $V(a_1x_1 + a_2x_2) \le V(a_1y_1 + a_2y_2)$ $a_1$ $a_2$ $a_1=1,a_2=0$ $V(x_1) \le V(y_1)$ $a_1=0,a_2=1$ $V(x_2) \le V(y_2)$

이 두 번째 정의는 가능한 모든 고정 벡터 대해 경우에만 라고하는 정의 는 분산을 비교하는 일반적인 방법입니다. 양의 반 에 기반한 행렬 : 마지막 행렬 과 양의 반정의 정의를 보면 분산 행렬에 대한 정의 가 경우만 임의의 선택을위한 즉 반 양성 -명확한. $V(x) \le V(y)$ $V(a'x) \le V(a'y)$ $a$

\begin{aligned} V (a^{'} y) - V (a^{'} x) = a^{'} V (x) a - a^{'} V (y) a = a^{'} (V (x) - V (y)) a \end{aligned}

$\begin{align} V(a'y) - V(a'x) = a'V(x)a - a'V(y)a = a'\left(V(x) - V(y) \right)a \end{align}$

\leq

$\le$

V (x) \leq V (y)

$V(x) \le V(y)$

V (a^{'} x) \leq V (a^{'} y)

$V(a'x) \le V(a'y)$

a

$a$

(V (y) - V (x))

$\left( V(y)-V(x) \right)$

따라서 귀하의 질문에 대한 답변은 사람들 이 기본 랜덤 벡터 요소의 선형 조합의 분산을 비교하는 데 관심이 있기 때문에 가 양의 반 인 경우 분산 행렬 가 분산 행렬 보다 작다고 말합니다 . 선택한 정의는 계산에 관심있는 항목과 해당 정의가 해당 계산에 어떻게 도움이되는지를 따릅니다. $V$ $W$ $W-V$

— 계산서
소스