이 질문에 이어 평균 만 이해하는 사람에게 공분산을 어떻게 설명 하시겠습니까? 평신도에 대한 공분산을 설명하는 문제를 다루는 비슷한 생각을하게되었습니다.
공분산 과 상관 관계 의 차이를 통계적으로 네오 피트로 설명 할 수 있을까요? 둘 다 다른 변수에 다시 연결된 하나의 변수의 변경을 나타냅니다.
언급 된 질문과 마찬가지로 수식이 부족한 것이 좋습니다.
이 질문에 이어 평균 만 이해하는 사람에게 공분산을 어떻게 설명 하시겠습니까? 평신도에 대한 공분산을 설명하는 문제를 다루는 비슷한 생각을하게되었습니다.
공분산 과 상관 관계 의 차이를 통계적으로 네오 피트로 설명 할 수 있을까요? 둘 다 다른 변수에 다시 연결된 하나의 변수의 변경을 나타냅니다.
언급 된 질문과 마찬가지로 수식이 부족한 것이 좋습니다.
답변:
공분산의 문제점은 비교하기 어렵다는 것입니다. 높이와 무게 세트의 공분산을 (각각) 미터와 킬로그램으로 표현할 때 다른 단위로 수행 할 때와 다른 공분산을 얻습니다. 미터 시스템을 사용하거나 사용하지 않고 동일한 작업을 수행하는 사람들에게는 이미 문제가 있습니다!) 또한 (예를 들어) 키와 몸무게보다 '코 브리 더 많은'것인지 여부를 말하기가 어렵습니다. 공분산이 계산되는 '척도'가 다르기 때문입니다.
이에 대한 해결책은 공분산을 '정규화'하는 것입니다. 공분산을 공분산 모두에서 다양성과 척도를 나타내는 것으로 나누고 -1에서 1 사이의 값이되도록합니다. 원래 변수의 단위가 무엇이든, 항상 동일한 결과를 얻을 수 있으며,이를 통해 두 변수가 단순히 상관 관계를 비교하여 두 변수보다 더 많은 상관 관계가 있는지 비교할 수 있습니다.
참고 : 위의 내용은 독자가 이미 공분산 개념을 이해하고 있다고 가정합니다.
cm
있고 Y가에 s
있으면 입니다. 그런 다음 결과에 단위 변환 계수를 곱하면됩니다. R에서 시도하십시오 :cov(cars$speed,cars$dist) == cov(cars$speed/5,cars$dist/7)*(7*5)
이러한 유형의 질문에 대한 요구 사항은 약간 기괴한 것으로 보입니다. 여기에 수학적 개념 / 수식이 있지만, 수학적 기호가 전혀없는 일부 상황에서 그것에 대해 이야기하고 싶습니다. 또한 공식을 이해하는 데 필요한 실제 대수학은 고등 교육 전에 대부분의 개인에게 가르쳐야한다고 생각해야한다고 생각합니다 (매트릭스 대수에 대한 이해가 필요하지 않고 단순한 대수만으로 충분합니다).
따라서 처음에는 공식을 완전히 무시하고 마술적이고 휴리스틱 유형의 유추에서 말하는 대신 공식을보고 개별 구성 요소를 작은 단계로 설명해 보겠습니다. 공식을 볼 때 공분산과 상관 관계의 차이가 분명 해져야합니다. 유추와 휴리스틱 측면에서 말하면, 나는 비교적 간단한 두 가지 개념과 많은 상황에서의 차이점을 모호하게 생각합니다.
샘플 공분산에 대한 공식으로 시작 하겠습니다 (위의 Wikipedia에서 가져와 채택했습니다).
모든 사람의 속도를 높이려면 수식의 모든 요소와 연산을 명시 적으로 정의하십시오.
이 시점에서 나는 간단한 예를 소개하여 요소와 작업에 대해 이야기합니다. 예를 들어, 각 행이 관측치에 해당하는 테이블을 구성하면됩니다 (그리고 와 는 적절하게 레이블이 지정되어 있습니다). 이 예들을 좀 더 구체적으로 만들 수있을 것입니다 (예 : 는 연령을 나타내고 는 체중을 나타냅니다).
x y
---
2 5
4 8
9 3
5 6
0 8
이 시점에서 수식의 합계 연산이 완전히 이해되지 않았다고 생각되면 훨씬 간단한 컨텍스트에서 다시 계산할 수 있습니다. 다만 본 것을 말해 본 실시 예에서 말하는 것과 동일하다;
x
--
2
4
9
5
+ 0
--
20
이제 엉망이 해결되고 수식의 두 번째 부분 인 있습니다. 이제 사람들이 및 의 의미를 이미 알고 있다고 가정 하면 게시물의 앞부분에서 내 자신의 의견에 위선적이라고 말하면 평균의 의미를 간단한 휴리스틱 (예 : 배포의 중간). 그런 다음이 프로세스를 한 번에 한 작업 씩 수행 할 수 있습니다. 명령문각 관측치 사이의 편차 / 거리와 특정 속성에 대한 모든 관측치의 평균을 조사하는 것입니다. 따라서 관측치가 평균에서 더 멀면이 연산에 더 높은 값이 부여됩니다. 그런 다음 주어진 예제 표를 다시 참조 하여 관측치 의 벡터 에 대한 연산을 간단히 보여줄 수 있습니다 .
x x_bar (x - x_bar)
2 4 -2
4 4 0
9 4 5
5 4 1
0 4 -4
작업은 벡터의 경우와 동일 하지만 강화를 위해서만 해당 작업을 제시 할 수 있습니다.
y y_bar (y - y_bar)
5 6 -1
8 6 2
3 6 -3
6 6 0
8 6 2
이제 및 라는 용어 는 모호하지 않아야하며 다음 결과를 곱하여 다음 작업으로 수 있습니다 . gung이 주석에서 지적한 것처럼 이것을 종종 교차 곱이라고합니다 (통계를 위해 기본 행렬 대수를 도입 한 경우 다시 가져 오는 유용한 예일 수 있음).
곱할 때 어떤 일이 발생하는지 유의하십시오. 두 관측치가 모두 평균보다 먼 거리에 있으면 결과 관측치의 양수 값이 더 큽니다 (두 관측치가 평균 이하로 먼 거리에 두 음수를 곱한 경우에도 마찬가지 임) 긍정적 임). 또한 하나의 관측치가 평균보다 높고 다른 관측치가 평균보다 훨씬 낮 으면 결과 값이 커지고 (절대 용어로) 음수 (양수는 음수가 음수와 같음)입니다. 마지막으로 값이 두 관측치의 평균에 매우 가까운 경우 두 값을 곱하면 숫자가 작아집니다. 다시이 작업을 테이블에 표시 할 수 있습니다.
(x - x_bar) (y - y_bar) (x - x_bar)*(y - y_bar)
-2 -1 2
0 2 0
5 -3 -15
1 0 0
-4 2 -8
이제 방에 통계학자가 있다면이 시점에서 예상과 함께 끓여야합니다. 공분산의 정의와 계산 방법에 대한 모든 개별 요소를 볼 수 있습니다. 이제 우리가해야 할 일은 이전 표의 최종 결과를 요약하고 과 voila로 나누는 것입니다 . 공분산은 더 이상 신비 롭지 않아야합니다 (모두 그리스어 기호 만 정의하면 됨).
(x - x_bar)*(y - y_bar)
-----------------------
2
0
-15
0
+ -8
-----
-21
-21/(5-1) = -5.25
이 시점에서 5가 나오는 곳을 보강하고 싶을 수도 있지만, 표를 다시 참조하고 관측 횟수를 세는 것만 큼 간단해야합니다 (샘플과 모집단의 차이를 다른 시간으로 다시 남겨 두십시오).
이제 공분산 자체가 우리에게 많은 것을 말하지는 않습니다 (할 수는 있지만,이 시점에서 관객에 대한 마술적이고 정의되지 않은 언급에 의지하지 않고 흥미로운 예제로 들어가는 것은 불필요합니다). 좋은 시나리오에서는 공분산이 무엇인지 관심을 가져야하는 이유를 실제로 판매 할 필요가 없습니다. 다른 상황에서는 청중이 포로가되어이를 받아들이기를 바랍니다. 그러나 공분산이 무엇인지와 상관이 무엇인지에 대한 차이점을 계속해서 발전 시키려면 상관 관계 공식을 다시 참조하면됩니다. 그리스어 기호 공포증을 방지하기 위해 는 상관 관계를 나타내는 데 사용되는 일반적인 기호 라고 할 수 있습니다.
다시 말하지만, 앞의 공식의 분자는 우리가 방금 정의한 공분산이고 분모는 각 개별 계열 의 분산 의 곱의 제곱근입니다 . 분산 자체를 정의해야하는 경우 분산이 자체와 계열의 공분산과 동일하다고 말할 수 있습니다 (예 : ). 공분산으로 도입 한 것과 동일한 개념이 모두 적용됩니다 (즉, 계열의 평균과 거리가 먼 값이 많은 경우 분산이 높습니다). 어쩌면 여기서 시리즈는 마이너스 분산을 가질 수 없습니다 (이전에 제시된 수학에서 논리적으로 따라야 함).
우리가 소개 한 유일한 새로운 구성 요소는 분모 입니다. 우리는 방금 계산 한 공분산을 각 계열의 분산의 곱으로 나눕니다. 왜 나누는 것이 항상 -1과 1 사이의 값을 초래 하는지에 대한 치료에 들어갈 수 있지만, Cauchy-Schwarz 불평등은 의제에서 제외되어야한다고 생각합니다 이 토론. 다시 한 번, 나는 위선자이며 일부에 의지하고, 그것에 대한 나의 말을 받아들이지 만,이 시점에서 우리가 상관 계수를 사용하는 모든 이유를 소개 할 수 있습니다. 그런 다음 이러한 수학 수업을 Peter Flom의 응답 과 같은 다른 설명에서 제공된 휴리스틱과 다시 연결할 수 있습니다.다른 질문 중 하나에. 이것은 인과 적 진술로 개념을 도입하기 위해 비판을 받았지만, 그 교훈은 어느 시점에서 의제에 있어야합니다.
일부 상황에서는이 수준의 치료가 적절하지 않다는 것을 이해합니다. 상원 의원은 행정상 개요를 필요로한다 . 이 경우 사람들이 다른 예제에서 사용했던 간단한 휴리스틱을 다시 참조 할 수 있지만 로마는 하루 만에 지어지지 않았습니다. 그리고 행정상 요약을 요구하는 상원 의원에게, 만약 당신이 너무 적은 시간을 가지고 있다면 아마도 당신은 그것에 대한 나의 말을 취하고 유추와 총알의 형식을 배제해야 할 것입니다.
상관 (r)은 변수 (x & y)의 공분산 (cov)을 각 표준 편차 ( )로 나눈 값으로 나눈 값 입니다.
즉, 상관은 단순히 공분산의 표현이므로 결과는 -1 (완전히 역 상관)과 +1 (완전히 양으로 상관) 사이에 있어야하며, 0에 가까운 값은 두 변수가 서로 관련이 없음을 의미합니다.
공분산은 제한이 없으며 다른 공분산과 비교할 때 컨텍스트가 없습니다. 공분산을 정규화 / 조정 / 표준화하여 상관 관계를 분석함으로써 데이터 세트를보다 쉽게 비교할 수 있습니다.
상상할 수 있듯이 통계 (공분산 등)를 정규화 / 표준화하는 방법에는 여러 가지가 있습니다. 상관 관계와 공분산 사이의 관계에 대한 수학적 공식은 단순히 통계학자가 사용하는 표준 통계 (표준 편차에 따라 조정)를 반영합니다.
내가 이해하는 한. 상관 관계는 공분산의 "정규화 된"버전입니다.
상관 관계는 양의 상관 관계가 있는지 또는 음의 상관 관계가 있는지에 따라 -1과 +1 사이로 조정되며 크기가 없습니다. 그러나 공분산의 범위는 두 개의 독립 변수 인 경우 0에서 두 데이터 세트가 동일한 경우 Var (X)까지입니다. COV (X, Y)의 단위는 X의 Y에 Y를 곱한 단위입니다.
The units of COV(X,Y) are the units of X times the units of Y.
,, 세심한주의가 무엇을 의미하는지 명확하지 않습니까?