종속적이고 독립적 인 변수가있는 데이터 세트가 있습니다. 둘 다 시계열이 아닙니다. 120 개의 관측치가 있습니다. 상관 계수는 0.43입니다
이 계산 후, 12 개의 관측치마다 평균을 갖는 두 변수에 대한 열을 추가하여 108 개의 관측치 (쌍)를 갖는 2 개의 새로운 열을 생성했습니다. 이 열의 상관 계수는 0.77입니다.
이런 식으로 상관 관계가 개선 된 것 같습니다. 이것이 허용됩니까? 평균을 사용하여 독립 변수의 설명력을 높였습니까?
종속적이고 독립적 인 변수가있는 데이터 세트가 있습니다. 둘 다 시계열이 아닙니다. 120 개의 관측치가 있습니다. 상관 계수는 0.43입니다
이 계산 후, 12 개의 관측치마다 평균을 갖는 두 변수에 대한 열을 추가하여 108 개의 관측치 (쌍)를 갖는 2 개의 새로운 열을 생성했습니다. 이 열의 상관 계수는 0.77입니다.
이런 식으로 상관 관계가 개선 된 것 같습니다. 이것이 허용됩니까? 평균을 사용하여 독립 변수의 설명력을 높였습니까?
답변:
두 개의 벡터를 보도록하겠습니다. 첫 번째는
2 6 2 6 2 6 2 6 2 6 2 6
두 번째 벡터는
6 2 6 2 6 2 6 2 6 2 6 2
얻을 피어슨 상관 관계 계산
cor(a,b)
[1] -1
그러나 값의 연속 쌍의 평균을 취하면 두 벡터가 동일합니다. 동일한 벡터는 상관 관계가 1입니다.
4 4 4 4 4 4
이 간단한 예제는 메소드의 단점을 보여줍니다.
편집 :보다 일반적으로 설명하려면 : 상관 계수는 다음과 같은 방식으로 계산됩니다.
일부 평균 와 일부 의 차이점을 바꾼다 과 뿐만 아니라 과 .
평균화는 매력적이거나 편리 할 수 있습니다. 또한 최악의 속임수에는 속임수의 원천이 될 수 있으므로 평균화에 대한 분명한 근거가있는 경우에도주의 깊게 밟으십시오.
여기 좋은 생각이 아닌 상황이 있습니다. 그룹을 신중하게 정의하면 일반적으로 데이터를 두 변수에 대해 서로 다른 두 개의 요약 지점으로 줄일 수 있습니다. 그리고 당신은 크기와 완벽한 상관 관계를 달성 할 것입니다. 축하합니다! 여기에서의 개선은 절차에 대한 독립적 인 좋은 이유없이 가짜입니다. 위험에 접근하기 위해이 극단적 인 경우에 접근 할 필요는 없습니다.
평균화가 의미가있는 상황이 있습니다. 예를 들어 계절 변동이 거의 없거나 전혀 관심이없는 경우 연간 값을 평균하면 해당 연간 값에 집중할 수있는 데이터 집합이 줄어 듭니다.
다양한 분야에서, 연구자들은 개인, 카운티, 주, 국가 (실 용어가 가장 의미있는 것을 대체하는 것)에 대한 실업과 범죄 사이의 매우 다른 규모의 상관 관계에 관심이있을 수 있습니다.
관심과 종종 추론의 주요 원인은 다양한 규모 나 수준에서 무슨 일이 일어나고 있는지 해석하는 데 있습니다. 예를 들어, 지역의 실업률과 범죄율 사이의 높은 상관 관계가 반드시 실업자가 범죄자가되는 경향이 더 높은 것은 아닙니다. 이를 명확하게하려면 개인에 대한 데이터가 필요합니다. 데이터 제공은 아마도 경제 나 기밀 유지의 문제와 같이 가장 흥미롭지 않은 규모로만 데이터를 사용할 수 있다는 점에서 최대한 어색 할 수 있습니다.
또한 많은 측정이 처음에는 작은 시간 간격 및 / 또는 작은 간격 간격으로 평균되는 경우가 많으므로 데이터는 종종 어떤 경우에도 평균에 도달합니다.