상관 관계를 개선하기 위해 데이터 집합에 평균을 사용할 수 있습니까?


9

종속적이고 독립적 인 변수가있는 데이터 세트가 있습니다. 둘 다 시계열이 아닙니다. 120 개의 관측치가 있습니다. 상관 계수는 0.43입니다

이 계산 후, 12 개의 관측치마다 평균을 갖는 두 변수에 대한 열을 추가하여 108 개의 관측치 (쌍)를 갖는 2 개의 새로운 열을 생성했습니다. 이 열의 상관 계수는 0.77입니다.

이런 식으로 상관 관계가 개선 된 것 같습니다. 이것이 허용됩니까? 평균을 사용하여 독립 변수의 설명력을 높였습니까?


4
스무딩 필터를 통해 데이터를 실행하기 만하면됩니다. 이것은 신호 처리에서 항상 수행되며 완벽하게 수용 가능하며 일반적으로 데이터를 사용하기 전에 필요합니다. 전자 측정에서 항상 발생하는 노이즈를 제거합니다. 그러나 특정 문제에 적합한 지 여부는 달성하려는 대상의 특성과 데이터의 "잡음"과 "품질"의 정도에 달려 있습니다. 방금 "두 시리즈는 시계열이 아닙니다"라는 것을 알게되었으므로 주문 변경 결과가 바뀌기 때문에 당신이 한 일이 의미가 없다고 생각합니다.
Dunk

모두 감사합니다. 내 종속 변수는 베팅 시스템의 월별 결과 결과입니다 (이 결과는 관련이 없습니다). 독립 변수는 내가 구성한 지표의 결과입니다. 이 지표는 특정 달에 스포츠 경기 점수가 얼마나 극단적 이었는지에 대한 점수를 생성합니다 (이 스포츠 결과는 관련이 없음). 상관 관계 계수가 크게 향상되었다는 사실에 놀랐지 만 내가 한 일이 의미가 없다고 의심했습니다.
user2165379

2
확실하지는 않지만 데이터를 평균하면 비슷한 결과를 얻을 수 있다고 생각합니다. 평균화는 이상치의 영향을 줄인다고 생각합니다. 따라서 상관 관계가 개선되어야합니다. 비록 일부 교활한 괴짜가 반대의 영향을 줄 수있는 잘 선택된 데이터를 얻을 수는 있지만 실제로는 그런 데이터가 발생할 것이라고는 기대하지 않습니다.
덩크

이 데이터의 용도를 지정했는지 확인할 수 없습니다. 그러나 일반적으로 지정된 대상에게 데이터를 제시 할 때 데이터가 파생 된 방법에 대한 정보를 제공하는 것이 좋습니다.
Jon Milliken

3
평균값의 상관 관계는 무엇을 나타내는가? 더 이상 원래 변수 사이의 상관 관계에 대한 합리적인 추정치가 아닙니다.
Glen_b-복지 주 모니카

답변:


15

두 개의 벡터를 보도록하겠습니다. 첫 번째는

    2 6 2 6 2 6 2 6 2 6 2 6

두 번째 벡터는

   6 2 6 2 6 2 6 2 6 2 6 2

얻을 피어슨 상관 관계 계산

cor(a,b)
[1] -1

그러나 값의 연속 쌍의 평균을 취하면 두 벡터가 동일합니다. 동일한 벡터는 상관 관계가 1입니다.

  4 4 4 4 4 4  

이 간단한 예제는 메소드의 단점을 보여줍니다.

편집 :보다 일반적으로 설명하려면 : 상관 계수는 다음과 같은 방식으로 계산됩니다.

이자형[(엑스μ엑스)(와이μ와이)]σ엑스 σ와이

일부 평균 엑스와 일부 와이의 차이점을 바꾼다 엑스μ엑스 뿐만 아니라 와이μ와이.


1
마크 업을 추가했지만 정의 할 수 있고 정의해야합니다. μσ명시 적으로 용어.
Nick Cox

감사합니다. 이것은 평균을 사용하여 결과가 '부풀려져'평균화되고 평균화없이 관측 값을 사용하는 것이 항상 더 낫다는 것을 의미합니까?
user2165379

가설 검정의 경우 평균이 아닌 데이터 자체를 살펴 봐야합니다. 다른 도메인에서는 설명 통계가 유용한 도구 일 수 있습니다. 또한 Quantile (특히 중앙값) 및 분산, 왜도 및 첨도와 같은 더 높은 (중앙 집중식) 모멘트와 같은 다른 기술 통계량을 살펴 봐야합니다. 그러나이 경우에는 유용하지 않습니다. 벡터 ab 는 동일한 Quantile, 동일한 모멘트 및 동일한 중앙 집중식 모멘트를 갖습니다.
Ferdi

1
평균화는 준-랜덤 산란을 제거하여 상관 관계를 증가시키는 경향이 있지만 충분히 왜곡 된 평균화는 상관 관계를 0으로 밀어 낼 수 있습니다.
Nick Cox

감사합니다. 따라서 평균화가 일반적으로 상관 관계를 증가시키는 경향이 있다면 이것이 개선이 아님을 암시합니까? 아니면 준 랜덤 산란이 제거되어 개선 되었습니까?
user2165379

10

평균화는 매력적이거나 편리 할 수 ​​있습니다. 또한 최악의 속임수에는 속임수의 원천이 될 수 있으므로 평균화에 대한 분명한 근거가있는 경우에도주의 깊게 밟으십시오.

여기 좋은 생각이 아닌 상황이 있습니다. 그룹을 신중하게 정의하면 일반적으로 데이터를 두 변수에 대해 서로 다른 두 개의 요약 지점으로 줄일 수 있습니다. 그리고 당신은 크기와 완벽한 상관 관계를 달성 할 것입니다1. 축하합니다! 여기에서의 개선은 절차에 대한 독립적 인 좋은 이유없이 가짜입니다. 위험에 접근하기 위해이 극단적 인 경우에 접근 할 필요는 없습니다.

평균화가 의미가있는 상황이 있습니다. 예를 들어 계절 변동이 거의 없거나 전혀 관심이없는 경우 연간 값을 평균하면 해당 연간 값에 집중할 수있는 데이터 집합이 줄어 듭니다.

다양한 분야에서, 연구자들은 개인, 카운티, 주, 국가 (실 용어가 가장 의미있는 것을 대체하는 것)에 대한 실업과 범죄 사이의 매우 다른 규모의 상관 관계에 관심이있을 수 있습니다.

관심과 종종 추론의 주요 원인은 다양한 규모 나 수준에서 무슨 일이 일어나고 있는지 해석하는 데 있습니다. 예를 들어, 지역의 실업률과 범죄율 사이의 높은 상관 관계가 반드시 실업자가 범죄자가되는 경향이 더 높은 것은 아닙니다. 이를 명확하게하려면 개인에 대한 데이터가 필요합니다. 데이터 제공은 아마도 경제 나 기밀 유지의 문제와 같이 가장 흥미롭지 않은 규모로만 데이터를 사용할 수 있다는 점에서 최대한 어색 할 수 있습니다.

또한 많은 측정이 처음에는 작은 시간 간격 및 / 또는 작은 간격 간격으로 평균되는 경우가 많으므로 데이터는 종종 어떤 경우에도 평균에 도달합니다.


3
평균을 내릴 수있는 여러 가지 방법이있을 수 있음을 강조하면서 @Ferdi의 대답을 에코합니다. 이것은 불확실성의 원인이됩니다. 작은 영역을 더 크게 모으는 데 어려움이 특히 심각합니다.
Nick Cox
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.