'데이터 풀링'이란 정확히 무엇을 의미합니까?


16

'풀링 데이터'는 단순히 이전에 카테고리로 분리 된 데이터를 결합하는 것을 의미한다고 생각했습니다. 본질적으로 카테고리를 무시하고 데이터 세트를 하나의 거대한 데이터 풀로 만듭니다. 이것이 통계 적용보다 용어에 대한 질문이라고 생각합니다.

예를 들어 : 나는 두 개의 사이트를 비교하고 싶습니다. 각 사이트에는 두 가지 년 유형 (양호한 유형)이 있습니다. 두 사이트를 '전체'(즉, 연도 유형을 무시)로 비교하려면 각 사이트 내에서 데이터를 풀링한다고 말하는 것이 맞습니까? 또한 몇 년 동안의 데이터가 좋은 유형과 나쁜 년 유형으로 구성되어 있기 때문에 각 사이트 내에서 '좋은 연도'와 '나쁜 연도'데이터 세트를 달성하기 위해 몇 년 사이에 데이터를 모으고 있다고 말하는 것이 맞습니까? 당신의 도움을 주셔서 감사합니다! 송아지

답변:


13

예, 당신의 예는 정확합니다.

옥스포드 영어 사전은 수영장 을 다음과 같이 정의 합니다 .

수영장, v.

(푸 ː)

1.1 트랜스 합의에 따라 분배 할 보통 주식 또는 자금을 투입하는 행위 공통의 이익을 위해 (자본 또는 이익)을 결합하는 것; 투기. 경쟁하는 철도 회사 등의 : 공유 또는 나누기 (교통 또는 영수증).

다른 예는 다음과 같습니다.

남성과 여성의 물질 X의 혈중 농도를 측정합니다. 실험 대상의 성별을 무시하고 데이터를 모아서 두 그룹간에 통계적 차이가 표시되지 않습니다 .

통계적으로 올바른지 여부는 특정 사례에 따라 크게 다릅니다.


12

풀링은 데이터 결합을 의미 할 수 있지만 원시 데이터가 아닌 정보 결합을 의미 할 수도 있습니다. 풀링의 가장 일반적인 용도 중 하나는 분산을 추정하는 것입니다. 두 모집단이 분산이 같지만 반드시 같은 평균이 아니라고 생각하면 두 그룹의 표본에서 분산의 두 추정치를 계산 한 다음이를 모아서 (가중 평균을 취하여) 단일 추정치를 얻을 수 있습니다. 공통 분산. 평균이 같지 않으면 분산 추정치가 팽창하기 때문에 결합 된 데이터로부터 분산의 단일 추정치를 계산하지 않습니다.


감사합니다 @Greg. 명확하게하기 위해 (문헌과 분산을 결합하려고하기 때문에) 여러 인구에 대해 '평균'분산을 얻으려면 계산 된 분산의 가중 평균을 취할 수 있습니까? 이러한 차이에 어떻게 가중치를 적용합니까? 각 인구가 1이 아닌가?
Mog

표본 크기가 같으면 단순 평균이 작동하는 경향이 있습니다. 일반적으로 우리는 각 데이터 포인트에 동일한 가중치를 부여하고 표준 공식은 각 분산에 자유도 (또는 그룹 n-1보다 분모의 수)를 곱한 다음 모든 조각을 합한 다음의 합으로 나눕니다. 자유도 (모든 n_i-1)
Greg Snow
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.