데이터 크기가 거대 할 때 회귀 분석에서 통계적 유의성은 어떻게 되었습니까?


13

whuber 가 다음과 같이 흥미로운 점을 지적한 대규모 회귀 ( link ) 에 관한이 질문을 읽었습니다 .

"거의 모든 통계 테스트는 너무 강력하여"유의 한 "효과를 거의 확실하게 확인할 수 있습니다. 유의성보다는 효과 크기와 같은 통계적 중요성에 더 집중해야합니다."

--- 우버

이것이 입증 될 수있는 것이거나 실제로 어떤 일반적인 현상인지 궁금합니다.

증명 / 토론 / 시뮬레이션에 대한 포인터가 도움이 될 것입니다.


1
효과 크기가 중요합니다. (Glen_b의 답변에 +1). 간단한 예를 들자면, 우리가 비만인 경우 값 인데도 한 달 후에 체중이 0.05kg 감소하면 기존 식단을 더 비싼 식단으로 바꾸지 않을 것 입니다. 우리는 여전히 비만하고 가난 할 것입니다. 모두에게 우리는 그러한 가벼운 체중 감소가 단지 건강 진료소 때문일 수 있다는 것을 알고 있습니다. 그 기록은 엘리베이터가없는 건물의지면에서 같은 건물의 4 층으로 이동 한 것입니다. (Nice question + 1)0.0000000001p0.0000000001
usεr11852

답변:


10

꽤 일반적입니다.

작지만 0이 아닌 효과가 있다고 상상해보십시오 (즉, 테스트에서 선택할 수있는 null과의 편차).

작은 표본 크기에서 기각 가능성은 제 1 종 오류율에 매우 가깝습니다 (잡음이 작은 효과를 지배 함).

표본 크기가 커짐에 따라 추정 효과가 해당 모집단 효과에 수렴해야하며, 동시에 null 효과가 예상 효과에 충분히 근접 할 때까지 추정 효과의 불확실성이 줄어 듭니다 (보통 ). 모집단에서 무작위로 선택한 표본에서 여전히 그럴듯하다는 사실은 사실상 0으로 줄어 듭니다.n

다시 말해, 거의 모든 실제 상황에서 본질적으로 항상 널과 약간 의 편차가 있기 때문에 점 널이 있으면 결국 거부가 확실해집니다 .


"... 거의 모든 실제 상황에서 본질적으로 항상 널과 약간의 편차가있을 것입니다." 그래서 거기에 있고 심지어 그것을 볼 수도 있습니다. 그것은 오히려 좋은 재산일까요?
Trilarion

여기서 "Null"은 계수가 0과 같다는 귀무 가설을 나타냅니다.
Arash Howaida

Glen_b의 대답은 일반적이며 점 null을 사용하는 가설 검정에 적용 가능하다고 생각합니다. 회귀의 맥락에서, 예, 널은 계수가 0과 같다는 것입니다. 그래도 내 자신의 이해 ...
Bayesric

4

이것은 증거는 아니지만 실제로 샘플 크기의 영향을 나타내는 것은 어렵지 않습니다. Wilcox (2009)의 간단한 예제를 약간 변경하여 사용하고 싶습니다.

일반적인 불안 척도에 대해 한 연구원이 대학생 인구의 평균이 50 명 이상이라고 주장한다고 상상해보십시오.이 주장을 확인하기 위해 10 명의 대학생이 무작위로 테스트를 목표로 샘플링한다고 가정합니다 와 . (Wilcox, 2009 : 143)α = .05H0:μ50α=.05

이 분석에 t-test를 사용할 수 있습니다.

T=X¯μos/n

표본 평균 ( )이 45이고 표본 표준 편차 ( )가 11 이라고 가정하면 , sX¯s

T=455011/10=1.44.

자유도 인 스튜던트 분포 의 임계 값을tν 포함하는 표를 보면 , , 입니다. 따라서 이면 귀무 가설을 기각 할 수 없습니다. 이제 표본 평균과 표준 편차가 같지만 100 개의 관측치가 있다고 가정 해 봅시다.v=101P(T1.83)=.05T=1.44

T=455011/100=4.55

용 , , 우리는 거부 할 귀무 가설. 다른 모든 것을 일정하게 유지하고 표본 크기를 늘리면 분모가 줄어들고 표본 분포의 임계 (거부) 영역에 값이있을 가능성이 높습니다. 참고 평균의 표준 오차의 추정이다. 따라서 유사한 해석이 선형 회귀에서 얻은 회귀 계수에 대한 가설 검정에 어떻게 적용되는지 확인할 수 있습니다. 여기서 .v=1001P(T1.66)=.05s/nT=β^jβj(0)se(β^j)


Wilcox, RR, 2009. 기본 통계 : 기존 방법 및 현대 통찰력 이해 . Oxford University Press, 옥스포드.


1
답변 해주셔서 감사합니다. 귀하의 답변은 Glen_b의 답변에 대한 구체적인 데모를 제공합니다. 샘플 크기가 매우 크면 null에서 작은 편차 (실제로는 항상 작은 편차가 있음)가 중요한 효과로 포착됩니다.
Bayesric

2

회귀 분석에서 전체 모형에 대한 검정은 F에 있습니다.

RSS1RSS2

F=RSS1RSS2p2p1RSS2np2
여기서 RSS는 잔차 제곱합이고 p는 매개 변수 수입니다. 그러나이 질문의 핵심은 하위 분모의 N입니다. 이 얼마나 가까이 N이 F가 커집니다. 따라서 F가 커질 때까지 N을 늘리십시오.RSS1RSS2

1
답변 해주셔서 감사합니다. 그러나 나는 "N이 커지면 F가 커진다"는 것에 회의적이다. N이 증가하고 RSS2도 증가하면 F가 커지는 이유가 명확하지 않습니다.
Bayesric

@Peter Flom 이것은 실현되지 않았지만 여기서 stats.stackexchange.com/questions/343518/…를
user3022875
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.