자유도를 이해하는 방법?


257

에서 위키 백과 , 통계의 자유도의 세 가지 해석이있다 :

통계에서 자유도는 통계 의 최종 계산 에서 자유롭게 변할 수있는 값의 수입니다 .

통계 매개 변수의 추정치는 다른 양의 정보 또는 데이터를 기반으로 할 수 있습니다. 모수의 추정치에 들어가는 독립적 인 정보 의 수를 자유도 (df)라고합니다. 일반적으로 모수 추정치의 자유도는 추정치에 들어가는 독립 스코어 의 수에서 모수 자체 추정의 중간 단계로 사용되는 모수의 수를 뺀 값 과 같습니다 (샘플 분산에서 하나는 표본 평균이 유일한 중간 단계이기 때문입니다.

수학적으로 자유도는 랜덤 벡터 영역의 차원 이거나 본질적 으로 '자유'구성 요소의 수입니다 .

대담한 단어는 내가 이해하지 못하는 것입니다. 가능하면 일부 수학적 공식은 개념을 명확하게하는 데 도움이됩니다.

또한 세 가지 해석이 서로 동의합니까?



답변:


242

이것은 미묘한 질문입니다. 그러한 인용문을 이해 하지 않으 려면 사려 깊은 사람이 필요합니다 ! 그것들은 암시 적이지만 정확하게 또는 일반적으로 올바른 것은 없다는 것이 밝혀졌습니다. 나는 완전한 설명을 할 시간이 없었고 (여기에 공간이 없다), 나는 그것이 제안하는 한 가지 접근법과 통찰력을 공유하고 싶다.

자유도 (DF) 개념은 어디에서 발생합니까? 기본 치료에서 발견되는 맥락은 다음과 같습니다.

  • 학생 t 테스트 및 (두 집단은 서로 다른 차이를 가지고)를 베렌스 - 피셔 문제에 대한 웰치 또는 Satterthwaite 솔루션으로 그 변종.

  • 분산의 샘플링 분포와 관련이있는 카이 제곱 분포 (독립 표준 표준의 제곱의 합으로 정의) .

  • F 테스트 (추정 분산의 비율).

  • 카이 제곱 테스트 , 비상 테이블의 독립성과 분배 추정치의 적합도에 대한 (나) 테스트 (A) 테스트에서 그 용도를 포함하는 것을 특징으로하는 방법.

실제로,이 테스트는 정확한 (정규 변이에 대한 스튜던트 t- 검정 및 F- 검정)에서 좋은 근사치 (학생 t- 테스트 및 너무 나쁘게 치우 치지 않은 데이터에 대한 Welch / Satterthwaite 테스트)까지 색 영역을 실행합니다. ) 점근 적 근사 (카이 제곱 검정)를 기반으로합니다. 이들 중 일부의 흥미로운 측면은 비 통합 "자유도"(Welch / Satterthwaite 테스트 및 카이 제곱 테스트)의 모양입니다. 이것은 DF가 주장한 것들이 아니라는 첫 번째 힌트이므로 특히 흥미 롭습니다 .

우리는 문제의 일부 주장에서 즉시 처분 할 수 있습니다. "통계의 최종 계산"은 잘 정의되어 있지 않기 때문에 (아마도 계산에 어떤 알고리즘을 사용하는지에 달려 있음) 모호한 제안 일뿐 아니라 더 이상 비판 할 가치가 없습니다. 마찬가지로, "추정에 들어가는 독립 점수의 수"나 "중간 단계로 사용되는 매개 변수의 수"도 잘 정의되어 있지 않습니다.

"추정에 들어가는 독립적 인 정보" 는 다루기가 어렵습니다. 여기에는 관련 될 수있는 "독립적"이라는 두 가지 상이하지만 밀접하게 관련된 의미가 있기 때문입니다. 하나는 랜덤 변수의 독립성입니다. 다른 하나는 기능적 독립성입니다. 간략화를 위해, 가령 세 측면 길이의 - 후자의 예로서, 우리는 피사체의 형태 계측 학적 측정 값을 수집 가정 , , , 표면적을 및 볼륨 의 나무 블록 세트. 세 변의 길이는 독립적 인 랜덤 변수로 간주 될 수 있지만 5 개의 변수는 모두 종속 RV입니다. 다섯도 기능적으로Y Z S = 2 ( X Y + Y Z + Z X ) V = X Y Z ( X , Y , Z , S , V ) R 5 ω R 5 f ω g ω f ω ( X ( ψ ) ) ... , V ( ψ가 ) ) = 0 g ωXYZS=2(XY+YZ+ZX)V=XYZ때문에 종속 공역 ( 하지 벡터 값 랜덤 변수의 "도메인"!) 의 입체 폴드 아웃 트레이스 . (따라서 로컬에서 이면 대해 두 가지 함수 및 가 있습니다. 및 점 "근처" 및 유도체 및 에서 평가(X,Y,Z,S,V)R5ωR5fωgωfω(X(ψ),,V(ψ))=0ψ ω f g ω ( X , S , V )gω(X(ψ),,V(ψ))=0ψωfgω선형 독립적 임) 단 -. 여기 키커 - 블록에 대한 많은 확률 대책 같은 변수의 서브 세트 이다 의존 확률 변수 그러나 기능적으로 독립.(X,S,V)

이러한 잠재적 모호성에 대해 경고를 받으면 (a) 간단하고, (b) 사람들이 DF에 대해 실제로 알아야하는 일반적인 상황 중 하나이기 때문에 시험을위한 카이 제곱 적합도 검정을 유지합시다 . p- 값이 맞고 (c) 종종 잘못 사용됩니다. 다음은이 테스트의 가장 논란이 적은 적용에 대한 간략한 개요입니다.

  • 모집단의 표본으로 간주되는 데이터 값 모음 있습니다.(x1,,xn)

  • 분포의 일부 매개 변수 를 추정했습니다 . 예를 들어 정규 분포 의 평균 및 표준 편차 를 추정하여 모집단이 정상적으로 분포되어 있지만 (데이터를 얻기 전에) 또는 가 무엇인지 합니다.θ 1 θ 2 = θ p θ 1 θ 2θ1,,θpθ1θ2=θpθ1θ2

  • 사전에 데이터에 대해 "bins" 세트를 작성했습니다 . 빈이 데이터에 의해 결정될 때 문제가 발생할 수 있습니다. 빈이 자주 수행되는 경우에도 마찬가지입니다. 이러한 빈을 사용하면 데이터가 각 빈 내의 카운트 세트로 줄어 듭니다. 의 실제 값이 무엇인지 예상하여 각 빈이 대략 같은 수를 갖도록 정렬했습니다. (동일 확률 비닝은 카이 제곱 분포가 설명 될 카이 제곱 통계량의 실제 분포에 대한 실질적인 근사치임을 보장합니다.)( θ )k(θ)

  • 거의 모든 빈의 개수가 5 이상이어야한다는 것을 확인하기에 충분한 데이터가 있습니다. (이는 통계량 의 샘플링 분포 가 일부 분포에 의해 적절하게 추정 될 수 있기를 희망 합니다.)χ 2χ2χ2

모수 추정값을 사용하여 각 구간의 예상 카운트를 계산할 수 있습니다. 카이 제곱 통계량은 비율의 합입니다

(observedexpected)2expected.

이것은 많은 당국자들이 카이 제곱 분포를 (매우 근사치로) 가져야한다고 말합니다. 그러나 그러한 배포판에는 온 가족이 있습니다. 그것들은 종종 "자유도 (degrees of freedom)"라고 불리는 매개 변수 로 구별됩니다. 를 결정하는 방법에 대한 표준 추론 은 다음과 같습니다.ννν

나는 카운트가 있습니다. 그것은 조각의 데이터입니다. 그러나 그들 사이 에는 ( 기능적 ) 관계가 있습니다. 우선, 카운트의 합이 과 같아야한다는 것을 미리 알고 있습니다. 그것은 하나의 관계입니다. 데이터에서 두 개의 (또는 일반적으로 ) 매개 변수를 추정했습니다 . 즉 두 개의 (또는의 제공) 추가 관계를 총 관계를. 그것들 (매개 변수들)이 모두 ( 기능적으로 ) 독립적 이라고 가정하면 , ( 기능적으로 ) 독립적 인 "자유도" 만 남습니다 . 에 사용할 값 입니다.k n p p p + 1 k p 1 νkknppp+1kp1ν

이 추론의 문제 (질문에서 인용문이 암시하는 계산의 일종) 는 특별한 추가 조건이있을 때를 제외하고는 잘못되었다는 것입니다. 또한, 이러한 조건은 없다 아무 매개 변수의 수와 데이터의 "구성 요소"의 숫자, 독립 (기능 또는 통계)과는을,도 아무것도 다른 원래의 질문에 언급.

예를 보여 드리겠습니다. (가능한 한 명확하게하기 위해 적은 수의 구간을 사용하고 있지만 필수는 아닙니다.) 20 개의 독립적이고 동일하게 분포 된 (iid) 표준 정규 변량을 생성하고 일반적인 공식으로 평균과 표준 편차를 추정합니다 ( 평균 = 합계 / 횟수 ). 적합도를 테스트하려면 표준 법선의 사 분위수에 -0.675, 0, +0.657의 컷 포인트를 가진 4 개의 구간을 만들고이 구간 수를 사용하여 카이 제곱 통계량을 생성하십시오. 인내가 허락하는대로 반복하십시오. 나는 10,000 번의 반복을 할 시간이 있었다.

DF에 대한 표준 지식은 우리가 4 개의 구간과 1 + 2 = 3 제약 조건을 가지고 있다고 말하며, 이러한 10,000 Chi-squared 통계의 분포는 1 DF의 Chi-squared 분포를 따라야 함을 의미합니다. 히스토그램은 다음과 같습니다.

그림 1

어두운 파란색 선은의 PDF 그래프 우리가 생각 하나 일 것입니다 - - 어두운 빨간색 선이의 그래프하면서 유통 분포를 (이 좋은 것 누군가 이 잘못되었다고 말하면 추측하십시오 ). 데이터에 적합하지 않습니다.χ 2 ( 2 ) ν = 1χ2(1)χ2(2)ν=1

작은 크기의 데이터 세트 ( = 20) 또는 빈 수의 작은 크기로 인해 문제점이 발생할 수 있습니다 . 그러나 데이터 집합이 매우 많고 빈 수가 많더라도 문제가 지속됩니다. 이는 단순히 근사치 근사치에 도달하는 데 실패한 것이 아닙니다.n

카이 제곱 테스트의 두 가지 요구 사항을 위반했기 때문에 문제가 발생했습니다.

  1. 모수의 최대 우도 추정값을 사용해야합니다 . 실제로이 요구 사항은 약간 위반 될 수 있습니다.

  2. 실제 데이터가 아닌 카운트를 기준으로 추정해야합니다 ! (이것은 중요 합니다.)

그림 2

빨간색 막대 그래프는 이러한 요구 사항에 따라 10,000 개의 개별 반복에 대한 카이 제곱 통계를 나타냅니다. 물론, 원래 예상했던대로 곡선 (허용되는 양의 샘플링 오류가 있음)을 눈에 띄게 따릅니다 .χ2(1)

난 당신이 오는 보았다 희망 - - 이러한 비교의 핵심은 올바른 DF는 P-값을 계산하기 위해 사용하는 것입니다 많은 것들에 따라 다른 매니 폴드의 크기, 기능 관계의 수, 또는 일반 variates의 형상에 비해 . 수량 간의 수학적 관계와 데이터 분포 , 통계 및 이들로부터 형성된 추정치 에서 볼 수 있듯이 특정 기능 의존성 사이에는 미묘하고 섬세한 상호 작용이 있습니다. 따라서 다변량 정규 분포의 기하 구조, 기능적 독립성, 매개 변수의 개수 또는이 특성의 다른 측면에서 DF를 적절히 설명 할 수는 없다.

그러므로 "자유도"는 (t, Chi-squared 또는 F) 통계량의 샘플링 분포가 무엇이어야하는지 제안 하는 휴리스틱 이라는 것을 알 수 있습니다 . 그것이 긍정적이라는 믿음은 심각한 오류를 초래합니다. (예를 들어, 최고 히트 "카이는 적합도 제곱"검색 구글에는 것입니다 아이비 리그 대학에서 웹 페이지 이 완전히 잘못의 대부분을 얻는다! 특히, 자사의 지침에 따라 시뮬레이션은 카이 제곱 보여줍니다 값은 7 DF를 갖는 것이 실제로 9 DF를 갖는 것으로 권장됩니다.)

이러한 미묘한 이해를 통해 문제의 Wikipedia 기사를 다시 읽는 것이 좋습니다. 세부 사항에서 DF 휴리스틱이 작동하는 위치와 근사치 또는 전혀 적용되지 않는 위치를 지적하면서 올바르게 처리됩니다.


여기에 설명 된 현상 (Ki-squared GOF 테스트에서 예상치 못한 높은 DF)에 대한 좋은 설명이 Kendall & Stuart, Volume 5의 제 2 판에 나타납니다 . 이 유용한 질문으로 가득 찬이 훌륭한 본문으로 되돌아 갈 수있는이 질문에 대한 기회에 감사합니다.


편집 (2017 년 1 월)

다음은 R"DF에 대한 표준 지식 ..."에 따라 그림을 생성하는 코드입니다.

#
# Simulate data, one iteration per column of `x`.
#
n <- 20
n.sim <- 1e4
bins <- qnorm(seq(0, 1, 1/4))
x <- matrix(rnorm(n*n.sim), nrow=n)
#
# Compute statistics.
#
m <- colMeans(x)
s <- apply(sweep(x, 2, m), 2, sd)
counts <- apply(matrix(as.numeric(cut(x, bins)), nrow=n), 2, tabulate, nbins=4)
expectations <- mapply(function(m,s) n*diff(pnorm(bins, m, s)), m, s)
chisquared <- colSums((counts - expectations)^2 / expectations)
#
# Plot histograms of means, variances, and chi-squared stats.  The first
# two confirm all is working as expected.
#
mfrow <- par("mfrow")
par(mfrow=c(1,3))
red <- "#a04040"  # Intended to show correct distributions
blue <- "#404090" # To show the putative chi-squared distribution
hist(m, freq=FALSE)
curve(dnorm(x, sd=1/sqrt(n)), add=TRUE, col=red, lwd=2)
hist(s^2, freq=FALSE)
curve(dchisq(x*(n-1), df=n-1)*(n-1), add=TRUE, col=red, lwd=2)
hist(chisquared, freq=FALSE, breaks=seq(0, ceiling(max(chisquared)), 1/4), 
     xlim=c(0, 13), ylim=c(0, 0.55), 
     col="#c0c0ff", border="#404040")
curve(ifelse(x <= 0, Inf, dchisq(x, df=2)), add=TRUE, col=red, lwd=2)
curve(ifelse(x <= 0, Inf, dchisq(x, df=1)), add=TRUE, col=blue, lwd=2)
par(mfrow=mfrow)

40
이것은 놀라운 답변입니다. 당신은 이것을 위해 인터넷에서 이깁니다.
Adam

6
@caracal : 아시다시피, 원래 데이터에 대한 ML 방법은 일상적이고 널리 퍼져 있습니다. 예를 들어 정규 분포의 경우 의 MLE은 표본 평균이고 의 MLE은 표본 표준 편차의 제곱근입니다. ( 일반적인 바이어스 보정 없이 ). 카운트를 기반으로 추정치를 얻기 위해 카운트에 대한 우도 함수를 계산했습니다. 컷 포인트에서 CDF의 값을 계산하고 로그를 취하고 카운트를 곱한 다음 합산하여 일반 최적화 소프트웨어를 사용하여 최적화했습니다. σμσ
whuber

4
@caracal 더 이상 필요하지는 않지만 R이제 비닝 된 데이터의 ML 피팅을위한 코드 예제가 관련 질문에 나타납니다 : stats.stackexchange.com/a/34894 .
whuber

1
"이 추론의 문제 (질문의 인용문에서 암시하는 계산의 종류)는 특별한 추가 조건이있을 때를 제외하고는 잘못되었다는 것입니다." 나는 지금 (거의) 선형 모델 시퀀스의 두 학기를 통해 왔으며, 자유도가 2 차 형태의 "중간"에있는 행렬의 순위가되는 것을 이해합니다. 이 "추가 조건"은 무엇입니까?
Clarinetist

4
@ 클라리넷 내 대답의 주된 요점은 당신이 배운 것은 두 가지 DF 개념의 혼란에 기초하고 있다는 것입니다. 이러한 혼동은 표준 최소 제곱 법칙 이론 모델에는 문제가되지 않지만, 비상 테이블 분석과 같은 단순하고 일반적인 상황에서도 오류가 발생합니다. 그 행렬 순위는 기능적 DF를 제공합니다 . 최소 자승 선형 모델에서는이 일어나는 등 F 테스트 같은 특정 유형의 테스트를위한 정확한 DF를 얻었다. 카이 제곱 테스트의 경우 특수 조건은 나중에 답변 (1) 및 (2)로 열거됩니다.
whuber

74

또는 간단히 : 통계 값이 변경되지 않도록 변경할 수있는 숫자 형 배열의 요소 수입니다.

# for instance if:
x + y + z = 10

당신이 예를 위해, 변경할 수 있습니다 XY 무작위,하지만 당신은 변경할 수 없습니다 Z (당신이 할 수있는,하지만 무작위로 그러므로 당신이하지 않은 무료 - 당신이 값을 변경할 수 있습니다 원인 '을 변경 하비의 의견을 참조) 통계량 (Σ = 10). 따라서이 경우 df = 2입니다.


19
"z를 변경할 수 없습니다"라고 말하는 것은 올바르지 않습니다. 실제로, 합계를 10으로 만들기 위해 z를 변경해야합니다. 그러나 변경되는 항목에 대한 선택 (자유 없음)이 없습니다. 두 값은 변경할 수 있지만 세 번째 값은 변경할 수 없습니다.
Harvey Motulsky

53

이 개념은 차원 유클리드 기하학, 부분 공간 및 직교 투영법에 대한 약간의 일반적인 지식이 주어지면 수학을 정확하게하기가 어렵지 않습니다 .n

경우 이다 정사영 에서 R의 N (A)에 P 차원 서브 스페이스 L은X는 임의적 N - 벡터는 다음 P의 X가 에있는 L , X - P의 XP를 x는 직교하고있다 (X) - P (X) L 에 의 직교 보완 L . 이 직교 보수의 치수 L n - p 입니다. 만약PRnpLxnPxLxPxPxxPxLLLnp n- 차원 공간에서 자유롭게 변할 수 있고, x - P x n - p 차원 공간에서 자유롭게 변할 수있다. 이러한 이유로 우리는 x - P x n - p 자유도를 가진다고말합니다.xnxPxnpxPxnp

경우 때문에 이러한 고려 사항이 통계에 중요한 입니다 N 차원 임의의 벡터와 L은 그 평균의 모델, 즉, 평균 벡터 E ( X는 )L 우리는 전화, X - P X 의 벡터 잔차를 잔차를 사용하여 분산을 추정합니다. 잔차 벡터는 n - p 자유도를 갖습니다 . 즉, 차원 n - p 의 부분 공간으로 제한됩니다 .XnLE(X)LXPXnpnp

의 좌표 가 독립적이고 동일한 분산 σ 2 로 정규 분포 인 경우Xσ2

  • 벡터 X - P X는 독립적이다.PXXPX
  • 만약 이면 잔차 벡터의 제곱 규범의 분포 는 척도 모수 갖는 분포 이고 또 다른 모수 인 자유도 .| | X P X | | 2 x 2 σ 2 n pE(X)L||XPX||2χ2σ2np

이러한 사실에 대한 증거 스케치는 다음과 같습니다. 두 결과는 정규 분포를 기반으로 한 통계 이론의 발전을위한 핵심 요소입니다. 이것이 -distribution에 매개 변수가있는 이유이기도합니다 . 축척 모수 및 모양 모수 인 분포 이기도 하지만, 위의 맥락에서 자유도 측면에서 매개 변수화하는 것은 당연합니다. Γ 2 σ 2 ( n p ) / 2χ2Γ2σ2(np)/2

나는 위키피디아 기사에서 인용 한 어떤 글도 특히 깨달음을 찾지 못한다는 것을 인정해야하지만, 실제로 잘못되었거나 모순되지도 않습니다. 그들은 우리가 분산 모수의 추정치를 계산할 때 잔차에 기초하여 계산할 때, 치수 의 공간에서 자유롭게 변할 수있는 벡터를 기반으로 계산한다고 부정확하고 일반적으로 느슨하게 말합니다 .np

선형 법선 모형 이론 외에 자유도 개념의 사용은 혼란 스러울 수 있습니다. 예를 들어 자유도를 가질 수있는 것에 대한 참조가 있는지 여부에 관계없이 분포 의 매개 변수화에 사용됩니다 . 범주 형 데이터의 통계 분석을 고려할 때 "독립 조각"을 표 이전 또는 이후에 계산해야하는지에 대한 혼동이있을 수 있습니다. 또한, 부분 공간 구속 조건이 아닌 구속 조건, 일반 모형의 경우에도 자유도 개념을 확장하는 방법은 명확하지 않습니다. 효과적인 자유도 라는 이름으로 다양한 제안이 있습니다 .χ2

다른 용도와 자유도의 의미를 고려하기 전에 선형 정규 모형의 맥락에서이를 확신하는 것이 좋습니다. 이 모델 클래스를 다루는 참조 는 선형 모델 이론의 첫 번째 코스 이며, 책의 서문에는 선형 모델에 대한 다른 고전 서적에 대한 추가 참조가 있습니다.

상기 결과의 증명 : 하자 , 분산 행렬임을 유의 및 직교 기저 선택 의 및 직교 기저 of . 그런 다음 은 의 정규 직교 기저입니다 . 하자 나타내고 계수의 - 벡터 이를 바탕으로, 즉 이것은 또한으로서 기록 될 수있다 곳은 는 다음과 직교 행렬입니다σ 2 I Z 1 , ... , Z의 P는 L의 Z의 P + 1 , ... , Z에 N 개의 L Z 1 , ... , Z의 n 개의 R N ~ X N X ~의 X I = Z T의 난의 X . ~ X = Z T X Z z i ~ Xξ=E(X)σ2Iz1,,zpLzp+1,,znLz1,,znRnX~nX

X~i=ziTX.
X~=ZTXZzi 가 있습니다. 그런 다음 는 평균 갖는 정규 분포를 가지며 는 직교 이기 때문에 분산 행렬 를 사용해야합니다 . 이것은 정규 분포의 일반적인 선형 변환 결과에서 비롯됩니다. 기초가 선택되었다 계수되도록 된다 위한 및 계수 되는 위한 . 계수는 상관 관계가없고 공동으로 정상이므로 계수가 독립적이므로 및 X~Z의 σ 2 I의 P의 X ~ X I I = 1 , ... , P X - P X ~ X I I = P + 1 , ... , N P X는 = P는 Σ= 1 ~ XZ 엑스레이를 - P X = n i = p + 1 ~ZTξZσ2IPXX~ii=1,,pXPXX~ii=p+1,,n
PX=i=1pX~izi
| | XPX| | 2=n i=p+1 ~ X 2 i . ξLE( ~ X i)=z T i ξ=0i=p+1,,nziLziξ|
XPX=i=p+1nX~izi
는 독립적입니다. 또한, 만약 이면 경우 이므로 및 . 이 경우 의 합이다 독립적 그 분배 정의 랜덤 변수를 -distributed, A는 스케일 파라미터와 - 분포 및 자유도.
||XPX||2=i=p+1nX~i2.
ξLE(X~i)=ziTξ=0i=p+1,,nziLziξ n - p N ( 0 , σ 2 ) χ 2 σ 2 n - p||XPX||2npN(0,σ2)χ2σ2np

NRH, 감사합니다! (1) 가 안에 있어야하는 이유는 무엇 입니까? (2) 왜 와 가 독립적입니까? (3) 확률 변수 컨텍스트의 dof는 결정적 인 경우 dof에서 정의됩니까? 예를 들어, 이유는 가 랜덤 변수가 아닌 결정적 변수 인 경우에 true이기 때문에 가 입니까? (4) 귀하와 동일한 / 유사한 의견이있는 참고 문헌 (책, 논문 또는 링크)이 있습니까? L P X X - P X | | X P X | | 2 n - p XE(X)LPXXPX||XPX||2npX
Tim

@Tim, 및 는 정상적이고 상관이 없으므로 독립적입니다. X P XPXXPX
mpiktas

@Tim, 나는 대답을 약간 바꾸었고 명시된 결과에 대한 증거를주었습니다. 분포에 대한 결과를 증명하려면 평균이 에 있어야합니다 . 모델 가정입니다. 문헌에서는 선형 노멀 모델 또는 일반 선형 모델을 찾아야하지만, 지금은 출판되지 않은 오래된 강의 노트 만 기억할 수 있습니다. 적절한 참조를 찾을 수 있는지 확인할 것입니다. χ 2Lχ2
NRH

훌륭한 답변입니다. 통찰력에 감사드립니다. 한 가지 질문 : "평균 벡터 는 " 라는 구절의 의미를 잃었습니다 . 설명 할 수 있습니까? 를 정의하려고 합니까? 을 정의하려면 ? 다른 것? 어쩌면이 문장은 너무 많은 일을하거나 너무 간결하게하려고합니다. 당신은 정의 무엇 정교한 단지입니다 : 당신이 언급 맥락에서 ? 이 맥락에서 (정상 iid 좌표의) 이 무엇인지 자세히 설명 할 수 있습니까 ? 그것은 단지가 ? L E L E E ( x 1 , x 2 , , x n ) = ( x 1 + x 2 + + x n ) / n L L = REXLELEE(x1,x2,,xn)=(x1+x2++xn)/nLL=R
DW

@DW 는 기대 연산자입니다. 따라서 는 대한 좌표 적 기대치의 벡터입니다 . 부분 공간 은 의 차원 부분 공간입니다 . 벡터 의 공간이며 이 아닌 공간 이지만 1 차원 일 수 있습니다. 가장 간단한 예는 아마도 모든 좌표 에서 1을 가진 -vector에 의해 스팬 될 때 입니다. 이것은 동일한 평균값을 갖는 의 모든 좌표 모델 이지만 더 복잡한 모델도 가능합니다. E ( X ) X L p R n n R 1 n XEE(X)XLpRnnR1nX
NRH

30

"자유도"라는 용어가 다른 분야에서 작동하는 방식과 실제로 다르지 않습니다. 예를 들어 사각형의 길이, 너비, 면적 및 둘레의 네 가지 변수가 있다고 가정합니다. 당신은 정말로 네 가지를 알고 있습니까? 아닙니다. 자유도는 두 개뿐입니다. 길이와 너비를 알고 있으면 면적과 둘레를 도출 할 수 있습니다. 길이와 면적을 알고 있으면 너비와 둘레를 도출 할 수 있습니다. 면적과 둘레를 알고 있다면 길이와 너비를 구할 수 있습니다 (회전까지). 네 개가 모두있는 경우 시스템이 일관성이 있거나 (모든 변수가 서로 동의 함) 불일치 (사각형이 실제로 모든 조건을 만족시킬 수는 없음)라고 말할 수 있습니다. 사각형은 자유도가 제거 된 사각형입니다.

통계 상 상황이 더 흐려 지지만 아이디어는 여전히 동일합니다. 함수의 입력으로 사용중인 모든 데이터가 독립 변수 인 경우 입력만큼 자유도가 있습니다. 그러나 그들이 어떤 식으로 의존성을 가지고 있다면, 만약 당신이 n-k 입력을 가지고 있다면 나머지 k를 알아낼 수 있고, 실제로 당신은 단지 n-k 자유도를 얻습니다. 그리고 때로는 독립적 인 데이터 비트보다 더 많은 데이터 포인트를 계산하여 데이터가 실제보다 더 신뢰할 수 있거나 더 예측력이 있음을 확신하지 못하게하기 위해 때때로이를 고려해야합니다.

( http://www.reddit.com/r/math/comments/9qbut/could_someone_explain_to_me_what_degrees_of/c0dxtbq?context=3 의 게시물에서 가져옴 )

또한 세 가지 정의 모두 거의 동일한 메시지를 제공하려고합니다.


1
기본적으로 맞습니다.하지만 중간 단락은 상관 관계, 독립 변수 (임의 변수) 및 기능적 독립성 (매개 변수 매개 변수)을 혼동하는 방식으로 읽을 수 있습니다. 상관 관계 독립성을 유지하는 것이 특히 중요합니다.
whuber

@ whuber : 이제 괜찮습니까?
Biostat

3
맞지만 용어를 사용하는 방식은 일부 사람들을 혼란스럽게 할 것입니다. 여전히 임의 변수의 의존성을 기능적 의존성과 명시 적으로 구별하지는 않습니다. 예를 들어, 0이 아닌 상관 관계를 갖는 (비 변성) 이변 량 정규 분포의 두 변수는 (임의 변수로) 종속적이지만 여전히 2 자유도를 제공합니다.
whuber

5
이것은 2009 년에 작성한 레딧 포스트 에서 복사하여 붙여 넣었 습니다 .
hobbs

2
Google 도움말 센터는 다른 사람이 작성한 자료참조 하는 방법에 대한 명확한 지침을 제공 하므로 OP가이 게시물로 돌아와 적절한 조치를 취하고 건설적인 상호 작용에 참여하기를 바랍니다 (당분간은 보지 못했습니다).
chl

19

통계 실습 핸드북의 첫 문장이 정말 마음에 듭니다 . 자유도 장

수학적으로 정교하지 않은 청중으로부터 강사가 가장 두려워하는 질문 중 하나는 "자유도 란 정확히 무엇입니까?"입니다.

이 장을 읽으면 자유도에 대해 잘 이해할 수 있다고 생각합니다.


6
자유의 정도가 아니라 자유도가 중요한지 설명하는 것이 좋을 것입니다. 예를 들어, 1 / n의 분산 추정값이 바이어스되지만 1 / (n-1)을 사용하면 편차가없는 추정값이 생성됩니다.
Tristan

9

Wikipedia는 랜덤 벡터 의 자유도 를 벡터 부분 공간의 크기로 해석 할 수 있다고 주장합니다 . 나는 기본적으로 Wikipedia 항목에 대한 부분 답변과 정교화를 통해 단계별로 진행하고 싶습니다.

제안 된 예는 다른 주제에 대한 연속 변수의 측정 값에 해당하는 임의의 벡터로, 원점 에서 확장되는 벡터로 표현됩니다 . 벡터 에 직교 투영하면 측정 수단 벡터의 투영과 동일한 벡터가 생성됩니다 ( ). 즉 의 점선 벡터 의 벡터에 의해 걸치는 서브 스페이스에이 투영 사람이 . 잔여 벡터 (평균으로부터의 거리) 상에 최소 제곱 투영되는 [ 1[abc]T[111]Tx¯=1/3(a+b+c)[x¯x¯x¯]T1[111]T1degree of freedom(n1)차원 직교이 부분 공간의 보완, 그리고이 , 우리의 경우 벡터의 구성 요소의 총 수 (인 우리가 있기 때문에 의 이것은 의 차이와 함께 의 내적을 구함으로써 간단히 증명할 수 있습니다 및 :n1degrees of freedomn3R3[x¯x¯x¯]T[abc]T[x¯x¯x¯]T

[x¯x¯x¯][ax¯bx¯cx¯]=

=[(a+b+c)3(a(a+b+c)3)]+[(a+b+c)3(b(a+b+c)3)]+[(a+b+c)3(c(a+b+c)3)]

=(a+b+c)3[(a(a+b+c)3)+(b(a+b+c)3)+(c(a+b+c)3)]

=(a+b+c)3[13(3a(a+b+c)+3b(a+b+c)+3c(a+b+c))]

=(a+b+c)3[13(3a3a+3b3b+3c3c)]=0
입니다.

그리고이 관계는 직교하는 평면의 어느 지점으로 확장됩니다 . 이 개념은 왜 t- 분포의 유도 단계 인 ( here and here ).[x¯x¯x¯]T1σ2((X1X¯)2++(XnX¯)2)χn12

세 가지 관측치에 해당하는 점을 보자 . 평균은 이고 벡터 는 평면의 법선 (직교), 입니다. 점 좌표를 평면 방정식 .[355080]T55[555555]T55x+55y+55z=DD=9075

이제이 평면에서 다른 점을 선택할 수 있으며 좌표의 평균은 이며 벡터에 대한 투영도 합니다. 따라서 모든 평균값 (이 예에서는 )에 대해 에서 무한한 수 의 좌표 을 제한없이 선택할 수 있습니다 ( ). 그러나 평면이 에 있기 때문에 세 번째 좌표는 평면의 방정식에 의해 결정됩니다 (또는 에 대한 점의 직교 투영으로 기하학적으로 표시됨) .55[111]T55R22degrees of freedomR3[555555]T

다음은 (화살표)에 직교하는 평면 (세린 색)에있는 세 점 (흰색)을 나타냅니다 . , 및 모두 평면에 있음 ( 부분 공간 ) 그런 다음 구성 요소의 평균이 이고 ( 부분 공간)에 대한 직교 투영법 은 :[555555]T[355080]T[80805][901560]2df55[111]T1df[555555]T


9

수업 시간에는 자유도가 어느 정도인지에 대한 직감을 느끼고 발전시키는 데 도움이되는 "단순한"상황을 사용합니다.

그것은 주제에 대한 일종의 "포레스트 검프 (Forrest Gump)"접근 방식이지만 시도해 볼만한 가치가 있습니다.

평균 및 분산 를 알 수없는 정규 모집단에서 나온 10 개의 독립적 관측치 있다고 가정 합니다.X1,X2,,X10N(μ,σ2)μσ2

관찰 결과 및 대한 정보를 종합적으로 얻을 수 있습니다 . 결국 관측치가 하나의 중심 값 주위로 분산되는 경향이 있습니다. 이는 실제적이고 알려지지 않은 값과 비슷해야 하며, 마찬가지로 가 매우 높거나 매우 낮 으면 관측치를 볼 수 있습니다. 매우 높거나 매우 낮은 값을 각각 모으십시오. (실제 값에 대한 지식이없는 경우)에 대한 하나의 좋은 "대체" 는 관측치의 평균 인 입니다. μσ2μμμX¯

또한 관측치가 서로 매우 가까운 경우, 이는 가 작을 것으로 예상 할 수 있고 가 매우 큰 경우 매우 다른 값을 볼 수 있음을 나타냅니다. 대한 하는 . σ2σ2X1X10

및 의 실제 값이어야하는 주 임금을 베팅하려면 돈을 베팅 할 한 쌍의 값 을 선택 해야합니다 . 소수점 이하 200 자리까지 정확하게 추측하지 않으면 월급을 잃는 것만 큼 극적인 것을 생각하지 마십시오 . 아니. 와 가까울수록 더 많은 보상을 얻는 일종의 프 라이밍 시스템을 생각해 봅시다 .μσ2μμσ2

어떤 의미에서 의 가치에 대한 더 좋고 정보가 많고 정중 한 추측은 수 있습니다 . 그런 의미에서, 당신은 추정 것을 주위에 어떤 값이어야합니다 . 마찬가지로, (현재는 필요하지 않음)에 대한 하나의 좋은 "대체" 는 표본 분산 인 이며 대한 올바른 추정치를 만듭니다 .μX¯μX¯σ2S2σ

만약 당신이 그 대체물들이 와 의 실제 값이라고 믿었다면 , 당신은 아마도 당신이 관측치가 당신에게 의 선물을 얻기 위해 스스로 조율하기에 운이 좋았을 가능성이 매우 희박하기 때문에 당신은 잘못되었을 것입니다 는 와 같고 는 . 아니, 아마 그런 일이 없었을 것입니다.μσ2X¯μS2σ2

하지만 당신은 잘못 정말, 정말,에 비트에서 다양한 잘못의 서로 다른 수준에서 할 수있는 정말 ( "; 다음 주에 당신을보고! 안녕은 안녕, 월급"일명) 비참 잘못.

좋아, 대한 추측으로 를 사용 했다고 가정 해 봅시다 . 및 시나리오 만 고려하십시오 . 첫 번째로, 당신의 관찰은 서로 예쁘고 가깝게 앉아 있습니다. 후자의 경우 관찰 내용이 크게 다릅니다. 어떤 시나리오에서 잠재적 손실에 더 관심을 가져야합니까? 두 번째 것을 생각하면 맞습니다. 에 대한 추정치가 있으면 베팅에 대한 자신감이 매우 합리적으로 바뀝니다. 가 클수록 가 변할 것으로 예상 할 수 있습니다 .X¯μS2=2S2=20,000,000σ2σ2X¯

그러나 및 에 대한 정보 외에도 관측 값에는 또는 에 대한 정보가 아닌 순수한 임의의 변동이 있습니다. μσ2μσ2

어떻게 알 수 있습니까?

자, 논쟁을 위해, 하나님이 계시고, 당신에게 와 의 실제 (그리고 지금까지 알려지지 않은) 가치를 구체적으로 말해 줄 수있는 여유를 가지고 있다고 가정 해 봅시다 .μσ

그리고 여기이 lysergic 이야기의 성가신 플롯 트위스트 : 그는 당신에게 알려줍니다 후에 당신이 당신의 내기를 배치했다. 아마도 당신을 계몽하고, 아마도 당신을 준비하고, 아마도 당신을 조롱 할 것입니다. 어떻게 알 수 있습니까?

글쎄, 그것은 관측에 포함 된 와 에 관한 정보를 이제는 쓸모 없게 만듭니다. 관측치의 중심 위치 및 분산 는 더 이상 실제 값인 및 더 가까이 다가가는 데 도움이되지 않습니다 .μσ2X¯S2μσ2

하나님 께 대해 잘 아는 사람의 장점 중 하나는 를 사용하여 를 정확하게 추측하지 못한 정도 , 즉 추정 오류 를 실제로 알 수 있다는 것입니다 .μX¯(X¯μ)

음, 이므로 (원하는 경우 저를 믿으십시오), (좋아요, 저도 믿어주세요) 그리고 마지막으로 (무엇을 추측합니까?) 또한 또는 대한 정보는 전혀 없습니다 .XiN(μ,σ2)X¯N(μ,σ2/10)(X¯μ)N(0,σ2/10)

X¯μσ/10N(0,1)
μσ2

그거 알아? 대한 추측으로 개별 관측치를 취한 경우 추정 오차 는 로 분배됩니다 . 글쎄, 와 를 추정하는 것 사이에 이므로 선택하는 것이 더 나은 방법입니다. 는 개별 보다 에서 덜 타락하기 쉽습니다 .μ(Xiμ)N(0,σ2)μX¯XiX¯Var(X¯)=σ2/10<σ2=Var(Xi)X¯μXi

어쨌든 도 또는 대해 전혀 정보가 없습니다 .(Xiμ)/σN(0,1)μσ2

"이 이야기는 끝 날까?" 당신은 생각할 수 있습니다. " 및 에 대해 비 정보적인 임의의 변동이 더 있습니까?"라고 생각할 수도 있습니다 .μσ2

[나는 당신이 후자를 생각한다고 생각합니다.]

예, 있습니다!

대한 추정 오차의 제곱 와 나눈 , 는 표준 제곱 의 제곱 분포 인 카이 제곱 분포를 가지고 있습니다. 중 하나에 대한 정보 도 ,하지만 당신은 얼굴을 기대한다 다양성에 대한 정보를 전달하지 않습니다.μXiσ

(Xiμ)2σ2=(Xiμσ)2χ2
Z2ZN(0,1)μσ2

이것은 열 번의 관찰 중 하나 하나에 대한 도박 문제 시나리오와 평균에서 자연적으로 발생하는 매우 잘 알려진 분포입니다. 그리고 또한 10 개의 관측치 변형 수집 : 이제 마지막 녀석은 카이 제곱 분포를 갖지 않습니다. 왜냐하면 카이 제곱 분포의 10 개를 합한 것이므로 모두 서로 독립적입니다 ( 이기 때문에).

(X¯μ)2σ2/10=(X¯μσ/10)2=(N(0,1))2χ2
i=110(Xiμ)2σ2/10=i=110(Xiμσ/10)2=i=110(N(0,1))2=i=110χ2.
X1,,X10). 이러한 단일 카이 제곱 분포는 각각 합계에 거의 동일한 기여를하면서 직면해야하는 임의 변동량에 대한 기여입니다.

각 기여의 가치는 다른 아홉 가지와 수학적으로 동일하지 않지만 분배에서 모두 동일한 예상 된 동작을 갖습니다. 그런 의미에서 그것들은 어떻게 든 대칭 적입니다.

이러한 카이-제곱은 각각 해당 합계에서 기대할 수있는 순수 랜덤 변동량에 대한 기여입니다.

100 개의 관측치가있는 경우 위의 합계 는 더 많은 출처가 있기 때문에 더 클 것으로 예상됩니다 .

동일한 행동을하는 각각의 "기여 소스" 를 자유도 라고 합니다.

이제 한 두 단계 뒤로 물러서서, 자유도에 대한 갑작스러운 도착을 수용하기 위해 필요한 경우 이전 단락을 다시 읽으십시오 .

그러나 각 자유도는 반드시 발생할 것으로 예상되고 또는 의 추측 향상에 아무런 영향을 미치지 않는 하나의 변동 단위로 생각할 수 있습니다 .μσ2

문제는 10 가지 등가 변수의 동작에 의존하기 시작한다는 것입니다. 100 개의 관측치가있는 경우 100 개의 독립적으로 동일하게 동작하여 그 합계에 대해 무작위로 무작위 변동이 발생합니다.

10 Chi-squares의 합은 지금부터 10 자유도를 가진 Chi-squared 분포 라고하며 . 우리는 수학적으로 불리는 지금부터 그 하나의 카이 제곱 분포 (에서 밀도에서 파생 될 수는 확률 밀도 함수에서 시작 그것에서 무엇을 기대해야하는지 설명 할 수 와 카이 제곱 분포를 하나 개의 자유도 및 서면 ), 정규 분포의 밀도에서 수학적으로 도출 할 수 있습니다.χ102χ12

"그래서?" --- 당신은 생각하고 있을지도 모릅니다 .- "하나님 께서 내게 말씀하실 수있는 모든 것들 의 와 의 가치를 말해 주실 때만 좋을 것입니다!"μσ2

실제로 전능하신 신이 너무 바빠서 와 의 가치를 말해 주지 않는다면, 여전히 그 10 개의 근원, 즉 10 개의 자유도를 갖게 될 것입니다.μσ2

당신이 하나님 께 반역하고 그분이 당신을 후원하지 않기를 기대하지 않고 혼자서 모든 것을 시도 할 때 상황이 이상해지기 시작합니다 (하하하; 지금 만!).

당신은 와 에 대한 추정량 와 . 더 안전한 내기 방법을 찾을 수 있습니다.X¯S2μσ2

및 위치에서 및 로 위의 합계를 계산할 수 있습니다 . 입니다. 원래 합계와 동일하지 않습니다.X¯S2μσ2

i=110(XiX¯)2S2/10=i=110(XiX¯S/10)2,

"왜 안돼?" 두 합계의 제곱 안의 용어는 매우 다릅니다. 예를 들어, 모든 관측치가 보다 큰 경우가있을 수 있습니다 .이 경우 이므로 이지만 이므로 . 입니다. μ(Xiμ)>0i=110(Xiμ)>0i=110(XiX¯)=0i=110Xi10X¯=10X¯10X¯=0

더 나쁜 것은, 두 개 이상의 관측치가 다르면 (항상 드물지 않음) 불평등이 엄격합니다.i=110(XiX¯)2i=110(Xiμ)2

"하지만 기다려! 더 있어요!" 에는 표준 정규 분포가 없으며 에는 없습니다 자유도가 1 인 카이 제곱 분포, 카이 제곱 분포가 없습니다. 10 자유도 에는 표준 정규 분포가 없습니다.

XiX¯S/10
(XiX¯)2S2/10
i=110(XiX¯)2S2/10
X¯μS/10

"아무것도 아닌가?"

안 돼 이제 마법이 온다! 참고 또는 이와 동일하게

i=110(XiX¯)2σ2=i=110[Xiμ+μX¯]2σ2=i=110[(Xiμ)(X¯μ)]2σ2=i=110(Xiμ)22(Xiμ)(X¯μ)+(X¯μ)2σ2=i=110(Xiμ)2(X¯μ)2σ2=i=110(Xiμ)2σ2i=110(X¯μ)2σ2=i=110(Xiμ)2σ210(X¯μ)2σ2=i=110(Xiμ)2σ2(X¯μ)2σ2/10
i=110(Xiμ)2σ2=i=110(XiX¯)2σ2+(X¯μ)2σ2/10.
이제 우리는 그 알려진 얼굴로 돌아갑니다.

첫 번째 항에는 자유도가 10 인 카이 제곱 분포가 있고 마지막 항에는 자유도가 1 인 카이 제곱 분포 (!)가 있습니다.

우리는 단순히 동일하게 동작하는 10 개의 가변성 변동 원으로 카이 제곱을 두 부분으로 나눕니다. 한 부분은 하나의 변동 원이있는 카이-제곱이고 다른 하나는 우리가 증명할 수있는 다른 것입니다 (신념의 도약? WO가 승리합니까? )는 9 (= 10-1)의 동일하게 동작하는 변동성 소스가 있고 두 부분이 서로 독립적 인 카이 제곱입니다.

이것은 이미 좋은 소식입니다. 이제 배포판이 나왔습니다.

아아, 그것은 를 사용하는데, 우리는 접근 할 수 없습니다 (하나님 께서 우리의 투쟁을 지켜 보시면서 자신을 즐겁게하고 계신다는 것을 기억하십시오).σ2

그래서, 이므로 따라서 표준 정규 분포는 아니지만 분포에서 추출 할 수있는 분포입니다. 표준 법선의 밀도와 자유 도로 카이 제곱 .

S2=1101i=110(XiX¯)2,
i=110(XiX¯)2σ2=i=110(XiX¯)2σ2=(101)S2σ2χ(101)2
X¯μS/10=X¯μσ/10Sσ=X¯μσ/10S2σ2=X¯μσ/10(101)S2σ2(101)=N(0,1)χ(101)2(101),
(101)

매우 똑똑한 한 사람이 20 세기 초에 수학 [^ 1]을했고 의도하지 않은 결과로 그의 보스를 스타우트 맥주 업계의 절대 세계 지도자로 만들었습니다. 나는 William Sealy Gosset (일명 Student; 예, 학생, 배포판)과 Saint James 's Gate Brewery (일명 Guinness Brewery )에 관해 이야기하고 있습니다.t

[^ 1] : @whuber는 아래 의견에서 Gosset이 수학을하지 않았지만 대신 추측 했다고 말했습니다 ! 나는 그 당시 어떤 위업이 더 놀라운 지 정말로 모른다.

내 사랑하는 친구 는 자유도 가 분포 의 기원입니다 . 표준 정규의 비율과 파도의 예측할 수없는 차례로, 샘플 평균을 사용할 때 받아야 추정 오차의 예상되는 동작을 설명하는 바람, 자유의도,로 나누어 독립적 인 카이 제곱의 제곱 루트 는 를 추정 하고 를 사용하여 의 변동성을 추정합니다 .t(101)X¯μS2X¯

당신은 간다. 엄청나게 많은 기술적 인 세부 사항으로 깔개에 심하게 휩쓸려 갔지만, 전 임금을 위험에 걸기위한 하나님의 개입에만 의존하지는 않았습니다.


1
이러한 노력에 감사드립니다! 그래도 나는 당신의 설명이 설득력있는 것보다 적다는 것을 고백합니다. 이 중요한 교차점에서 설립자 인 것 같습니다. "동일한 행동을하는"기여의 근원 "은 자유도라고 할 수 있습니다." 대신 독립 카이 제곱 변이 대신 독립 정규 변량을 합산 경우 하나의 정규 변이가 발생합니다. 어떻게 든 "자유도"는 완전히 삼켜집니다. 당신이 아직 설명하지 않은 카이 제곱에 대해 특별한 것이있을 것입니다. BTW, Gosset은 수학을하지 않았다 : 그는 추측했다! 1010
whuber

평가 해 주셔서 감사합니다, @whuber! 당신이 쓴 것을 잊었을 때 얼마나 많은 오타가 나타나는지 놀랍습니다. 당신의 평가에 관해서는, 저는 다른 사고 방식을 설명하고자했습니다. 또한, 나는 당신이 무슨 뜻인지 충분히 파악하고 있지 않다 일 정상 변량 - 대신 10 독립적 인 정상 variates보다는 10 독립적 인 카이 제곱 variates 합산 한 경우로 끝날 것 - 나는 당신의 키 포인트를 잡아 짐작하는 . 게시물을 개선하기 위해 자세히 설명하려고 노력할 것입니다.
Marcelo Ventura

2

자유도에 대한 직관적 인 설명 은 관심 매개 변수 (즉, 알려지지 않은 수량)를 추정하기 위해 데이터에서 사용할 수있는 독립적 인 정보의 수를 나타냅니다 .

예를 들어, 다음 형식의 간단한 선형 회귀 모델에서 :

Yi=β0+β1Xi+ϵi,i=1,,n

여기서 의 평균 0, 표준 편차와 무관 정규 분포 오차항 나타내는 우리가 인터셉트 추정 자유 1 명도를 사용 슬로프 추정치 자유 1 명 정도 . 우리가 시작부터 관찰과 자유의 2 개 정도를 사용 (즉, 정보의 두 개의 독립적 인 조각), 우리는 남아 있습니다 자유도 (즉, 오차를 추정 가능한 정보의 독립적 인 조각) 표준 편차 .ϵiσβ0β1nn2n2σ


내 답변 @COOLSerdash를 편집 해 주셔서 감사합니다!
Isabella Ghement

2

관측치 수에서이 관측치 중 필요한 관계 수를 뺀 것으로 자유도를 볼 수 있습니다. 예 를 들어 독립 정규 분포 관측치 샘플 이 경우 . 임의 변수 여기서 . 여기에서의 자유도는 왜냐하면 그것들은이 관측 사이에 필요한 관계이기 때문입니다 .nX1,,Xni=1n(XiX¯n)2Xn12X¯n=1ni=1nXin1(X¯n=1ni=1nXi)

자세한 내용은 이것을 참조 하십시오


0

내가 이해 한 첫 번째 설명은 다음과 같습니다.

평균 또는 변동과 같은 통계 값을 알고 있다면 모든 변수의 값을 알기 전에 알아야하는 데이터 변수의 수는 얼마입니까?

이것은 aL3xa와 동일하지만 데이터 포인트에 특별한 역할을 부여하지 않고 답변에서 주어진 세 번째 경우에 가깝습니다. 이런 식으로 동일한 예는 다음과 같습니다.

데이터의 평균을 알고있는 경우 모든 데이터 포인트에 대한 값을 알기 위해 하나의 데이터 포인트를 제외한 모든 값에 대한 값을 알아야합니다.


변수-> 관측 값
Richard Hardy

0

이런 식으로 생각하십시오. 독립적 일 때 차이가 추가됩니다. 예를 들어, 보드에 다트를 던지고 보드 의 정확한 중심에서 및 변위 의 표준 편차를 측정한다고 가정 합니다. 그런 다음 입니다. 그러나 공식의 제곱근을 취하면 직교 좌표에 대한 거리 공식, . 이제 우리가 보여 주어야 할 것은 표준 편차가 다트 보드의 중심에서 멀어지는 변위의 대표적인 측정이라는 것입니다. 이후 우리 DF 논의를 준비하는 수단을 갖는다. 참고 때xyVx,y=Vx+VyVx=SDx2Vx,ySDx,y=SDx2+SDy2SDx=i=1n(xix¯)2n1n=1다음 및 비 . 다시 말해, 하나의 다트의 좌표와 그 자체 사이에는 편차가 없습니다 . 우리가 처음으로 편차를 갖는 것은 이고 그중 하나만이 존재합니다. 중복 편차의 제곱 거리 또는 및 때문에 사이의 평균 또는 중간이다 및 . 일반적으로 거리의 경우 가 모두에 의존 하므로 1을 제거 합니다.x1x¯=0 xn=2x1x2 ˉ x =x1+x2i=1n(xix¯)2n100xn=2x1x2 ˉ X , X1, X2N ˉ X N, N-1x¯=x1+x22x¯x1x2nx¯n그 거리의 . 이제 은 고유 한 결과 수가 정규 제곱 거리를 만들기 위해 정규화되기 때문에 자유도를 나타냅니다. 그 제곱 거리의 합으로 나눌 때.n1

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.