이 질문은 "평균"의 개념을 충분히 넓은 의미로 특성화하여 권력 수단, 평균, 중간 값, 트림 된 수단과 같은 모든 일반적인 수단을 포괄 하지만 데이터에 거의 쓸모가 없게되는 것은 아닙니다. 분석. 이 답변은 "평균"에 대한 합리적으로 유용한 정의가 가져야하는 공리적 특성 중 일부에 대해 논의합니다.Lp
기본 공리
데이터 분석의 목적을 위해 "평균"에 유용하게 확장 정의는 잘 정의 된, 결정적 함수 중 어느 시퀀스 것 위한 와 그런A ⊂ R n = 1 , 2 , …fn:An→AA⊂Rn=1,2,…
(1) 모든 (평균은 극단 사이에 있음),x = ( x 1 , x 2 , …min(x)≤fn(x)≤max(x)x=(x1,x2,…,xn)∈An
(2) 은 인수의 순열에 따라 변하지 않으며 (데이터의 순서에 신경 쓰지 않음을 의미)fn
(3) 각 은 각 인수에서 감소하지 않습니다 (숫자가 증가하면 평균이 감소 할 수 없음).fn
우리는 해야한다 허용 기하학적 수단으로 수단의 많음이, 그러한 부분 집합에 정의되어 있기 때문에 (예 : 모든 양수 등) 실수의 부분 집합이 될 수 있습니다.A
우리는 또한 그것을 추가하고 싶을 수도 있습니다.
(1 ') 대한 적어도 가 존재합니다 . (이것이 항상 유지 되도록 요구할 수는 없습니다 . 예를 들어, 의 중앙값 은 과 같 으며 이는 최소값입니다.)최소 ( x ) ≠ f n ( x ) ≠ 최대 ( x ) ( 0 , 0 , … , 0 , 1 ) 0x∈Amin(x)≠fn(x)≠max(x)( 0 , 0 , … , 0 , 1 )0
이러한 속성은 일련의 (정렬되지 않은) 데이터의 일종의 "중간 값"인 "평균"뒤에있는 아이디어를 포착하는 것 같습니다.
일관성 공리
나는 다소 덜 분명한 일관성 기준 을 규정하고 싶다.
(4.A)의 범위 로 시간 간격에 걸쳐 변화 포함 . 즉, 적절한 값 를 데이터 세트 에 인접시켜 평균을 변경하지 않은 채로 둘 수 있습니다 . (3)과 함께, 데이터 세트에 극단 값을 인접 시키면 평균을 극단으로 끌어 올릴 수 있습니다.t [ 분 ( X ) , 맥스 ( X가 ) ] f를 N ( X )에프n + 1( t , x1, x2, … , x엔)티[ 최소 ( x ) , 최대 ( x ) ]에프엔( x )티
분포 또는 "무한 모집단" 에 평균 개념을 적용하려면 임의로 큰 임의 표본의 한계에서이를 구하는 것이 한 가지 방법입니다. 물론 한계가 항상 존재하지 않을 수도 있습니다 (예를 들어 분포에 기대치가없는 경우 산술 평균에는 존재하지 않음). 따라서 나는 그러한 한계의 존재를 보장하기 위해 추가 공리를 강요하고 싶지 않지만 다음은 자연스럽고 유용하게 보입니다.
(4.b) 가 묶이고 이 에서 지원되는 분포 의 샘플 시퀀스 일 때, 의 한계는 거의 확실합니다. 이렇게하면 표본 크기가 커짐에도 불구 하고 평균이 내에서 영원히 "튀는"것을 방지합니다 .x n F A f n ( x n에이엑스엔에프에이A에프엔(x엔)에이
같은 선을 따라 표본 크기가 증가함에 따라 "위치"를 더 잘 추정 할 수 있도록 평균에 대한 아이디어를 더욱 좁힐 수 있습니다.
(4.c) 가 경계 될 때마다 무작위 표본 대한 의 표본 분포 분포의 분산 의 의 비 감소되는 .f n ( X ( n ) ) X ( n ) = ( X 1 , X 2 , … , X n ) F에이에프엔( X( n ))엑스( n )= ( X1, X2, ... , X엔)에프엔
연속성 공리
데이터에 따라 "멋지게"변화하는 수단을 요구할 수 있습니다.
(5) 은 각 인수에서 개별적으로 연속적입니다 (데이터 값의 작은 변화가 평균의 급격한 증가를 유발해서는 안 됨).에프엔
이 요구 사항은 이상한 일반화를 제거 할 수 있지만 잘 알려진 의미를 배제하지는 않습니다. 일부 집계 함수를 배제합니다.
불변성 공리
구간 또는 비율 데이터 (스티븐스의 잘 알려진 의미)에 적용하는 수단을 생각할 수 있습니다 . 우리는 위치 변화에 따라 변하지 않을 것을 요구할 수는 없지만 (기하학적 평균은 아닙니다) 요구할 수 있습니다
(6) 모든 및 모든 에 대해 입니다. 이것은 우리가 좋아하는 측정 단위를 사용하여 을 자유롭게 계산할 수 있다고 말합니다 .x ∈ A n λ > 0 λ x ∈ A n에프엔( λ x ) = λ f엔( x )x ∈ A엔λ > 0λ x ∈ A엔에프엔
질문에 언급 된 모든 수단은 일부 집계 함수를 제외 하고이 공리를 충족시킵니다.
토론
질문에 설명 된 일반 집계 함수 는 반드시 공리 (1 '), (2), (3), (5) 또는 (6)을 만족 하지는 않습니다 . 일관성 공리를 만족시키는 지 여부는 로 확장되는 방법에 따라 달라질 수 있습니다 .에프2n > 2
일반적인 샘플 중간 값은 이러한 모든 공리 특성을 향유합니다.
일관성 공리를 보강하여
(4.d) 모든 대해x ∈ A n 입니다.에프2 N( x ; x ) = f엔( x )x ∈ A엔.
이는 데이터 세트의 모든 요소가 동일하게 반복 될 때 평균이 변하지 않음을 의미합니다. 그러나 이것은 너무 강할 수 있습니다. Winsorized 평균 에는이 속성이 없습니다 ( 무증상 제외). 상기의 목적 Winsorizing 수준에 대해 저항의 변화를 제공하는 적어도 데이터 중 극단. 예를 들어, 10 %의 평균 Winsorized 의 산술 평균이다 , 동일한 하지만, 10 %의 평균 Winsorized 은 입니다.100 α % ( 1 , 2 , 3 , 6 ) ( 2 , 2 , 3 , 3 ) 2.5 ( 1 , 1 , 2 , 2 , 3 , 3 , 6 , 6 ) 3.5100 α % 100 α %( 1 , 2 , 3 , 6 )( 2 , 2 , 3 , 3 )2.5( 1 , 1 , 2 , 2 , 3 , 3 , 6 , 6 )3.5
일관성 공리 (4.a), (4.b) 또는 (4.c) 중 어느 것이 가장 바람직하거나 유용한 지 모르겠습니다. 그것들은 독립적 인 것처럼 보입니다 : 나는 그들 중 어떤 것도 세 번째를 암시한다고 생각하지 않습니다.