통계 및 수학적 개념은 정확히 동일 합니다. "가족"은 다른 환경에 적용되는 기술적 변형을 가진 일반적인 수학적 용어라는 것을 이해합니다.
파라 메트릭 패밀리는 모든 분포의 공간에서의 곡선 (또는 그 표면 또는 다른 유한 치수 일반화)이다.
이 게시물의 나머지 부분에서는 그 의미를 설명합니다. 옆으로, 나는 이것이 수학적으로나 통계적으로 논쟁의 여지가 있다고 생각하지 않습니다 (아래에 언급 된 하나의 사소한 문제는 제외). 이 의견을지지하기 위해 나는 많은 참고 문헌 (주로 Wikipedia 기사)을 제공했습니다.
이 용어를 "가족"은 클래스 공부를 할 때 사용되는 경향이 집합으로 기능을 Y 또는 "지도." 도메인 X가 주어지면, 일부 집합 Θ ( "파라미터")에 의해 매개 변수화 된 X 상의 맵 의 패밀리 F 는 함수입니다CYYX FX Θ
F:X×Θ→Y
각하는 (1)에 대한 함수 F θ : X → Y가 주어진 F θ ( X ) = F ( X , θ는 ) 인 C Y (2) F 자체가 특정 "좋은"속성을 갖는다.θ∈ΘFθ:X→Y에프θ( x ) = F( x , θ )씨와이에프
아이디어 는 "부드럽게"또는 제어 된 방식으로 에서 Y 로 기능을 변경하려는 것 입니다. 특성 (1)은 각각의 θ 가 이러한 기능을 지정하는 반면, 특성 (2)의 세부 사항은 θ의 "작은"변화가 F θ 의 충분히 "작은"변화를 유도한다는 의미를 포착 할 것이다 .엑스와이θθ에프θ
질문에서 언급 한 것과 유사한 표준 수학적 예 는 동성애 입니다. 이 경우 는 토폴로지 공간 X 에서 토폴로지 공간 Y 까지의 연속 맵 범주 입니다 . Θ = [ 0 , 1 ] ⊂ R 은 일반적인 토폴로지의 단위 간격이며, F 는 위상 곱 X × Θ 에서 Y 로의 연속 맵 이어야합니다 . "지도 F 의 연속적인 변형으로 생각할 수 있습니다.씨와이 엑스와이Θ=[0,1]⊂RFX×ΘY 에 F 1 합니다. " X = [ 0 , 1 ] 간격 자체가 이러한 맵은곡선의 Y 및 호모 토피 한 곡선으로부터 다른 부드러운 변형이다.F0F1X=[0,1]Y
통계적 애플리케이션, 온 모든 분포의 집합 인 R (ON 연습이나, R N 일부 N은 ,하지만에 초점 박람회 간단한 유지 N = 1 ). 우리는 모든 비 감소 셀룰러 함수 R → [ 0 , 1 ] 로이를 식별 할 수 있는데, 여기서 범위의 폐쇄는 0 과 1을 모두 포함합니다 . 이들은 누적 분포 함수 또는 단순히 분포 함수입니다. 따라서 X = R 이고CYRRnnn=1R →[0,1]01엑스= R .와이=[0,1]
가족 분포는 임의의 서브 세트 인 . CY 가족의 다른 이름은 통계 모델입니다. 그것은 우리가 관측을 지배한다고 가정 한 모든 분포로 구성되지만, 실제로 어떤 분포가 분포인지는 알 수 없습니다.
- 가족은 비어있을 수 있습니다.
- 자체가 가족이다.CY
- 가족은 단일 분포 또는 유한 한 수로 구성 될 수 있습니다.
이러한 추상 집합 이론적 특성은 관심이나 유용성이 상대적으로 적습니다. 우리가 추가 (관련) 수학적 구조를 고려할 때이 아니라 이 개념이 유용되고 있다고합니다. 그러나 어떤 특성 C Y는 통계적 관심있는? 자주 나타나는 일부는 다음과 같습니다.CYCY
A는볼록 집합: 두 분포 주어진 F , G ∈ C Y , 우리는 형성 될혼합물 분포(1-t) F +t G ∈Y모두t∈[0,1]. 이것은F에서G까지 일종의 "호모 토피"입니다.CYF,G∈CY (1−t)F+tG∈Yt∈[0,1]FG
큰 부분 같은 각종 유사 메트릭 지원 쿨백 - 라이 블러 발산 또는 메트릭 관련성 피셔 정보.CY
는 가산 구조를 갖습니다. 두 분포F와G에 해당하는 합은 F ⋆ G 입니다.CYFGF⋆G
많은 유용한 천연 기능을 자주 불리는 지원 "속성을." 여기에는누적 물뿐만 아니라 고정 된 정량 (예 : 중앙값)이 포함됩니다.CY
는함수 공간의 서브 세트입니다. 따라서, 많은 유용 등으로 측정, 상속한모금 규범( L ∞ 에 의해 주어진 규범) |를 | F-G | | ∞ = sup x ∈ R | F(x)−G(x) | .CYL∞
||F−G||∞=supx∈R|F(x)−G(x)|.
자연 그룹 활동 에 에 행동 유도 C Y를 . 가장 일반적인 동작은 변환 T μ : x → x + μ 및 스케일링 S σ : x → x σ for σ > 0 입니다. 이것들이 분포에 미치는 영향은 F μ , σ ( x ) = F ( ( x − μ )로 주어진 분포 로 F 를 보내는 것입니다.RCY Tμ:x→x+μ Sσ:x→xσσ>0F . 이는 위치 규모 가족의 개념과 일반화로 이어집니다. 광범위한 웹 검색은 다양한 정의를 나타 내기 때문에 참조를 제공하지 않습니다.Fμ,σ(x)=F((x−μ)/σ)
중요한 속성은 통계 문제 와 데이터 분석 방법 에 따라 다릅니다 . 앞의 특성에서 제안한 모든 변형을 해결하려면이 매체에 너무 많은 공간이 필요합니다. 하나의 일반적인 중요한 응용 프로그램에 중점을 둡니다.
예를 들어 최대 가능성을 예로 들어 보겠습니다. 대부분의 응용 프로그램에서는 미적분을 사용하여 추정치를 얻을 수 있습니다. 이것이 효과가 있으려면 가족에게서 "파생물"을 섭취 할 수 있어야합니다.
( 따로 기술 : 이 수행되는 일반적인 방법은 도메인 선택하는 에 대한 D ≥ 0 및 지정 연속 로컬 역변환 함수 (P) 에서 Θ를 로 C Y . (이 의미하는 모든 대한 θ ∈ Θ 가 볼 존재하는 B ( θ , ε ) 와, ε > 0 있는 페이지 | B ( θ , ε을 ) :Θ⊂Rdd≥0pΘCYθ∈ΘB(θ,ϵ)ϵ>0 는 일대일입니다. 다시 말해, θ 를 충분히 적은 양으로변경하면 항상 다른 분포를 얻게됩니다.))p∣B(θ,ϵ):B(θ,ϵ)∩Θ→CYθ
결과적으로, 대부분의 ML 응용에서 우리는 가 Θ 구성 요소 에서 연속적 (그리고 거의 모든 곳에서 차별화 가능)을 요구합니다 . 연속성이 없으면 가능성을 최대화하면 일반적으로 다루기 힘든 문제가됩니다. 이는 파라 메트릭 패밀리 에 대한 다음과 같은 가능성 지향적 정의로 이어집니다 .pΘ
(일 변량) 분포의 모수 군은 국소 가역성 맵 , Θ ⊂ R n 은 (a) 각 F θ 는 분포 함수이고 (b) 각 x 에 대해 ∈ R , 함수 L X : θ → [ 0 , 1 ] 에 의해 주어진 L의 X ( θ ) = F ( X , θ )
F:R×Θ→[0,1],
Θ⊂RnFθx∈RLx:θ→[0,1]Lx(θ)=F(x,θ) 지속적이고 거의 모든 곳에서 차별화됩니다.
파라 메트릭 패밀리 는 F θ 의 모음 이상의 것입니다 . 여기에는 모수 값 θ 가 분포에 해당하는 특정 방법도 포함됩니다 .FFθθ
몇 가지 예를 들어 보겠습니다.
하자 모두의 세트로 정규 분포. 주어진 바와 같이, 이것은 파라 메트릭 가족 이 아닙니다 . 가족 일뿐입니다. 파라 메트릭하려면 매개 변수화를 선택해야합니다. 한 가지 방법은 Θ = { ( μ , σ ) ∈ R 2 ∣ σ > 0 }을 선택
하고 평균 μ
및 분산 σ 2로 정규 분포에 ( μ , σ ) 를 매핑 하는 것 입니다.CYΘ={(μ,σ)∈R2∣σ>0}(μ,σ)μσ2
세트 포아송 분포(λ) 와 파라 가족 .λ∈Θ=(0,∞)⊂R1
통일 세트 (많은 교과서 운동에 눈에 띄게 기능) 분포와 파라 메트릭 가족
θ ∈ R 1 . 이 경우, F θ ( X는 ) = 최대 ( 0 , 분 ( 1 , X - θ ) ) 에 미분 인 θ 제외
θ ∈ { X , X - 1 } .(θ,θ+1)θ∈R1Fθ(x)=max(0,min(1,x−θ))θθ∈{x,x−1}
하자 와 G가 할 수 있는 두 개의 분포. 그런 다음 F ( x , θ ) = ( 1 − θ ) F ( x ) + θ G ( x ) 는 θ ∈ [ 0 , 1 ]에 대한 파라 메트릭 패밀리입니다 . (증거 : F 의 이미지는 분포의 집합이며 θ 의 부분 미분 은 − F ( x ) + G (FGF(x,θ)=(1−θ)F(x)+θG(x)θ∈[0,1]Fθ 이것은 모든 곳에서 정의됩니다.)−F(x)+G(x)
피어슨 군은 4 차원 가족이다 (무엇보다도)를 정규 분포, 베타 분포, 및 역 감마 분포를 포함한다. 이것은 하나의 주어진 배포 물 이 여러 가지 다른 배포 패밀리에 속할 수 있음을 보여줍니다 . 이것은 (충분히 큰) 공간의 어떤 지점이 그곳과 교차하는 많은 경로에 속할 수 있다는 것을 관찰하는 것과 완전히 유사합니다. 이것은 이전 구성과 함께 어떤 분포도 자신이 속한 패밀리를 고유하게 결정하지 않음을 보여줍니다 .Θ⊂R4
모든 유한 분산 절대 연속 분포 의 패밀리 는 모수 적이 지 않습니다 . 증거는 토폴로지의 깊은 정리가 필요합니다 우리가 부여하는 경우 C Y를 함께 어떤 (통계적으로 유용 여부) 및 토폴로지 페이지 : Θ → C Y가 연속 로컬 연속 역이있다가, 다음 로컬 C Y가 같은 차원으로이 있어야합니다 의 Θ . 그러나, 모두 통계적으로 유의 토폴로지에서는 C Y는 인 무한 차원.CYCYp:Θ→CYCYΘCY