이 질문은 통계가 무엇인지, 그리고 좋은 통계 분석을 수행하는 방법의 핵심입니다. 그것은 많은 문제들, 일부 용어들과 다른 이론들을 제기합니다. 그것들을 명확히하기 위해, 질문의 암묵적 맥락을 주목하면서 시작하여 거기서부터 "매개 변수", "속성"및 "추정자"라는 핵심 용어를 정의 해 봅시다. 질문의 여러 부분은 토론에서 나올 때 답변됩니다. 마지막 결론 섹션에는 주요 아이디어가 요약되어 있습니다.
주 공간
" 비례하는 PDF를 사용한 정규 분포와 같이"분포 "의 일반적인 통계적 사용 은 실제로 (심각한) 영어 남용은 분명히 하나의 분포가 아니기 때문에 및 기호로 매개 변수화 된 전체 분포 계열입니다 . 이에 대한 표준 표기는 "상태 공간"입니다 하는 세트μσΩΩexp(−12(x−μ)/σ)2)dxμσΩ분포. (나는 박람회를 위해 여기에서 조금 단순화하고 있으며 가능한 한 엄격하게 유지하면서 진행하면서 계속 단순화 할 것입니다.) 그 역할은 통계 절차의 가능한 목표를 묘사하는 것입니다. 의 하나 이상의 요소를 골라냅니다 .Ω
때때로 상태 공간은 과 같이 명시 적으로 매개 변수화됩니다 . 이 설명에는 상단 평면 의 튜플 세트 와 데이터 모델링에 사용할 분포 세트 사이에 일대일 대응 관계 가 있습니다. 이러한 매개 변수화의 한 가지 가치는 이제 우리는 순서화 된 실수 쌍으로 분포를 구체적으로 참조 할 수 있다는 것 입니다.{ ( μ , σ ) } ΩΩ={N(μ,σ2)|μ∈R,σ>0}{(μ,σ)}Ω
다른 경우에는 상태 공간이 명시 적으로 매개 변수화되지 않습니다. 모든 단봉 연속 분포 세트를 예로들 수 있습니다. 아래에서는 그러한 경우에 적절한 매개 변수화가 가능한지 여부에 대한 질문을 다룰 것입니다.
파라미터 화
일반적으로 의 매개 변수화 는 ( 유한) 및 서브 세트와 의 대응 (수학적 함수 )입니다 . 즉, 순서화 된 튜플 세트를 사용 하여 분포에 레이블을 지정합니다. 그러나 그것은 단지 서신 일뿐만 아니라 "잘 행동해야"합니다. 이를 이해하려면 PDF에 대한 기대치가 한정된 모든 연속 배포 세트를 고려하십시오. 이것은이 세트를 매개 변수화하려는 "자연적인"시도가 (모든 직교의 확장을 사용하여) 계산 가능한 실수의 시퀀스를 포함한다는 점에서 "비모수 적"으로 널리 간주 될 것이다. 그럼에도 불구하고이 세트에는 카디널리티가 있으므로R d d Ω d ℵ 1 RΩRddΩdℵ1실수의 카디널리티 인 은 이러한 분포와 사이에 일대일로 대응해야합니다 . 역설적 으로 이것은 단일 실제 매개 변수 를 사용하여 매개 변수가있는 상태 공간으로 만드는 것처럼 보입니다 !R
역설은 하나의 실수가 분포와 "좋은"관계를 누릴 수 없다는 점에 의해 해결됩니다. 우리가 그 수의 값을 변경할 때, 어떤 경우에는 급격한 방식으로 변화해야합니다. 우리는 매개 변수의 가까운 값에 해당 하는 분포가 서로 "가까워 야" 하므로 이러한 "병리학 적"매개 변수를 배제 합니다. "close"에 대한 적절한 정의를 논의하는 것은 우리에게 너무 멀어 질 것이지만,이 설명이 단지 특정 분포를 명명하는 것보다 매개 변수가되는 것보다 훨씬 더 많은 것을 보여주기에 충분하기를 바랍니다.
분포의 속성
반복 적용을 통해 우리는 분포의 "속성"을 기대, 분산 등과 같이 우리의 작업에 자주 나타나는 일부 이해하기 쉬운 양으로 생각하는 데 익숙해졌습니다. "속성" 의 가능한 정의 로서 이것에 대한 문제 는 너무 모호하고 충분히 일반적이지 않다는 것입니다. (여기서는 18 세기 중반에 수학이 있었는데, 여기서 "함수"는 객체에 적용되는 유한 과정으로 생각되었다.) 대신, 항상 작동하는 "속성"에 대한 현명한 정의에 대해서는 속성을 다음과 같이 생각하는 것이다. 모든 배포에 고유하게 할당 된 숫자Ω Ω Ω t 1 ΩΩ. 여기에는 계산할 수없는 것들을 포함하여 평균, 분산, 모든 순간, 모든 순간의 대수 조합, 임의의 분위수 등이 포함됩니다. 그러나 의 일부 요소에는 의미 가 없는 것을 포함 하지 않습니다 . 예를 들어, 가 모든 Student t 분포로 구성된 경우 평균은 유효한 속성 이 아닙니다 ( 에는 평균이 없기 때문 ). 이것은 우리의 아이디어가 실제로 무엇을 구성 하는지에 얼마나 의존하는지 다시 한 번 감동 시킵니다.ΩΩΩt1Ω
속성이 항상 매개 변수는 아닙니다
속성은 매개 변수로 사용되지 않는 복잡한 함수일 수 있습니다. "정규 분포"의 경우를 고려하십시오. 가장 가까운 정수로 반올림 할 때 실제 분포의 평균이 짝수인지 알고 싶을 수도 있습니다. 그것은 속성입니다. 그러나 매개 변수로 사용되지는 않습니다.
매개 변수는 반드시 속성 일 필요는 없습니다
모수와 분포가 일대일로 대응하는 경우 분명히 모든 모수와 해당 문제에 대한 모수의 기능은 정의에 따른 특성입니다. 그러나 모수와 분포간에 일대일 대응이 필요하지 않습니다. 때로는 몇 가지 분포가 두 개 이상의 서로 다른 모수의 값으로 설명되어야합니다. 예를 들어, 구의 점에 대한 위치 매개 변수는 자연스럽게 위도와 경도를 사용합니다. 대응 주어진 위도와의 두 기둥,를 제외하고 - 그건 괜찮아요 어떤 유효한 경도. 위치(구상의 점)은 실제로 속성이지만 경도는 속성 일 필요는 없습니다. 예를 들어 극점의 경도를 0으로 선언하는 등 다양한 닷지가 있지만이 문제는 속성 (배포와 고유하게 관련됨)과 매개 변수 (라벨링 방법 ) 사이의 중요한 개념적 차이를 강조합니다. 배포 및 고유하지 않을 수 있음).
통계 절차
추정의 대상은이라고 estimand . 단지 속성입니다. 통계학은 하지 그녀의 클라이언트의 지방입니다 다음 estimand를 자유롭게 선택할. 어떤 사람이 모집단 표본을 가지고 와서 모집단의 99 번째 백분위 수를 추정하도록 요청하면 대신 평균의 추정값을 제공하지 않아도됩니다! 통계 학자로서 귀하의 직무는 귀하가받은 추정치를 추정 하기위한 좋은 절차 를 찾는 것입니다. (때로는 클라이언트가 과학적 목표에 대한 잘못된 판단을 선택했다고 설득하는 것이지만, 다른 문제입니다.)
정의에 따르면 프로시 저는 데이터에서 숫자를 얻는 방법입니다. 절차는 일반적으로 "모두 추가하고 개수로 나누기"와 같이 데이터에 적용 할 공식으로 제공됩니다. 말 그대로 모든 절차는 주어진 견적의 "추정자"로 발음 될 수 있습니다. 예를 들어, 표본 평균 (데이터에 적용되는 공식)이 모집단 분산 ( 고객이 실제로 변동이있는 집단 만 포함하도록 가능한 모집단 집합 를 제한 한다고 가정하면 모집단의 속성)을 추정한다고 선언 할 수 있습니다. .Ω
견적 자
견적자는 추정치와 명백한 관련이 없어도됩니다. 예를 들어 표본 평균과 모집단 분산이 연관되어 있습니까? 그럼에도 불구하고 표본 평균은 실제로 특정Ω (모든 Poisson 분포 세트)에 대한 모집단 분산의 적절한 추정량입니다 . 여기에는 추정자를 이해하는 데 중요한 열쇠가 있습니다. 자질은 가능한 상태 집합 에 따라 다릅니다 . 그러나 그것은 그것의 일부일뿐입니다.Ω
유능한 통계학자는 권장하는 절차가 실제로 얼마나 잘 수행되는지 알고 싶어 할 것입니다. 프로 시저 " "를 호출하고 estimand를 라고합시다 . 실제로 어떤 분포가 실제 분포인지 알지 못하면 가능한 모든 분포 대한 절차의 성능 을 고려합니다 . 이러한 감안할 때 , 그리고 가능한 결과를 제공 (데이터이며, 집합), 그녀는 비교합니다 (무엇을 그녀의 프로 시저 추정)에 (대한 estimand의 값 ). 이 두 사람이 얼마나 가깝거나 멀리 떨어져 있는지 알려주는 것은 고객의 책임입니다.θ F ∈ Ω F s t ( s ) θ ( F ) F t ( s ) θ ( F ) F Ωtθ F∈ΩFst(s)θ(F)F 그녀는 그 관조 수 (이는 종종.는 "손실"기능을 수행한다) 의 기대 사이의 거리 과 . 이것은 그녀의 절차 의 위험 입니다. 의존하기 때문에 위험은 정의 된 함수 입니다.t(s)θ(F)FΩ
(좋은) 통계학자는 위험을 비교하는 절차를 권장합니다. 예를 들어, 모든 에 대해 절차 의 위험이 의 위험보다 작거나 같다고 가정하십시오 . 그러면 를 사용할 이유가 없습니다 . "불가피하다". 그렇지 않으면 "허용"입니다.t 1 t tF∈Ωt1tt
"Bayesian"통계학자는 가능한 상태 (보통 고객이 제공 한)의 "선행"분포를 평균하여 위험을 항상 비교합니다. 다른 방법으로 베이지안을 피하십시오.)
결론
우리는 어떤 것을 말할 권리가 에 대한 인정이다 입니다 추정 의 . θ θ tθθ 우리는 실제적인 목적을 위해 (인정 절차는 찾기 힘들 수 있기 때문에), 굴곡이 말을해야 어떤 (비교되는 경우에 수용 가능한 작은 위험이 ) 실행 가능한 절차 사이의 추정이다 . "허용 가능"및 "실행 가능"은 물론 고객에 의해 결정됩니다. "허용 가능"은 위험을 나타내며 "실행 가능"은 절차를 수행하는 데 드는 비용 (최종 지불)을 반영합니다.t θ θtθθ
이 간결한 정의의 기초는 방금 논의 된 모든 아이디어입니다. 이해하기 위해서는 특정 ( 문제, 프로세스 또는 연구 대상 인구 의 모델 ), 명확한 견적 (고객이 제공 한)을 명심해야합니다. 특정 손실 함수 ( 를 추정자와 연결 하고 고객이 제공함), 위험에 대한 아이디어 (통계 전문가가 계산), 위험 기능을 비교하기위한 절차 (고객과 상담하는 통계학 자의 책임) 정의에 명시 적으로 언급되어 있지 않더라도 실제로 수행 할 수있는 절차 ( "실제 성"문제)에 대한 감각.tΩt