최대 가능성 추정-많은 경우에 편향에도 불구하고 사용되는 이유


25

최대 우도 추정은 종종 편향 추정기로 귀결됩니다 (예를 들어, 표본 분산에 대한 추정은 가우스 분포에 대해 편향됩니다).

그렇다면 무엇이 그렇게 인기가 있습니까? 왜 그렇게 많이 사용됩니까? 또한 대안적인 접근 방식보다 더 나은 점은 무엇입니까?

또한 가우시안의 경우 MLE 추정기의 간단한 스케일링으로 인해 편향되지 않은 것으로 나타났습니다. 이 스케일링이 표준 절차가 아닌 이유는 무엇입니까? 내 말은-왜 MLE 계산 후에 추정기가 편향되지 않도록 필요한 스케일링을 찾는 것이 일상적이지 않은가? 스케일링 계수가 잘 알려진 잘 알려진 가우시안 사례를 제외하고 표준 관행은 MLE 추정치의 평범한 계산 인 것처럼 보입니다.


11
ML의 대안은 모멘트 방법뿐만 아니라 편향 추정기를 생성하는 경향이 있습니다. 당신이 대신 물어보고 싶은 것은 "누구가 편견없는 추정기를 사용하고 싶습니까?" 이 문제에 대한 연구를 시작하는 좋은 방법은 바이어스-분산 트레이드 오프를 검색하는 것 입니다.
whuber

7
whuber가 지적했듯이, 편견을 잃는 것의 본질적인 우위는 없습니다.
시안

4
@whuber는 "누군가가 편향 추정기 를 사용하고 싶은가 ?" 를 의미한다고 생각합니다. 편견이없는 추정자가 합리적 일 수 있다고 누군가를 설득하는 데 많은 노력이 필요하지 않습니다.
Cliff AB

5
편견이없는 유일한 추정기가 사용하고 싶지 않은 예는 en.wikipedia.org/wiki/… 를 참조하십시오 .
Scortchi-Monica Monica 복원

4
@Cliff 나는 더 도발적이고 잠재적으로 더 신비한 형태로 질문을하려고했다. 이것 뒤에 숨어있는 것은 추정기의 품질을 평가할 수있는 많은 방법이 있으며 많은 것들이 편견과 관련이 없다는 생각입니다. 그런 관점에서, 왜 누군가가 편견없는 견적을 제안 할 것인지를 묻는 것이 가장 당연합니다 . 이 관점에서 glen_b의 답변을 참조하십시오.
whuber

답변:


18

편견이 그 자체로는 특별히 중요한 것은 아닙니다.

매우 제한적인 상황 외에도 가장 유용한 추정값은 편향되어 있지만 얻을 수 있습니다.

두 추정량이 같은 차이가있는 경우, 하나는 쉽게 바이어스 하나에 대한 편견을 선호에 대한 인수를 마운트 할 수 있지만, 즉, 당신이 합리적으로 unbiasedness 선호 할 수 있습니다 (될 수있는 드문 상황이다, paribus 다른 조건 하지만 그 성가신의 - 다른 조건을 거의 결코 paribus 가 아닙니다 ).

더 일반적으로, 편견을 원하지 않으면 그것을 얻기 위해 약간의 차이를 추가 할 것입니다. 그렇다면 질문은 왜 그렇게 할 것 입니까?

바이어스는 추정기의 예상 값이 평균적 으로 너무 높은 거리 입니다 (음의 바이어스가 너무 낮음).

작은 샘플 추정기를 고려할 때는 실제로 신경 쓰지 않습니다. 나는 일반적으로 내 추정기가이 인스턴스 에서 얼마나 잘못 될지에 더 관심이 있습니다. 오른쪽에서 일반적인 거리 ... 근 사각 제곱 오차 또는 평균 절대 오차와 같은 것이 더 의미가 있습니다.

따라서 낮은 분산과 낮은 바이어스를 좋아한다면 최소 평균 제곱 오차 추정기가 의미가 있습니다. 이것들은 거의 편향되지 않습니다.

편견과 편견은 알고있는 유용한 개념이지만 동일한 분산을 가진 추정값 만 비교하지 않는 한 특히 유용한 속성은 아닙니다.

ML 추정기는 분산이 적은 경향이 있습니다. 그들은 일반적으로 최소 MSE는 아니지만 편향되지 않도록 수정하는 것보다 MSE가 낮습니다.

예로서 고려 분산을 추정하는 정규 분포로부터 샘플링 할 때 σ 2 MMSE = S (2) (실제로 MMSE는 항상n-1보다 큰 분모를 갖습니다).σ^MMSE2=S2n+1,σ^MLE2=S2n,σ^Unb2=S2n1n1


1
+1. 마지막 단락의 두 번째 단락에 대한 직관이 있습니까? ML 추정기가 왜 분산이 적은 경향이 있습니까? 왜 그들은 편향되지 않은 추정량보다 MSE가 낮습니까? 또한 MMSE 분산 추정기의 표현을보고 놀랐습니다. 어떻게 든 나는 전에 그것을 본 적이 없다. 왜 그렇게 드물게 사용됩니까? 그리고 수축과 관련이 있습니까? 그것은 편견에서 제로로 "줄어드는"것처럼 보이지만, 다변량 컨텍스트 (James-Stein의 선을 따라)에서만 수축에 대해 생각하는 데 익숙해지기 때문에 혼란 스럽습니다.
amoeba는 Reinstate Monica가

1
@amoeba MLE는 일반적으로 충분한 통계량의 함수이며 최소한 무 균형 최소 편차는 편향되지 않으므로 큰 표본에서는 분산이 낮으며 일반적으로 한계에서 CRLB를 달성합니다. 이것은 종종 더 작은 샘플에 반영됩니다.MMSE 추정기 분산을 감소시키기 때문에 일반적으로 0으로 줄어 듭니다 (따라서 작은 수축에 의해 도입 된 0에 대한 소량의 바이어스는 일반적으로 MSE를 감소시킵니다).
Glen_b-복지 주 모니카

@ Glen_b, 좋은 대답 (계속 돌아옵니다). 당신은 설명 또는에 대한 참조 것 σ 2 MMSE = S (2) 은 최소 MSE 추정치입니까? σ^MMSE2=S2n+1
Richard Hardy

또한 ML의 분산 추정량이 최소 분산 추정기가 아니라는 것을 의미합니까? 그렇지 않으면 최소 MSE 추정기는 MLE와 바이어스되지 않은 추정기의 가중 평균 (양수 가중치 포함)이되지만 이제는 해당 범위를 벗어납니다. 이해가된다면 별도의 질문으로 이것을 요청할 수 있습니다.
Richard Hardy

1
MSE 에 대한 Wikipedia 기사 에서 전체 파생물을 찾았 습니다.
Richard Hardy

16

MLE 는 모델과 데이터를 고려할 때 가장 가능성이 높은 모델 매개 변수 을 산출 합니다 . 이는 매우 매력적인 개념입니다. 관측 된 데이터 를 모든 값 집합 에서 가장 가능성이 높은 값을 선택할 수 있을 때 관측 된 데이터의 확률을 낮추는 매개 변수 값을 선택하는 이유는 무엇 입니까? 편견을 위해이 기능을 희생 하시겠습니까? 나는 그 대답이 항상 명확하다고 말하지는 않지만 MLE의 동기는 매우 강력하고 직관적입니다.

또한 MLE는 내가 아는 한 순간 방법보다 더 광범위하게 적용될 수 있습니다. 잠재 변수의 경우 MLE이 더 자연스럽게 보입니다. 예를 들어, 이동 평균 (MA) 모델 또는 일반화 된 자기 회귀 조건부 이분산성 (GARCH) 모델은 MLE에서 직접 추정 할 수 있습니다 (직접 가능성 함수를 지정하고이를 최적화 루틴에 제출하는 것으로 충분하다는 것을 의미합니다). 모멘트 방식이 아님 (모멘트 방식을 사용하는 간접 솔루션이 존재할 수 있음).


4
+1. 물론 가우스 혼합 모델 (예 : 무한한 가능성)과 같이 가장 가능성이 높은 추정값을 원하지 않는 경우가 많이 있습니다. 일반적으로 MLE의 직관에 도움이되는 훌륭한 답변입니다.
Cliff AB

3
(+1) 그러나 데이터가 가장 명확 할 가능성이 높은 "가장 가능성이 높은"매개 변수 값의 정의를 추가해야한다고 생각합니다. 반복 샘플링에서 장기 동작과 관련이없는 추정기의 직관적으로 바람직한 다른 특성에는 모형을 어떻게 매개 변수화하는지에 따라 달라지지 않고 실제 모수 값에 대한 추정이 불가능 하지 않을 수 있습니다.
Scortchi-Monica Monica 복원

6
여전히 "가장 가능성이 높은"것으로 읽혀질 위험이 여전히 있다고 생각하십시오.
Scortchi-Monica Monica 복원


2
@dsaxton : 통계 인은 차별화 된 가능성 으로부터 데이터를 주어진 매개 변수 값의 확률 거의 한 세기에 매개 변수 값을 주어진 데이터를 - 참조 "상관의 '가능성이 오류에"피셔 (1921), 트론 , 1 , pp 3-32 & Pawitan (2013), In All Likelihood : 통계 모델링 및 가능성을 사용한 추론 -용어가 일반적인 사용법에서 동의어 임에도 불구하고 이제는 다소 늦게 보입니다.
Scortchi-Monica Monica 복원

12

사실, 최대 가능성의 확장이 불편 추정치를 얻기 위해 추정하는 것입니다 많은 추정 문제의 표준 절차. 그 이유는 mle이 충분한 통계의 함수이므로 Rao-Blackwell 정리 에 의해 충분한 통계를 기반으로 편견 추정치를 찾을 수 있으면 최소 편차 편견 추정기가 있기 때문입니다.

나는 당신의 질문이 그보다 더 일반적이라는 것을 알고 있지만, 강조하고자하는 것은 핵심 개념이 그것을 기반으로 한 가능성과 추정과 밀접하게 관련되어 있다는 것입니다. 이러한 추정값은 유한 샘플에서 편향되지 않을 수 있지만 무조건 효율적이므로 더욱 효율적입니다. 즉, 편향되지 않은 추정기의 Cramer-Rao 분산 범위를 얻습니다. 이는 항상 MOM 추정기의 경우는 아닙니다.


11

MLE가 왜 그렇게 인기가 있는지에 대한 귀하의 질문에 대답하기 위해, 편향 될 수는 있지만 표준 조건 하에서 일관성이 있음을 고려하십시오. 또한, 그것은 무조건 효율적이므로, 적어도 큰 샘플의 경우 MLE는 요리 할 수있는 다른 추정기만큼이나 더 잘 할 것입니다. 마지막으로 MLE는 간단한 레시피로 찾을 수 있습니다. 우도 함수를 사용하여 최대화합니다. 경우에 따라 해당 레시피를 따르기가 어려울 수 있지만 대부분의 문제는 그렇지 않습니다. 또한이 추정값을 얻은 후에 Fisher의 정보를 사용하여 점근 적 표준 오류를 즉시 도출 할 수 있습니다. 피셔의 정보를 사용하지 않고, 그것은 종종 정말 오차 범위를 도출하기 어렵다.

이것이 바로 MLE 추정이 종종 추정기로가는 이유입니다 (Bayesian이 아닌 한). 구현하기가 간단하고 요리하기 위해 더 많은 작업을 수행해야하는 것보다 낫지 않을 수도 있습니다.


1
이것이 OP의 중요한 부분 인 것처럼 보이기 때문에 순간의 방법과 비교할 때 정교하게 설명해 주시겠습니까?
Antoni Parellada

1
whuber에 의해 지적 된 바와 같이, MOM 추정기는 또한 바이어스되므로, MOM 추정기에 "편견없는"이점이 없다. 또한 MOM 및 MLE 추정값에 동의하지 않으면 MLE이 MSE를 낮추는 경향이 있습니다. 그러나이 답변은 실제로 다른 방법과 직접 비교하기보다는 MLE가 기본값이되는 이유에 관한 것입니다.
Cliff AB

2
@AntoniParellada 흥미있는 스레드가 MLE 엄마, 비교에있다 stats.stackexchange.com/q/80380/28746
Alecos 파파도풀로스

3

나는 이상적인 세계에서 우리가 원하는 것이 아니더라도 MLE 추정기를 사용하기도한다 (때때로). (통계는 엔지니어링과 같은 것으로 생각합니다. 원하는 것을 사용하지 않고 원하는 것을 사용합니다.) 많은 경우 MLE을 쉽게 정의하고 해결 한 다음 반복적 인 접근 방식을 사용하여 가치를 얻습니다. 주어진 상황에서 주어진 매개 변수에 대해 더 나은 견적이있을 수 있지만 (일부 "더 나은"가치를 위해), 그것을 찾는 것은 매우 영리해야합니다. 그리고 당신이 영리하게 끝났을 때, 당신은 여전히 ​​그 하나의 특정한 문제에 대한 더 나은 견적을 가지고 있습니다.


1
호기심에서 (이상적인 세계에서) 당신이 원하는 것의 예는 무엇입니까?
Glen_b -Reinstate 모니카

2
@ Glen_b : Dunno. 편견없는 최저 분산, 닫힌 형태로 쉽게 계산할 수 있습니까? 최소 제곱 회귀에 대한 추정값을 처음 알게되면 인생은 생각보다 단순 해 보입니다.
eac2222
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.