(a) 여러 예측을 결합하여 단일 예측을 얻는 방법, (b) 베이지안 접근 방식을 여기에 사용할 수 있는지, (c) 확률이 0 인 문제를 처리하는 방법 등 세 가지에 대해 묻습니다.
예측을 결합하는 것이 일반적인 관행 입니다. 예측을 평균하는 것보다 여러 예측이있는 경우 결과 예측은 개별 예측보다 정확도 측면에서 더 좋습니다. 평균을 계산하기 위해 가중치가 역 오차 (예 : 정밀도) 또는 정보 내용을 기반으로하는 가중치 평균을 사용할 수 있습니다 . 각 소스의 신뢰성에 대한 지식이있는 경우 각 소스의 신뢰성에 비례하는 가중치를 할당 할 수 있으므로 신뢰할 수있는 소스가 최종 결합 예측에 더 큰 영향을 미칩니다. 귀하의 경우 신뢰성에 대한 지식이 없으므로 각 예측의 가중치가 동일하므로 세 가지 예측의 간단한 산술 평균을 사용할 수 있습니다
0 % × .33 + 50 % × .33 + 100 % × .33 = ( 0 % + 50 % + 100 % ) / 3 = 50 %
@AndyW 와 @ArthurB의 의견에서 제안한 바와 같이 . 단순 가중 평균 이외의 다른 방법을 사용할 수 있습니다. 이러한 많은 방법은 전문가 예측 평균화에 대한 문헌에 설명되어 있으며 이전에는 익숙하지 않았으므로 감사합니다. 전문가 예측의 평균을 계산할 때 전문가가 평균으로 되돌아 가거나 (Baron et al, 2013) 예측을 더 극단적으로 만드는 경향을 수정하려고합니다 (Ariely et al, 2000; Erev et al, 1994). 이를 달성하기 위해 개별 예측 변환 , 예를 들어 로짓 함수를 사용할 수 있습니다피나는
l o g i t ( p나는) = 로그( p나는1 - p나는)(1)
받는 확률 번째 전력에이
지( p나는) = ( p나는1 - p나는)에이(2)
여기서 또는보다 일반적인 형식 변환0 < a < 1
t ( p나는) = p에이나는피에이나는+ ( 1 − p나는)에이(삼)
여기서 이면 변환이 적용되지 않고 개별 예측이 더 극단적 인 경우, 예측이 덜 극단적 인 경우 아래 그림에 나와 있습니다 (Karmarkar, 1978; Baron et al, 2013 참조) ).> 1 0 < < 1a = 1a > 10 < a < 1
이러한 변환 예측은 평균화 한 후 (산술 평균, 중앙값, 가중 평균 또는 기타 방법 사용). 방정식 (1) 또는 (2)가 사용 된 경우 (1)에 대한 역 로짓과 (2)에 대한 역 확률 을 사용하여 결과를 역변환해야합니다 . 또는 기하 평균을 사용할 수도 있습니다 (Genest and Zidek, 1986; Dietrich and List, 2014 참조).
피^= ∏엔나는 = 1피승나는나는∏엔나는 = 1피승나는나는+ ∏엔나는 = 1( 1 - p나는)승나는(4)
또는 Satopää et al (2014)이 제안한 접근법
피^= [ ∏엔나는 = 1( p나는1 - p나는)승나는]에이1 + [ ∏엔나는 = 1( p나는1 - p나는)승나는]에이(5)
여기서 는 가중치입니다. 대부분의 경우 다른 선택을 제안 하는 사전 정보가 존재 하지 않는 한 동일한 가중치 이 사용됩니다 . 이러한 방법은 전문가 예측을 평균화하여 과소 또는 과신을 교정하는 데 사용됩니다. 다른 경우에는 예측 결과를 더 높거나 덜 극단적으로 변환하는 것이 정당한지 고려해야합니다. 결과적으로 집계 추정치가 가장 낮고 가장 큰 개별 예측으로 표시된 경계를 벗어날 수 있기 때문입니다.w i = 1 / N승나는승나는= 1 / N
당신이있는 경우 사전 비 확률에 대한 지식을 당신은 주어진 예측 업데이트 할 수 베이 즈 정리를 적용 할 수 있습니다 사전 에 비의 가능성을 여기에 설명 된대로 비슷한 방식을 . 적용 할 수있는 간단한 접근 방법도 있습니다 (예 : 위에서 설명한 바와 같이 예측 의 가중 평균 계산 ). 여기서 사전 확률 가이 IMDB 예 에서 와 같이 미리 지정된 가중치 를 가진 추가 데이터 포인트로 처리됩니다 ( 출처를 참조 하거나 여기 와 여기 를 참조 하십시오 ( 참조 : Genest and Schervish, 1985), 즉 π w π피나는π승π
피^= ( ∑엔나는 = 1피나는승나는) +π승π( ∑엔나는 = 1승나는) + wπ(6)
그러나 귀하의 질문에서 귀하의 문제에 대한 선험적 지식 이 있다는 것을 따르지 않으므로 사전 에 균일하게 사용할 것입니다 (예 : 선험적 확률의 비가 있다고 가정 하면 제공 한 예의 경우 실제로 크게 변하지 않습니다) .50 %
0을 처리하기 위해 가능한 여러 가지 접근 방식이 있습니다. 먼저 비가 올 확률은 인데 비가 오는 것은 불가능 하기 때문에 신뢰할만한 가치는 아닙니다 . 데이터에서 발생할 수있는 일부 값을 관찰하지 않을 때 자연 언어 처리에서 유사한 문제가 종종 발생합니다 (예 : 문자 빈도를 계산하고 데이터에서 일반적이지 않은 문자가 전혀 발생하지 않음). 이 경우 확률에 대한 고전 추정량, 즉0 %
피나는= n나는∑나는엔나는
여기서 는 번째 값 의 발생 횟수 ( 범주 중)이며 경우 제공합니다 . 이것을 영 주파수 문제 라고 합니다 . 같은 값의 경우 당신은 알고 이 예상 분명히 잘못된 것입니다 그래서 그 확률은, (그들이 존재!) 제로입니다. 실제적인 문제도 있습니다 : 0을 곱하고 나누면 0 또는 정의되지 않은 결과가 발생하므로 0은 처리에 문제가 있습니다. i d p i = 0 n i = 0엔나는나는디피나는= 0엔나는= 0
쉽고 일반적으로 적용되는 수정은 카운트에 일정한 를 추가 하여β
피나는= n나는+ β( ∑나는엔나는) + dβ
의 일반적인 선택 은 . 즉, Laplace의 승계 규칙에 따라 사전에 균일 한 적용 , Krichevsky-Trofimov 추정의 경우 또는 Schurmann-Grassberger (1996) 추정기의 경우 입니다. 그러나 여기서 수행하는 작업은 모델에 데이터 외부 (사전) 정보를 적용하여 주관적인 베이지안 풍미를 얻는 것입니다. 이 접근 방식을 사용하면 가정 한 사항을 기억하고 고려해야합니다. 데이터에 확률이 없어야한다는 선험적 지식 이 있다는 사실 은 여기서 베이지안 접근 방식을 직접적으로 정당화합니다. 귀하의 경우 주파수가 아닌 확률이 있으므로 일부를 추가 할 것입니다(1) 1 / 2 1 / Dβ11 / 21 / d매우 작은 값이므로 0을 수정하십시오. 그러나 경우에 따라이 접근 방식은 나쁜 결과를 초래할 수 있으므로 (예 : 로그를 처리 할 때 )주의해서 사용해야합니다.
Schurmann, T. 및 P. Grassberger. (1996). 심볼 시퀀스의 엔트로피 추정. 혼돈, 6, 41-427.
Ariely, D., Tung Au, W., Bender, RH, Budescu, DV, Dietz, CB, Gu, H., Wallsten, TS 및 Zauberman, G. (2000). 판사 간 및 판사 내 주관적 확률 추정의 평균화 효과. 실험 심리학 저널 : Applied, 6 (2), 130.
Baron, J., Mellers, BA, Tetlock, PE, Stone, E. and Ungar, LH (2014). 집계 된 확률 예측을 더 극단적으로 만드는 두 가지 이유. 결정 분석, 11 (2), 133-145.
Erev, I., Wallsten, TS 및 DV, Budescu, DV (1994). 과도하고 과소 한 동시성 : 판단 과정에서 오류의 역할. 심리적 검토, 101 (3), 519.
미국 Karmarkar (1978). 주관적으로 가중 된 유틸리티 : 예상되는 유틸리티 모델의 설명 확장. 조직 행동과 인간의 성과, 21 (1), 61-72.
Turner, BM, Steyvers, M., Merkle, EC, Budescu, DV 및 Wallsten, TS (2014). 재 보정을 통한 예측 집계. 기계 학습, 95 (3), 261-289.
Genest, C. 및 Jidek, JV (1986). 확률 분포 결합 : 비판과 주석이 달린 참고 문헌. 통계 과학, 1 , 114–135.
Satopää, VA, Baron, J., Foster, DP, Mellers, BA, Tetlock, PE 및 Ungar, LH (2014). 간단한 로짓 모형을 사용하여 여러 확률 예측을 결합합니다. International Journal of Forecasting, 30 (2), 344-356.
Genest, C., and Schervish, MJ (1985). 베이지안 업데이트에 대한 모델링 전문가 판단. 통계의 연대기 , 1198-1212.
Dietrich, F. 및 List, C. (2014). 확률 적 의견 풀링. (널리 알려지지 않은)