예측을 위해 여러 모델을 사용해야하는 경우


13

이것은 상당히 일반적인 질문입니다.

나는 일반적으로 여러 다른 모델을 사용하면 샘플에서 시계열을 예측하려고 할 때 하나의 모델보다 뛰어납니다. 모델 조합이 단일 모델보다 성능이 뛰어남을 보여주는 좋은 논문이 있습니까? 여러 모델을 결합하는 모범 사례가 있습니까?

일부 참고 문헌 :


내 답변 아래에 귀하의 의견 / 질문에 비추어 주석이있는 꽤 좋은 출처 (불행히도 교과서)라고 생각하는 것을 추가했습니다. 원래 답변을 편집하여 끝에 나타납니다.
doug

답변:


8

때때로 이런 종류의 모델을 앙상블이라고합니다. 예를 들어이 페이지 는 작동 방식에 대한 개요를 제공합니다. 또한 언급 된 참조는 매우 유용합니다.


3
실제로, 블렌딩은 가능한 앙상블 기술 중 하나입니다. 특히, 같은 종류의 분류기를 결합 할 때, Adaboost와 같은 부스팅 및 임의의 포리스트와 같은 배깅, 그리고 다른 분류기를 결합하는 혼합 (셰인의 질문)이 두 가지 있습니다.

3
혼합을 위해 netflix 경쟁 의이 논문을 읽을 가치가 있습니다 : the-ensemble.com/content/feature-weighted-linear-stacking .
Shane

2
기상학자는 단어 "앙상블"도 사용하지만 조합에는 사용하지 않는 것이 재미있다. 숫자 모델의 초기 조건을 섭동하여 얻은 예측 앙상블 (시나리오와 같은)에 사용한다.
로빈 지라드

1
@mbq 사실 그들은 스스로를 예측 자라고 부르고 통계를 아주 많이 사용합니다.
Robin girard

1
@ 로빈, 나는 이것이 "앙상블"이라고 불리는 이유 또는 이와 같은 것이 아닙니다.

10

NetFlix Prize 경쟁 (2009)의 마지막 해에는 여러 학습 알고리즘을 결합하는 것에 대한 전반적인 커뮤니티 가정이 크게 바뀌는 것처럼 보였습니다.

예를 들어, 공식적인 교육 (대학 과정)과 그 후의 현장 감독 / 멘토링은 명백한 이유가없는 한 알고리즘 조합을 피하고 "현재 알고리즘의 해상도를 향상시키기 위해" t 정말 좋은 이유로 간주됩니다. (다른 사람들은 다른 경험을 가질 수 있습니다. 물론 저 성능 ML 알고리즘을 코딩하는 경험은 상당하지만 내 경험에 근거한 커뮤니티 전체의 관점을 유추하고 있습니다.)

그럼에도 불구하고 알고리즘을 어떤 방식 으로든 결합하는 것이 받아 들여지고 실제로 성능이 향상되는 몇 가지 "패턴"이있었습니다. 저에게 가장 빈번한 예는 머신 모드에서 구성되고 (각 데이터 포인트에 클래스 레이블을 할당하는) 일부 ML 알고리즘과 3 개 이상의 클래스 (일반적으로 더 많은 클래스)가있는 일부 ML 알고리즘과 관련이 있습니다. 예를 들어,지도 학습 알고리즘을 사용하여 4 개의 클래스를 해결 하면 클래스 III과 클래스 IV를 제외하고는 뛰어난 분리를 볼 수 있습니다. 따라서 6 가지 의사 결정 경계 중 하나만 필요한 임계 값 아래로 해결되었습니다. 특히 클래스 III과 IV가 함께 데이터의 작은 퍼센트를 차지할 때, 이 두 클래스의 해상도에만 최적화 된 추가 알고리즘을 추가이 분석 문제 유형에 대한 일반적인 솔루션이었습니다. (보통 '블라인드 스팟'은 기본 알고리즘의 본질적인 한계였습니다. 예를 들어 선형 분류기 였고 III / IV 결정 경계는 비선형이었습니다.

다시 말해, 처리 환경 (일반적으로 데이터 스트리밍)에 적합한 신뢰할 수있는 알고리즘이 있고 사양에서 수행 된 단일 사각 지대를 제외하고 사양 내에서 수행 된 신뢰할 수있는 알고리즘이있는 경우 데이터의 작은 부분 인 경우, 주요 알고리즘이 체계적으로 누락 된 것을 포착하기 위해 다른 특수 알고리즘을 '볼트-온'하는 것이 좋습니다.

마지막으로,이 주제에 대해서는 2010 년 MIT Press의 Ethem Alpaydin의 머신 러닝 소개 2d 에서 17 장, 다중 학습자 결합을 강력히 추천 합니다. 이것은 몇 달 전에 출판 된 두 번째 판입니다 . 첫 번째 판은 2004 년에 출판되었으며이 주제와 동일한 내용을 가지고있는 것 같습니다. (실제로 나는 전체 텍스트를 권장하지만 특히이 장은 Shane의 질문과 관련이 있기 때문에 권장합니다.)

저자는 25 페이지에 아마도 학술 논문이나 실습에서 유용성이 입증 된 모든 ML 알고리즘 조합 체계 (예 : 배깅, 부스팅, 전문가의 혼합, 누적 일반화, 계단식, 투표, 오류 정정 등)를 요약합니다. ..


이것은 훌륭한 정보입니다. 이를 다루는 논문이 있습니까?
Shane

글쎄, 나는 그것을 쓸 때 어떤 논문도 언급하지 않았고, 비공식적으로 귀하의 질문과 관련된 내 경험의 일부를 합산했습니다. 나는 내 파일을 살펴보고 그것이 무엇을 가지고 있는지 볼 것입니다.
더그

4

앙상블 방법에 대한 Peter의 응답에 대한 후속 조치 :

  • 이에 대한 내용은 "통계 학습의 요소" (예 : 288 페이지) 에서 다룹니다 .
  • Witten and Frank "데이터 마이닝 : 실용 머신 러닝 툴 및 기법" 은 7.5 섹션에서 자루에 넣기, 랜덤 화, 부스팅, 가산 회귀, 가산 로지스틱 회귀, 옵션 트리, 로지스틱 모델 트리 및 스태킹에 대한 설명을 포함하여 7.5 절에서이 내용을 다룹니다.
  • 이 내용은 베이지안 모델 평균화, 부스팅,위원회, 트리 기반 모델 및 조건부 혼합 모델을 포함한 Christopher M. Bishop "패턴 인식 및 기계 학습"의 14 장에서 다룹니다 .

2

가장 놀라운 예는 Netflix 챌린지 인데, 이로 인해 혼합 인기가 크게 향상되었습니다.


1

다음은 질문의 "여러 모델을 결합하는 모범 사례" 부분 만 다루는 약간의 왼쪽 필드 답변 입니다. 이것은 혼란과 소음-기후 모델을 나타내는 복잡하고 비선형 모델을 다루는 것을 제외하고는 기본적으로 나의 명예 논문입니다. 이것은 많은 분야에 광범위하게 적용되지는 않지만 생태학 또는 계량 경제학에 유용 할 수 있습니다.

기후 모델링 커뮤니티에서 상당히 최근까지, 모델은 대부분 가중되지 않은 평균 (일반적으로 샘플 기간의 일부 또는 전부에 대한 모델 평균을 제거하는 바이어스 보정 후)으로 분쇄되었습니다 . 이것이 기본적으로 IPCC가 4 차 평가 보고서 (4AR) 및 이전 보고서에 대해 수행 한 것입니다.

이것은 " 진실과 오류 "앙상블 조합 학교의 예입니다. 관측 시리즈 (예 : 지구 온도, 지역 강수량 등)가 사실이라고 암시 적으로 또는 명시 적으로 가정하고 충분한 표본을 채취하는 경우 (예 : 모델 런) 모델 런의 노이즈가 취소됩니다 ((1) 참조).

최근에는 성능 가중치를 기반으로 모델을 결합하는 방법 이 사용되었습니다. 기후 모델은 너무 시끄럽고 변수와 매개 변수가 너무 많기 때문에 성능을 평가하는 유일한 방법은 공분산을 취하거나 모델 출력과 관측 된 시계열간에 MSE를 취하는 것입니다. 그런 다음 해당 측정 값을 기준으로 평균에 가중치를 부여하여 모델을 결합 할 수 있습니다. (2)에 이것에 대한 좋은 개요가 있습니다.

시뮬레이션을 결합하는이 방법의 배후에있는 한 가지 가정 은 모델이 모두 합리적으로 독립적이라는 가정입니다. 일부는 의존도가 높으면 평균을 편향시킬 것입니다. 이 가정은 4AR ( CMIP3)에 사용 된 데이터 세트에 대해 상당히 공정한 것으로 ,이 데이터 세트는 많은 모델링 그룹에서 거의 실행되지 않은 모델 실행으로 구성 되었으므로 ( 코드는 모델링 커뮤니티에서 공유되므로 일부 상호 의존성이있을 수 있음) 이에 대한 흥미로운 내용은 (3)을 참조하십시오 다음 평가 보고서의 데이터 세트 CMIP5, 이것은 다소 우연한 속성을 가지고 있지 않습니다. 일부 모델링 팀은 몇 번의 달리기를 제출하고 일부는 수백 건을 제출할 것입니다. 다른 팀에서 온 앙상블은 초기 조건 석출 또는 모델 물리학 및 매개 변수 변경에 의해 생성 될 수 있습니다. 또한,이 수퍼 앙상블은 체계적인 방식으로 샘플링되지 않으며, 데이터를 가져 오는 사람이 바로 이유가 있습니다. 이것은 해당 분야에서 " 기회 앙상블 "으로 알려져 있습니다. 이러한 앙상블에 가중되지 않은 평균을 사용하면 더 많은 런이있는 모델에 대한 약간의 편견이 생길 가능성이 있습니다 (수백 개의 런이 있더라도 실제로 독립적 인 런 수가 훨씬 적을 수 있음).

우리 감독관은 현재 성과 및 독립 가중치가 포함 된 모델 조합 프로세스를 설명하는 논문을 검토 중 입니다. 사용할 수있는 회의 논문 초록이 있습니다 (4). 논문이 출판 될 때 논문에 대한 링크를 게시합니다 (느린 과정, 숨을 참지 마십시오). 기본적으로이 백서에서는 모델 오류의 공분산 (모델 -obs)을 취하고 다른 모든 모델과 공분산이 높은 모델 (예 : 매우 의존적 인 오류가있는 모델)의 가중치를 내리는 과정을 설명합니다. 모델 오차 분산도 계산되어 성능 가중치 구성 요소로 사용됩니다.

기후 모델링은 일반적으로 수치 모델링의 변화에 ​​의해 크게 영향을 받는다는 점에 주목할 가치가 있습니다. 불리는 일이있다 "웃음 테스트" - 당신은 지구 평균 온도가 + 20이 될 것이라는 점을 의미 ° C를 2050 년 모델 실행으로 끝날 경우 명확하게 물리적으로 관련이없는 때문에, 당신은 단지 그것을 밖으로 던져. 분명히 이런 종류의 테스트는 상당히 주관적입니다. 아직 요구하지는 않았지만 가까운 장래에 나올 것으로 예상됩니다.

그것은 현재 내 분야의 상태 모델 조합에 대한 나의 이해입니다. 분명히 나는 ​​아직도 배우고 있습니다. 따라서 특별한 무언가를 치면 돌아와서이 답변을 업데이트 할 것입니다.

(1) Tebaldi, C. & Knutti, R., 2007. 확률 적 기후 예측에서 다중 모델 앙상블의 사용. 왕립 학회의 철학적 거래 A : 수학, 물리 및 공학 과학, 365 (1857), pp.2053–2075.

(2) Knutti, R. et al., 2010. 다중 모델 기후 예측 평가 및 결합에 관한 IPCC 전문가 회의.

(3) Masson, D. & Knutti, R., 2011. 기후 모델 계보. 지구 물리학. 입술 Lett, 38 (8), p.L08703.

(4) Abramowitz, G. & Bishop, C., 2010. 앙상블 예측에서의 모델 의존성에 대한 정의 및 가중치. AGU 가을 회의 초록에서. 피. 07.


첫 번째 단락은 "복잡하고 비선형 모델" 을 의미 합니까? 내 작업 영역 (기후가 아닌 영역)의 경우 다른 모델을 사용한다고해서 일반적으로 크게 다른 예측이되지 않는 경우가 많습니다. 그러나 비 특정 방식으로 모델을 결합하기 위해 컴퓨팅을 시작하고 실행하는 것은 우리에게 큰 장애물입니다. 더 정확한 예측을 기대하지만 모델을 결합하고 해당 예측의 오류를 정확하게 추정 할 시간이 없습니다.
chanceislogic

고마워요 컴퓨팅 클러스터에 액세스 할 수 있으므로 컴퓨팅 성능은 큰 문제는 아니지만 예, 올바르게 설정 한 모델을 얻는 것조차 고통스럽고 이미 작성되었습니다. 그렇기 때문에 CMIP가 존재하므로 사람들은 매번 그 모든 문제를 겪을 필요가 없습니다. 비슷한 일을하는 경우 관심있는 분야를 알고 싶습니다.
naught101
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.