잔류 네트워크는 그라디언트 부스팅과 관련이 있습니까?


11

최근에, 우리는 Residual Neural Net의 출현을 보았습니다. 여기서 각 레이어는 계산 모듈 와 i 번째 레이어의 출력과 같이 레이어에 대한 입력을 유지하는 바로 가기 연결 로 구성됩니다 . 네트워크는 잔존 피처를 추출 할 수 있으며 깊이가 더 깊어지면서 배니싱 그라디언트 문제에 대해보다 강력한 성능을 제공하여 최첨단 성능을 달성합니다.y i + 1 = c i + y ici

yi+1=ci+yi

파 놓은 광산 데 밀어 그라데이션 , 또한 손실의 잔류에 그라데이션 최적화의 양식을 수행 할 것으로 보인다 기계 학습의 세계에서 매우 강력한 ensembling 기술은, 그것의 하드 유사성의 형태를 볼 수 없습니다.

나는 그것들이 비슷하지만 동일하지 않다는 것을 알고 있습니다. 내가 주목 한 한 가지 주요 차이점은 그라디언트 부스팅은 덧셈 항에 대해 최적화를 수행하는 반면 잔여 그물은 전체 네트워크를 최적화한다는 것입니다.

나는 그가 원래 논문 에서 그들의 동기 부여의 일부로 이것을 언급하지 않았다 . 그래서 나는이 주제에 대한 당신의 통찰력이 무엇인지 궁금해하고 있으며 당신이 가진 흥미로운 자료를 공유해달라고 부탁합니다.

감사합니다.

답변:


7

Langford and Shapire 팀에서 더 많은 문제를 해결하려는 새로운 논문 : 부스팅 이론을 사용하여 순차적으로 심층 ResNet 블록 학습

관심있는 부분은 다음과 같습니다 (섹션 3 참조).

t=0Tft(gt(x))wt

ot(x):=wtTgt(x)R

...

ot(x)=t=0t1wtTft(gt(x))

ht(x)


이 답변에 약간의 세부 사항을 추가하면 모든 부스팅 알고리즘을 [1] (p 5, 180, 185 ...) 형식으로 작성할 수 있습니다.

FT(x):=t=0Tαtht(x)

httthαtαtht

htϵtαt=12log1ϵtϵt

htL(Ft1(x))htα>0

에프(엑스)

에프(엑스)=0h(엑스)

에프(엑스): ==0αh(엑스)

[1] Robert E. Schapire와 Yoav Freund. 부스팅 : 기초와 알고리즘. MIT Press. p5, 180, 189
[2] 푸롱 황, 요르단 애쉬, 존 랭 포드, 로버트 샤 피어 : 부스팅 이론을 사용하여 순차적으로 심층 ResNet 블록 학습, ICML 2018


4

내 자신의 질문에 대답 : Deep Residual Networks가 실제로 얕은 네트워크의 앙상블임을 조사하고 증명 하는 주목할만한 논문 을 발견했습니다 .

또 다른 편집,이 문제를 좀 더 이해 한 후 : 나는 Resnets를 'Feature Boosting'을 배우는 방법으로 봅니다. 잔류 연결은 부스팅을 수행하지만 목표는 아니지만 실제로 다음 레이어의 출력 기능에서 부스팅을 수행합니다. 그래서 그들은 실제로 연결되어 있지만 고전적인 그래디언트 부스팅이 아니라 실제로는 '그라디언트 기능 부스팅'입니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.