신경망 강화


21

최근에 나는 adaboost, gradient boost와 같은 boosting algorithm을 배우고 있었고 가장 많이 사용되는 약한 학습자가 나무라는 사실을 알고 있습니다. 신경망을 기본 학습자로 사용하기위한 최근의 성공적인 사례 (논문 또는 기사를 의미 함)가 있는지 알고 싶습니다.


: 이것은 당신을위한 흥미로운 읽기 수 있습니다 arxiv.org/pdf/1706.04964.pdf
다니엘

답변:


8

부스팅에서는 약하거나 불안정한 분류 기가 기본 학습자로 사용됩니다. 목표는 상당히 다른 의사 결정 경계를 생성하는 것이기 때문입니다. 그런 다음 좋은 기본 학습자는 매우 편향된 학습자입니다. 즉, 기본 학습자의 학습 매개 변수가 약간 변경 되어도 출력은 기본적으로 동일하게 유지됩니다.

신경망에서 드롭 아웃 은 훈련 앙상블과 비교할 수있는 정규화 기술입니다. 차이점은 잠복 공간에서 뉴런이 존재한다는 것 (뉴런의 존재 여부)으로 인해 일반화 오류가 줄어든다는 것입니다.

"각 훈련 예제는 무작위로 샘플링 된 다른 아키텍처에 대한 그라디언트를 제공하는 것으로 볼 수 있으므로 최종 신경망은 효율적으로 일반화 기능을 갖춘 거대한 신경망의 효율적인 앙상블을 효과적으로 표현할 수 있습니다 .

드롭 아웃 뉴런에서 삭제됩니다 (뉴런을 의미 존재 여부를 일정 확률로)에있는 동안 두 개의 같은 기술이있다 dropconnect 가중치가 삭제됩니다.

이제 귀하의 질문에 대답하기 위해 신경망 (또는 퍼셉트론)은 훈련 속도가 느리고 (시간이 너무 오래 걸리기 때문에) 학습자가 기본 학습자로 사용되지 않으며 학습자는 약하지는 않지만 믿습니다. 더 불안정하도록 설정하십시오. 따라서 노력할 가치가 없습니다.

이 주제에 대한 연구가 있었지만 제대로 작동하지 않는 아이디어가 일반적으로 성공적으로 게시되지 않은 것은 유감입니다. 우리는 어디에서도 이끄는 경로를 다루는 더 많은 연구가 필요하다.

편집하다:

나는 이것에 대해 조금 더 가지고 있었고 큰 네트워크의 앙상블에 관심이 있다면, 그러한 여러 네트워크의 출력을 결합하는 방법을 언급하고있을 것입니다. 대부분의 사람들은 과제에 따라 평균을 내거나 다수의 투표를합니다. 이는 최적이 아닐 수 있습니다. 특정 레코드의 오류에 따라 각 네트워크의 출력에 대한 가중치를 변경할 수 있어야한다고 생각합니다. 출력의 상관 관계가 적을수록 조립 규칙이 더 좋습니다.


2

나는 이것이 받아 들일만한 대답을 얻지 못했기 때문에 매우 휴리스틱 답을 줄 것입니다. 그렇습니다. 예를 들어 JMP Pro (아마도 들어 본 적이없는 최고의 통계 패키지)에서 사용할 수 있습니다. http://www.jmp.com/support/help/Overview_of_Neural_Networks.shtml

페이지 중간에 사용 된 내용에 대한 설명이 있습니다. 나는 이론을 조사하는 데 아무런주기를하지 않았지만 더 큰 단일 모델에서 더 많은 노드를 사용하는 것과 본질적으로 동일한 결과를 달성한다는 것을 암시하는 것처럼 보입니다. 장점은 모델 피팅 속도에있다.

매우 거친 게이지의 경우, 2 시그 모이 드 및 2 가우시안 노드가있는 데이터 세트와 비교하여 단일 모델에서 12 시그 모이 드 및 12 가우시안 노드에 대해 6 배 모델을 향상 시켰으며 결과는 테스트 데이터 세트에서 거의 동일했습니다. .

속도 차이도 눈치 채지 못했지만 ... 데이터 세트는 1600 포인트에 불과하고 12 개의 변수 만 사용하므로 더 많은 변수가있는 더 큰 데이터 세트에서는 눈에 띄는 계산 차이가 있음을 알 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.