익스트림 러닝 머신 : 그게 다 뭐에요?

저는 1 년 이상 ELM (Extreme Learning Machine) 패러다임을 생각하고 구현하고 사용하고 있으며, 더 오래할수록 실제로 좋은 일인지 의심합니다. 그러나 내 의견은 인용과 새로운 출판물을 측정 할 때 인기있는 주제 인 과학계와는 대조되는 것 같습니다.

ELM은 Huang 등에 의해 소개되었습니다 . 알. 기본 아이디어는 다소 간단합니다. 2 계층 인공 신경망으로 시작하여 첫 번째 계층의 계수를 임의로 할당합니다. 이것은 일반적으로 역 전파를 통해 처리되는 비선형 최적화 문제를 간단한 선형 회귀 문제로 변환합니다. 더 상세한 $\mathbf x \in \mathbb R^D$ 모델은

f (x) = \sum_{i = 1}^{N_{hidden}} w_{i} σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$f(\mathbf x) = \sum_{i=1}^{N_\text{hidden}} w_i \, \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

이제 단지 $w_i$ 의 반면 (제곱 오차 손실을 최소화하기 위하여) 조정된다 $v_{ik}$ 의 전부를 임의로 선택한다. 자유도 손실에 대한 보상으로서, 일반적인 제안은 다소 많은 숨겨진 노드 (즉, 자유 매개 변수 ) 를 사용하는 것 입니다. $w_i$

또 다른 관점 (안 신경 네트워크 측에서 오는 일반적으로 문헌에 승진 한)에서 전체 과정 입니다 단순히 선형 회귀,하지만 당신은 당신의 기저 함수 중 하나를 선택 예를 들어, 무작위 $\phi$

ϕ_{i} (x) = σ (v_{i 0} + \sum_{k = 1}^{D} v_{i k} x_{k}) .

$\phi_i(\mathbf x) = \sigma\left(v_{i0} + \sum_{k=1}^{D} v_{ik} x_k \right)\,.$

(시그 모이 드 이외의 다른 선택은 임의 함수에 대해 가능합니다. 예를 들어, 동일한 원리가 방사형 기저 함수를 사용하여 적용되었습니다.)

이 관점에서 전체 방법이 거의 단순 해졌으며,이 방법이 실제로 좋은 방법인지 의심하기 시작하는 시점이기도합니다 (그러나 과학적 마케팅은 확실합니다). 내 질문은 다음과 같습니다.

임의 기준 함수를 사용하여 입력 공간을 래스터하는 아이디어는 저 차원에 적합합니다. 높은 차원에서 합리적인 수의 기본 기능을 가진 무작위 선택을 사용하여 좋은 선택을 찾는 것이 불가능하다고 생각합니다. 따라서 ELM은 치수의 저주 때문에 고차원으로 저하됩니까?
이 의견을지지하거나 모순되는 실험 결과에 대해 알고 있습니까? 링크 된 논문에는 SVM과 유사한 방법을 수행하는 27 차원 회귀 데이터 세트 (PYRIM)가 하나 있습니다 (역 전파 ANN과의 비교를보고 싶습니다)
좀 더 일반적으로 ELM 방법에 대한 의견을 드리고자합니다.

regression

— 데이비드
소스

전체 내용은 여기를 참조하십시오 : theanonymousemail.com/view/?msg=ZHEZJ1AJ

— davidhigh

답변:

높은 차원의 문제에 ELM을 사용하는 것에 대한 당신의 직감은 맞습니다. 나는 이것에 대한 결과를 얻었습니다. 많은 실제 문제의 경우 데이터가 비선형 적이 지 않고 ELM이 상당히 잘 수행하지만 차원의 저주가 필요할 때마다 곡률을 사용하여 좋은 기본 함수를 찾을 수있는 기회를 의미하는 데이터 세트가 항상 있습니다 기본 벡터가 많더라도 작습니다.

나는 개인적으로 최소 자승 지원 벡터 머신 (또는 방사 기저 함수 네트워크) 같은 것을 사용하고 시도하고 기저 벡터를 선택하는 훈련 세트 것과 욕심 방식으로 (예를 들어 볼 것입니다 내 종이를 하지만, 거기에 다른 / 더 좋았다 Scholkopf와 Smola의 "kernels로 배우기"에 관한 아주 좋은 책에서 같은시기에 출판 된 접근법. 나는 대략적인 문제에 대한 정확한 해결책보다는 정확한 문제에 대한 대략적인 해결책을 계산하는 것이 낫다고 생각하며, 커널 머신은 더 나은 이론적 토대를 가지고 있습니다 (고정 커널; o).

— 디크 란 유대류
소스

+1. 나는 전에 ELM에 대해 들어 본 적이 없지만 OP의 설명에서 임의의 네트워크 연결 및 판독 가중치 만 최적화하는 액체 상태 기계 (LSM)와 비슷합니다. 그러나 LSM에서는 임의의 "저장소"가 반복되는 반면 ELM에서는 피드 포워드입니다. 그것은 실제로 유사점과 차이점입니까?

— amoeba는

좋은 답변에 감사드립니다. 논문이 발간 될 때 답변을 업데이트하십시오. 커널과 관련하여 : 물론 "커널"버전의 ELM도 있습니다. 위의 시그 모이 드를 (필수적으로 양의 한정되지 않은) 커널

바꾸고 많은

무작위로 선택하십시오. 원래 ELM에서와 동일한 "트릭", 같은 문제. ELM과 SVM의 목표 기능이 다른 경우에도 센터 선택에 대해 언급 한 방법도 여기에서 매우 중요합니다. 이는 아마도 "완전 블라인드"에서 "하프 블라인드"방법으로 바뀔 것입니다.

k (x, x_{i})

$k(\mathbf x,\mathbf x_i)$

x_{i}

$\mathbf x_i$

— davidhigh

@ amoeba : 나는 액체 상태 기계를 알지 못했지만 당신이 말한 것에서 실제로 매우 비슷하게 들립니다 ... 물론 기술적으로 더 일반적입니다. 여전히 재귀는 문제에 좀 더 복잡한 형태의 무작위성을 추가합니다. 제 의견으로는 차원의 저주 문제를 치료하지 못합니다 (그러나, 누가 이것을합니까?). 이러한 재귀 가중치는 일부주의를 기울이거나 완전히 무작위로 선택됩니까?

— davidhigh

RBF 커널의 경우 @davidhigh의 "대리인 정리"는 각 교육 샘플의 기본 기능을 중심으로하는 것보다 더 나은 솔루션이 없다는 것을 보여줍니다 (정규화 된 비용 함수에 대한 합리적인 가정). 이것은 커널 메소드 (및 스플라인)의 훌륭한 기능 중 하나이므로 임의로 분산시킬 필요가 없습니다. 그건 그렇고, 무작위로 선택된 기준 함수의 출력에 선형 모델을 구성하는 것은 매우 긴 역사를 가지고 있습니다. 내가 가장 좋아하는 것은 단일 레이어 조회 perceptron ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=51949&tag=1 이지만 편향 될 수 있습니다!

— Dikran Marsupial

@DikranMarsupial 당신은 출판을 했습니까?

— Tom Hale

ELM은 출력 가중치를 분석적으로 해결하여 데이터에서 "학습"합니다. 따라서 네트워크에 공급되는 데이터가 클수록 더 나은 결과를 얻을 수 있습니다. 그러나 여기에는 더 많은 수의 숨겨진 노드가 필요합니다. ELM에 오류가 거의 없거나 전혀없는 경우 새 입력 세트가 제공되면 올바른 출력을 생성 할 수 없습니다.

역전 파와 같은 전통적인 신경망에 비해 ELM의 주요 장점은 빠른 훈련 시간입니다. 대부분의 계산 시간은 Huang paper에 언급 된대로 출력 레이어 무게를 푸는 데 소비됩니다.

— 사용자
소스