신경 네트워크 대 다른 모든 것


15

Google 에서 이것에 대한 만족스러운 답변을 찾지 못했습니다 .

물론 내가 가진 데이터가 수백만 정도라면 딥 러닝이 길입니다.

그리고 빅 데이터가 없으면 기계 학습에 다른 방법을 사용하는 것이 좋습니다. 주어진 이유는 과적 합입니다. 기계 학습 : 즉 데이터, 특징 추출, 수집 된 것으로부터 새로운 특징 만들기 등 상관 관계가 큰 변수 제거 등 전체 기계 학습 9 야드.

그리고 궁금한 점이 있습니다. 숨겨진 계층이 하나 인 신경망이 기계 학습 문제에 만병 통치약이 아닌 이유는 무엇입니까? 그것들은 보편적 인 추정기이며, 초과 피팅은 드롭 아웃, l2 정규화, l1 정규화, 배치 정규화로 관리 할 수 ​​있습니다. 훈련 속도가 50,000 개에 불과한 경우 일반적으로 훈련 속도는 문제가되지 않습니다. 테스트 시간에 임의의 숲보다 낫습니다.

데이터를 정리하고, 결 측값을 대치하고, 데이터를 중앙에 배치하고, 데이터를 표준화하고, 하나의 숨겨진 레이어로 신경망의 앙상블에 던져 넣고 과적 합이 보이지 않을 때까지 정규화를 적용하십시오. 끝까지. 그라디언트 폭발 또는 그라디언트 소실 문제는 2 계층 네트워크이므로 문제가 없습니다. 딥 레이어가 필요한 경우 계층 적 기능을 학습해야하며 다른 머신 러닝 알고리즘도 좋지 않습니다. 예를 들어 SVM은 힌지 손실 만있는 신경망입니다.

다른 머신 러닝 알고리즘이 정교하게 정규화 된 2 계층 (아마도 3?) 신경망을 능가하는 예가 인정 될 것이다. 당신은 나에게 문제에 대한 링크를 줄 수 있고 내가 할 수있는 최고의 신경망을 훈련시킬 것이고 2 층 또는 3 층 신경 네트워크가 다른 벤치 마크 기계 학습 알고리즘에 미치지 못하는지를 알 수 있습니다.


14
신경망은 기계 학습 알고리즘입니다.
Matthew Drury

6
이미지 인식과 같이 딥 러닝이 중요한 일부 영역이 있지만 대부분의 다른 영역에서는 Kaggle 경쟁 결과를 보면 분명한 바와 같이 그라디언트 부스팅에 의해 지배되는 경향이 있습니다.
Jake Westfall

1
@MatthewDrury-정말 그렇습니다! 용어가 형편없는 것에 대한 사과. 메시지가 전달되기를 바랍니다. 그럼에도 불구하고 질문을 더 강력하게 변경하십시오. 지적 해 주셔서 감사합니다
MiloMinderbinder

1
네트워크 깊이와 관련하여 다음을 확인하십시오 : stats.stackexchange.com/questions/182734
jld

답변:


31

각 기계 학습 알고리즘은 서로 다른 유도 바이어스를 가지므로 신경망을 사용하는 것이 항상 적절한 것은 아닙니다. 선형 추세는 항상 비선형 네트워크의 앙상블이 아닌 단순한 선형 회귀를 통해 가장 잘 학습됩니다.

이미지 / 비디오 데이터 관련 문제를 제외하고 과거 Kaggle 대회 의 우승자를 살펴보면 신경망이 모든 것에 대한 해결책이 아니라는 것을 곧 알게 될 것입니다. 여기에 몇 가지 과거 해결책이 있습니다.

과도한 피팅이 보이지 않을 때까지 정규화를 적용한 다음 끝까지 훈련

어떤 것을 배울 수있는 네트워크의 용량을 완전히 파괴하지 않으면 서 과적 합을 방지하기에 충분한 정규화를 적용 할 수 있다는 보장은 없습니다. 실제로는 열차 시험 격차를 해소하는 것이 거의 불가능하기 때문에 논문이 여전히 열차 및 시험 성능을보고합니다.

그들은 보편적 견적 자입니다

이것은 무한한 수의 단위를 갖는 한계에서만 사실이며, 현실적이지 않습니다.

당신은 나에게 문제에 대한 링크를 줄 수 있고 내가 할 수있는 최고의 신경망을 훈련시킬 것이고 우리는 2 층 또는 3 층 신경 네트워크가 다른 벤치 마크 머신 학습 알고리즘에 미치지 못하는지 알 수 있습니다

신경망이 해결할 수 없을 것으로 예상되는 문제의 예는 결코 해결할 수 없습니다. 정수가 주어지면 소수 또는 소수가 아닌 것으로 분류하십시오.

나는 이것이 유효한 모든 프로그램을 오름차순으로 반복하고 소수를 올바르게 식별하는 가장 짧은 프로그램을 찾는 간단한 알고리즘으로 완벽하게 해결할 수 있다고 생각합니다. 실제로, 이 13 자 정규식 문자열 은 소수와 일치 할 수 있으며 검색하기에는 계산하기가 어렵습니다.


정규화는 정규화에 의해 표현력이 심각하게 저해되는 모델에 비해 과적 합되는 모델에서 모델을 취할 수 있습니까? 그 사이에 항상 그 달콤한 자리가 없을까요?

예, 스위트 스폿이 있지만 일반적으로 과적 합을 중단하기 전에 진행됩니다. 이 그림을보십시오 :

http://gluon.mxnet.io/_images/regularization-overfitting.png

가로 축을 뒤집어 "정규화 양"으로 레이블을 다시 지정하면 매우 정확합니다. 과적 합이 없을 때까지 정규화하면 오류가 엄청납니다. "달콤한 반점"은 약간 과잉이 있지만 너무 많지 않을 때 발생합니다.

'모든 유효한 프로그램을 오름차순으로 반복하고 소수를 정확하게 식별하는 가장 짧은 프로그램을 찾는 간단한 알고리즘은 어떻습니까? 배우는 알고리즘?

θH(θ)θ


그래서 내가 당신을 올바르게 얻는다면 데이터가 중요하지 않다면 딥 네트워크는 두 가지 모두에 대해 최고의 하이퍼 매개 변수가 주어지면 가장 얕은 네트워크의 유효성 검사 정확도에 결코 도달하지 않을 것이라는 주장을하고 있습니까?

예. 여기 내 요점을 설명하기위한 추악하지만 희망적인 효과적인 그림이 있습니다. https://i.imgur.com/nM3aI2l.png

그러나 그것은 말이되지 않습니다. 심층 네트워크는 얕은 곳에서 1-1 매핑을 배울 수 있습니다.

문제는 "할 수있는"것이 아니라 "할 것"이며, 역 전파를 훈련하고 있다면 그 대답은 아닐 것입니다.

우리는 더 큰 네트워크가 더 작은 네트워크보다 항상 더 잘 작동한다는 사실을 논의했습니다

더 이상의 자격이 없으면 그 주장은 잘못입니다.


답변 감사합니다! 정규화는 정규화에 의해 표현력이 심각하게 저해되는 모델에 비해 과적 합 모델에서 모델을 취할 수 있습니까? 그 사이에 항상 그 달콤한 자리가 없을까요?
MiloMinderbinder

장난감 문제와 관련하여. '모든 유효한 프로그램을 오름차순으로 반복하고 소수를 올바르게 식별하는 가장 짧은 프로그램을 찾는 간단한 알고리즘은 어떻습니까? 배우는 알고리즘?
MiloMinderbinder

cs231n 강의 노트- '우리는 더 큰 네트워크가 작은 네트워크보다 항상 더 잘 작동한다는 사실에 대해 논의했지만, 더 높은 모델 용량은 더 강력한 정규화 (예 : 더 높은 무게 감퇴)로 적절히 처리해야합니다. 그렇지 않으면 과도하게 적합 할 수 있습니다. 이후 섹션에서 더 많은 형식의 정규화 (특히 드롭 아웃)를 보게 될 것입니다. ' cs231n.github.io/neural-networks-1
MiloMinderbinder

@ user46478 답변을 수정하여 위의 질문에 답변했습니다.
shimao

'무엇을 배울 수있는 네트워크의 용량을 완전히 파괴하지 않으면 서 과적 합을 막기 위해 충분한 정규화를 적용 할 수 있다는 보장은 없습니다.' -죄송하지만이 내용을 이해하지 못합니다. 나는 훈련 데이터, {train, val} split을 취하고, 내 기계가 허용하는 가장 큰 네트워크를 만들고, 다양한 드롭 아웃 확률에서 발생하는 유효성 검증 오류 중 유효성 검증 오류가 최소화 될 때까지 드롭 아웃 확률을 증가시킵니다. 이 프로세스가 좋은 모델을 거치지 않고 과적 합 모델에서 쓸모없는 결과를 가져올 수 있습니까?
MiloMinderbinder

11

기계 학습 만병 통치약과 같은 것은 없다고 덧붙입니다.

에 의해 없이 무료 점심 정리 :

알고리즘이 특정 클래스의 문제에서 잘 수행되면 나머지 모든 문제 세트에서 성능이 저하 된 알고리즘에 대한 비용을 지불합니다.


이것은 매우 우울합니다 (그러나 걱정하지 마십시오, 결과와 논쟁하지 않을 것입니다). 1. 이것을 읽으면 이것이 그들이 배울 수있는 함수에 대해 동일한 분포를 가진 알고리즘에 관한 것임을 이해합니다 (동일한 공동 도메인을 의미 할 것입니다). 따라서 신경망은 보편적 추정량에 대해서만 구제 할 수 있습니다. 2. 이것은 기능 공간이 얼마나 빨리 검색되는지에 대해서는 다루지 않습니다. 숨겨진 계층이 2 개인 신경망이 모든 문제에 대해 숨겨진 계층이 1 개인 신경망과 반드시 ​​동등하거나 우수하다고 말할 수 있습니까? 나는 연속성의 가정이 여기서 많은 것을해야한다고 생각합니다.
MiloMinderbinder

적절한 하이퍼 파라미터 튜닝으로 2 개의 숨겨진 계층 신경 네트워크는 단일의 숨겨진 계층 신경 네트워크보다 유사한 공동 도메인을 갖는 기능을 뛰어 넘습니다. 당신의 입력?
MiloMinderbinder

1
'숨겨진 계층이 2 개인 신경망은 모든 문제에 대해 숨겨진 계층이 1 개인 신경망과 반드시 ​​동등하거나 우수하다고 말할 수 있습니까?' 불행히도 아닙니다. 반대의 예로서, 로지스틱 회귀 (숨겨진 레이어가없는 nn) 대 완전히 분리 가능한 데이터 세트의 데이터 포인트 수와 같은 숨겨진 단위의 수를 갖는 1 레이어 신경망을 상상해보십시오. lr이 포착 할 수없는 결정 경계에 대한 정보가 없으며 높은 복잡도 nn이 초과 적합 할 수 있습니다
user3684792

3
여기의 진술에 동의하지만, 위키 백과 페이지에서 가져온 표준 경고를 NFL에 추가하고 싶었습니다. "대상 함수가 가능한 모든 함수의 균일 한 분포에서 선택된 경우에만 NFL이 적용됩니다."
mkt-복원 Monica Monica

1
@ user46478 본인의 질문에 대한 응답으로 NFL 정리의 관련성에 동의합니다. "하나의 숨겨진 계층을 가진 신경망이 기계 학습 문제에 만병 통치약이 아닌 이유는 무엇입니까?"
mkt-Reinstate Monica
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.