상관 된 입력 데이터가 신경망에 과적 합을 유발합니까?


13

제 생각에는 상관 된 입력 데이터는 신경망에서 과적 합을 가져와야합니다. 왜냐하면 네트워크는 데이터의 노이즈와 같은 상관 관계를 배우기 때문입니다.

이 올바른지?

답변:


11

사실은 아니야

그와 같은 질문은 약간 일반적이며 실제로 관련이없는 두 가지를 혼합합니다. 과적 합은 일반적으로 일반화 된 설명에 반대되는 품질을 의미합니다. 과적 합 (또는 과잉 훈련 된) 네트워크는 일반화 능력이 떨어질 것이라는 점에서. 이 품질은 주로 네트워크 아키텍처, 교육 및 검증 절차에 의해 결정됩니다. 데이터와 그 속성은 "훈련 절차가 수행되는 것"으로 만 입력됩니다. 이것은 다소 "교과서 지식"입니다. James, Witten, Hastie 및 Tibshirani의 "Statistical Learning 소개"를 사용해 볼 수 있습니다. 또는 주교의 "패턴 인식"(일반 주제에서 내가 가장 좋아하는 책). 또는 Bishop의 "패턴 인식 및 기계 학습".

상관 관계 자체 : 특정 차원을 가진 입력 공간을 고려하십시오. 어떤 변환을 사용하든 치수는 동일하게 유지됩니다. 선형 대수는 말합니다. 어떤 경우에는 주어진 밑이 완전히 상관되지 않습니다. 이것은 변수를 상관 해제하거나 단순히 PAT (Principle Axis Transformation)를 적용 할 때 얻을 수있는 것입니다. 이에 대한 선형 대수 서적을 가져옵니다.

적절한 아키텍처를 갖춘 신경망은 어떤 (!) 기능도 모델링 할 수 있기 때문에 먼저 PAT를 모델링 한 다음 분류, 회귀 등과 같이 수행해야하는 모든 작업을 수행 할 수 있다고 안전하게 추측 할 수 있습니다.

상관 관계는 데이터의 속성이므로 신경망 설명의 일부인 상관 관계를 고려할 수도 있습니다. 상관 관계의 특성은 데이터의 일부가되어서는 안되는 것이 아니라면 실제로 중요하지 않습니다. 이것은 실제로 다른 주제 일 것입니다. 입력에서 잡음과 같은 것을 모델링하거나 수량화해야합니다.

요약하자면 상호 연관된 데이터는 데이터를 기술적으로 간단하고 효과적으로 처리하기 위해 더 열심히 노력해야 함을 의미합니다. 과적 합은 발생할 수 있지만 상관 된 데이터가 있기 때문에 발생하지 않습니다.


미안하지만 여전히 이유를 얻지 못했습니다. 또한 내 의심은 약간 일반적입니다. "상관 된 입력 데이터가 신경망에 유해 할 수 있습니까?"에 대한 답변을 찾고있었습니다. 여기에서는 "먼저 PAT를 모델링 할 수 있다고 가정 할 수 있습니다"라고 주장합니다. 그러나 당신은 어떻게 그런 가정을하고 있습니까? 그리고 내 후속 질문은 신경 구조가 PAT를 모델링하지 못하면 어떻게 될까요?
bytestorm

@bytestorm : 첫 번째 질문은 원래 질문과 다릅니다. 상관 된 입력은 ANN의 성능을 제한 할 수 있습니다 (다른 방법의 경우). 그러나 ANN의 고유 속성이 아닙니다. 두 번째 질문은 ANN이 왜 PAT를 모델링 할 수 있는지에 대한 단순한 설명이 아니라 단지 예시적인 설명 일뿐입니다. 실제로 나는 그렇게하지 않을 것입니다.
cherub

6

그룹은 그의 진술이 과적 합에 관한 것과 관련하여 정확합니다. 그러나 상관 관계가 높은 기능과 ANN에 대한 논의는 문제를 지나치게 단순화한다고 생각합니다.

그렇습니다. 이론적으로 ANN은 모든 기능에 근접 할 수 있습니다. 그러나 실제로는 상관 관계가 높은 여러 기능을 포함하는 것은 좋지 않습니다. 그렇게하면 모델 내에 많은 중복이 도입됩니다. 이러한 중복을 포함하면 불필요한 복잡성이 발생하며, 그렇게하면 지역 최소의 수가 증가 할 수 있습니다. ANN의 손실 기능이 본질적으로 부드럽 지 않다는 것을 고려할 때 불필요한 거칠기를 도입하는 것은 좋은 생각이 아닙니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.