거대한 데이터 세트에서 학습 할 때 접근하는 방법


10

기본적으로 거대한 데이터 세트에 대해 배우는 두 가지 일반적인 방법이 있습니다 (시간 / 공간 제한이있는 경우).

  1. 부정 행위 :)-훈련을 ​​위해 "관리 가능한"하위 집합 만 사용하십시오. 수익 감소 법칙으로 인해 정확도 손실을 무시할 수 있습니다. 모델의 예측 성능은 모든 교육 데이터가 통합되기 훨씬 전에 평평 해집니다.
  2. 병렬 컴퓨팅-문제를 더 작은 부분으로 나누고 별도의 기계 / 프로세서에서 각 부분을 해결합니다. 그러나 병렬 버전의 알고리즘이 필요하지만 가장 일반적인 이웃, 의사 결정 트리 등 많은 일반적인 알고리즘이 자연스럽게 병렬이라는 것이 좋은 소식입니다.

다른 방법이 있습니까? 각각을 사용할 때 경험할만한 규칙이 있습니까? 각 접근법의 단점은 무엇입니까?

답변:


10

스트림 마이닝은 하나의 답변입니다. 또한 다음과 같이 불립니다.


MOA 툴박스는 시작하기에 좋은 장소라고 동의했다
tdc

7

하나의 하위 집합을 사용하는 대신 미니 배치 학습과 같이 여러 하위 집합을 사용할 수 있습니다 (예 : 확률 적 경사 하강). 이렇게하면 여전히 모든 데이터를 사용하게됩니다.


아하 좋은 지적이다-나는 그 질문을 명확히했다. 시간 / 공간 제한에 직면하고 미니 배치 학습을 "할 여유가없는"시나리오에 관심이 있습니다.
andreister

1

배깅 또는 블렌딩과 유사합니다. 데이터가 낭비되지 않고 문제가 자동으로 평행하게되어 정확도 / 견고성이 크게 향상 될 수 있습니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.