기본적으로 거대한 데이터 세트에 대해 배우는 두 가지 일반적인 방법이 있습니다 (시간 / 공간 제한이있는 경우).
- 부정 행위 :)-훈련을 위해 "관리 가능한"하위 집합 만 사용하십시오. 수익 감소 법칙으로 인해 정확도 손실을 무시할 수 있습니다. 모델의 예측 성능은 모든 교육 데이터가 통합되기 훨씬 전에 평평 해집니다.
- 병렬 컴퓨팅-문제를 더 작은 부분으로 나누고 별도의 기계 / 프로세서에서 각 부분을 해결합니다. 그러나 병렬 버전의 알고리즘이 필요하지만 가장 일반적인 이웃, 의사 결정 트리 등 많은 일반적인 알고리즘이 자연스럽게 병렬이라는 것이 좋은 소식입니다.
다른 방법이 있습니까? 각각을 사용할 때 경험할만한 규칙이 있습니까? 각 접근법의 단점은 무엇입니까?