거대한 데이터 세트에서 학습 할 때 접근하는 방법

10

기본적으로 거대한 데이터 세트에 대해 배우는 두 가지 일반적인 방법이 있습니다 (시간 / 공간 제한이있는 경우).

부정 행위 :)-훈련을 위해 "관리 가능한"하위 집합 만 사용하십시오. 수익 감소 법칙으로 인해 정확도 손실을 무시할 수 있습니다. 모델의 예측 성능은 모든 교육 데이터가 통합되기 훨씬 전에 평평 해집니다.
병렬 컴퓨팅-문제를 더 작은 부분으로 나누고 별도의 기계 / 프로세서에서 각 부분을 해결합니다. 그러나 병렬 버전의 알고리즘이 필요하지만 가장 일반적인 이웃, 의사 결정 트리 등 많은 일반적인 알고리즘이 자연스럽게 병렬이라는 것이 좋은 소식입니다.

다른 방법이 있습니까? 각각을 사용할 때 경험할만한 규칙이 있습니까? 각 접근법의 단점은 무엇입니까?

machine-learning large-data model-evaluation train

— andreister
소스

10

스트림 마이닝은 하나의 답변입니다. 또한 다음과 같이 불립니다.

데이터 스트림 마이닝
온라인 학습
대규모 온라인 학습

모든 데이터 세트를 메모리에 넣고 훈련하는 대신에. 그들은 청크를 메모리에 넣고 이러한 청크 스트림에서 분류 자 / 클러스터를 훈련시킵니다. 다음 링크를 참조하십시오.
Wikipedia의 Data_stream_mining .
MOA : 대규모 온라인 분석
- 조
- weka 알고리즘을 사용할 수있는 Java로 작성된 Tool
- 책
Stanford University에서 제공 하는 대규모 데이터 세트 채광 책 . MapReduce를 도구로 사용합니다.
videolectures.net의 비디오. 해당 사이트에 유사한 비디오가 존재하는지 검색하십시오.
- 데이터 스트림 마이닝의 최신 기술
- 마이닝 대규모 데이터 세트

— 아틸라 오즈 구르
소스

MOA 툴박스는 시작하기에 좋은 장소라고 동의했다

— tdc

7

하나의 하위 집합을 사용하는 대신 미니 배치 학습과 같이 여러 하위 집합을 사용할 수 있습니다 (예 : 확률 적 경사 하강). 이렇게하면 여전히 모든 데이터를 사용하게됩니다.

— 루카스
소스

아하 좋은 지적이다-나는 그 질문을 명확히했다. 시간 / 공간 제한에 직면하고 미니 배치 학습을 "할 여유가없는"시나리오에 관심이 있습니다.

— andreister

1

배깅 또는 블렌딩과 유사합니다. 데이터가 낭비되지 않고 문제가 자동으로 평행하게되어 정확도 / 견고성이 크게 향상 될 수 있습니다.