나는 최근에 큰 데이터 세트로 작업 해 왔으며 많은 스트리밍 방법 논문을 발견했습니다. 몇 가지 예를 들면 다음과 같습니다.
- 규제 리더 및 미러 하강 : 등가 이론 및 L1 정규화 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- 스트리밍 학습 : 단일 패스 SVM ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos : SVM을위한 Primal Estimated sub-GrAdient SOlver http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- 또는 여기 : SVM은 한 번에 하나의 예제를 학습 할 수 있습니까?
- 랜덤 포레스트 스트리밍 ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
그러나 서로 비교하는 방법에 관한 문서를 찾을 수 없었습니다. 내가 읽은 모든 기사는 다른 데이터 세트에서 실험을하는 것으로 보입니다.
나는 sofia-ml, vowpal wabbit에 대해 알고 있지만 방대한 양의 기존 방법과 비교할 때 매우 적은 방법을 구현하는 것 같습니다!
덜 일반적인 알고리즘은 성능이 충분하지 않습니까? 가능한 많은 방법을 검토하려는 논문이 있습니까?
7
없는 경우 직접 작성해야합니다. :)
—
Chris C
학계의 사람들은 새로운 알고리즘으로 논문을 작성해야하고 알고리즘이 가장 잘 수행되는 데이터 세트를 검색한다는 것을 이해합니다. vowpal-wabbit와 같은 하나의 라이브러리 (예 : 모든 매개 변수 등)가 어떻게 실행되는지 이해하는 것이 좋습니다.
—
seanv507
그것은 실제로 반대입니다! 나는 사람들이 가장 좋은 데이터 세트를 선택했으며 일반적으로 알고리즘과 알고리즘을 교차 검증하는 방법에 대해 상대적으로 침묵합니다. 오히려 jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
—
RUser4512
당신이 연결 한 JMLR 논문과 정말 같습니다. 나 자신도 스트리밍 알고리즘과 비슷한 비교를 알지 못한다. 아마도 스트리밍은 더 틈새 시장이고 정적 데이터 세트에 대한 분류기를 비교하기가 어렵 기 때문에 스트리밍 데이터를 공정하게 비교하는 것이 훨씬 더 복잡합니다.
—
stats0007
이것들은 귀하의 질문에 구체적으로 답변하지는 않지만 평가 기술을 논의하는 Gama 등의 데이터 스트림에서 학습하는 알고리즘 평가 및 통합 된 데이터 스트림 마이닝을위한 오픈 소스 프레임 워크 인 MOA (Massive Online Analysis) 성능 평가 능력.
—
user77876