파이썬에서 좋은 "빈번한 시퀀스 마이닝"패키지?


14

MLLib의 FPM 이외의 파이썬에서 "빈번한 시퀀스 마이닝"패키지를 사용하고 좋아하는 사람이 있습니까? 사람들이 선호하는 안정된 패키지를 찾고 있습니다. 감사합니다!

답변:


6

내가 찾은 유일한 것은 https://github.com/bartdag/pymining입니다.

그것들은 BIDE거기에 구현 되어 있지만 코드는 유지되지 않습니다.

추신 : 나는 당신의 질문에 참여하고 있습니다 :-|


명확히하기 위해 자주 닫힌 시퀀스를 채굴하는 BIDE를 구현하지 않았습니다. 실제로 모든 빈번한 시퀀스를 채굴하는 PrefixSpan을 구현했습니다. PrefixSpan과 BIDE는 동일한 패턴 열거 프레임 워크를 공유하므로 저자가 BIDE 논문을 인용 한 이유입니다.
Chuancong Gao

: 나는 결국 무슨 짓을 사용한다 philippe-fournier-viger.com/spmf 내 요구에 맞게 그것은 자바 lib 디렉토리입니다하지만 난 파이썬으로 포장 한 -
yossico

6

Python 3에서 PrefixSpan과 BIDE의 효율적인 구현을 적극적으로 유지하면서 빈번하고 최상위 k (닫힌) 순차 패턴 마이닝을 지원합니다.

https://github.com/chuanconggao/PrefixSpan-py


자바 스크립트로 구현하고 싶지만 이러한 알고리즘의 작동 방식을 완전히 이해하지 못합니다. 평범한 영어로 설명 할 수 있습니까?
inf3rno

PrefixSpan의 원래 최소 구현을 확인하는 것이 좋습니다. 핵심 부분은 15 줄 밖에 걸리지 않습니다. gist.github.com/chuanconggao/4df9c1b06fa7f3ed854d5d96e2ae499f
Chuancong Gao

감사! 나는 그것을 js로 번역하려고 시도하지만 쉽지 않을 것입니다. :-) Afaik PrefixSpan은 접두사가 일치하는 위치를 기반으로 계획된 데이터베이스를 구축하고 있습니다. 나는 현재 BIDE에 대해 읽고 있습니다.이 이론은 더 나은 알고리즘입니다.
inf3rno

js와 python 컬렉션간에 차이가 너무 많습니다. js에서 코드를 재현하지 못했습니다. 나중에 다시 시도하겠습니다.
inf3rno

그것이 도움이되는지 확실하지 않지만 PrefixSpan의 다른 스칼라 버전이 있습니다. github.com/chuanconggao/PrefixSpan-scala 그러나 구현하기 전에 알고리즘을 완전히 이해하는 것이 좋습니다.
Chuancong Gao

1

나는 과거에 fim 의 fpgrowth 함수를 사용 했으며 잘 작동했습니다. 그러나 Windows 컴퓨터에는 설치하기가 쉽지 않습니다. 학술 웹 사이트 인 것처럼 보이므로 시간이 지남에 따라 코드를 많이 업데이트하는지 확실하지 않습니다 ...


1

직접 작성해 보셨습니까? 현재 유지 관리되는 최신 라이브러리가 없기 때문입니다.

기본 PrefixSpan 및 Closed / Maximal 패턴은 실제로 구현하기가 어렵지 않습니다.

http://sequenceanalysis.github.io/



당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.