'맥주와 기저귀'상관 관계 분석을 수행하는 방법


8

다음과 동등한 데이터가 있습니다.

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

이 데이터 세트에 대한 분석을 수행하여 다음과 유사한 상관 관계 매트릭스를 얻을 수 있습니다. x를 구입하면 y를 구입할 가능성이 높습니다.

파이썬 (또는 아마도 MATLAB 이외의 것을 사용)을 사용하면 어떻게 할 수 있습니까? 몇 가지 기본 지침 또는 도움이 필요한 위치에 대한 포인터.

감사합니다,

편집-내가 배운 것 :

  1. 이러한 종류의 문제를 연관 규칙 발견이라고합니다. Wikipedia에는 일반적인 알고리즘 중 일부를 다루는 좋은 기사 가 있습니다. 그렇게하는 고전적인 알고리즘은 Agrawal et al. 알.

  2. 저를 이끌어 즉, 오렌지 , 파이썬 패키지를 마이닝 데이터 인터페이스. Linux의 경우 가장 좋은 설치 방법은 제공된 setup.py를 사용하여 소스에서 온 것 같습니다.

  3. 기본적으로 주황색은 여러 가지 지원되는 방법 중 하나로 형식화 된 파일에서 입력을 읽습니다.

  4. 마지막으로 간단한 Apriori 연관 규칙 학습은 주황색 으로 간단 합니다.


3
R 패키지를 찾고 있다면 arules살펴볼 가치가 있습니다. 아마 "association rules"는 훌륭한 검색어입니다.
Karsten W.

2
이 문제에 대한 "표준"접근 방식 은 Apriori 알고리즘 을 참조하십시오 .
추기경

답변:


7

주석에 제공된 링크 외에도 다음과 같은 추가 포인터가 있습니다.

파이썬에 관해서는, 당신이 찾고있는 것에 대한 아이디어가 있다고 생각하지만, 오렌지 데이터 마이닝 패키지는 연관 규칙 과 아이템 세트 에 패키지를 갖추고 있습니다 (후자는 웹 사이트에서 참조를 찾을 수는 없지만).

편집하다:

나는 최근에 pysuggest 를 발견했다.

다양한 추천 알고리즘을 구현하는 Top-N 추천 엔진. 개인화 된 정보 필터링 기술인 Top-N 추천 시스템은 특정 사용자가 관심을 가질 N 항목 세트를 식별하는 데 사용됩니다. 최근에 Top-N 추천 시스템은 고객이 가장 많이 구매할 제품을 추천하기 위해 여러 가지 다른 응용 분야에서 사용되었습니다. 사용자가 즐길 수있는 영화, TV 프로그램 또는 음악을 추천합니다. 관심있는 웹 페이지를 식별합니다. 또는 정보를 검색하는 다른 방법을 제안 할 수도 있습니다.


간단한 상관 관계 매트릭스가 불충분하기 전에 얼마나 많은 제품이 관련되어야하는지 궁금합니다.
rolando2
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.