파이썬으로 분석하는 초보자이므로 조심하십시오.
소매점에 대한 거래 데이터의 데이터 집합이 있습니다. 설명과 함께 변수는 다음과 같습니다.
- 섹션 : 상점의 섹션, str;
- prod_name : 제품 이름, str;
- 영수증 : 송장 번호, int;
- 출납원, 출납원 수, 정수;
- 비용 : 품목의 비용, 플로트;
- 날짜는 MM / DD / YY 형식으로 str입니다.
- HH : MM : SS 형식의 시간, str;
영수증은 단일 거래에서 구매 한 모든 제품에 대해 동일한 값을 가지므로 단일 거래에서 이루어진 평균 구매 수를 결정하는 데 사용될 수 있습니다.
이 문제를 해결하는 가장 좋은 방법은 무엇입니까? 필자 groupby()
는 히스토그램을 만들 수 있도록 영수증 변수를 동일한 발생으로 그룹화하는 데 기본적으로 사용하고 싶습니다 .
팬더 DataFrame의 데이터 작업.
편집하다:
다음은 헤더가있는 샘플 데이터입니다 (prod_name은 실제로 16 진수입니다).
section,prod_name,receipt,cashier,cost,date,time
electronics,b46f23e7,102856,5,70.50,05/20/15,9:08:20
womenswear,74558d0d,102857,8,20.00,05/20/15,9:12:46
womenswear,031f36b7,102857,8,30.00,05/20/15,9:12:47
menswear,1d52cd9d,102858,3,65.00,05/20/15,9:08:20
이 샘플 세트에서 나는 두 번의 영수증 102857 (사람이 한 번의 트랜잭션으로 두 개의 품목을 구매했기 때문에)과 영수증 102856과 영수증 102858의 각각 한 번의 발생을 보여주는 영수증의 히스토그램을 예상 할 것입니다. 백만 줄.