상점 판매를 예측하고 있으며 교육 데이터에는 두 가지 기능이 있습니다.
- 날짜가있는 상점 판매에 대한 정보 ( "Store"필드는 고유하지 않습니다)
- 상점 유형에 대한 하나 ( "Store"필드는 여기에서 고유합니다)
따라서 행렬은 다음과 같습니다.
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek | Date | Sales | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
| 1 | 5 | 2015-07-31 | 5263.0 | 555.0 | 1 | 1 | 0 |
| 2 | 5 | 2015-07-31 | 6064.0 | 625.0 | 1 | 1 | 0 |
| 3 | 5 | 2015-07-31 | 8314.0 | 821.0 | 1 | 1 | 0 |
| 4 | 5 | 2015-07-31 | 13995.0 | 1498.0 | 1 | 1 | 0 |
| 5 | 5 | 2015-07-31 | 4822.0 | 559.0 | 1 | 1 | 0 |
| 6 | 5 | 2015-07-31 | 5651.0 | 589.0 | 1 | 1 | 0 |
| 7 | 5 | 2015-07-31 | 15344.0 | 1414.0 | 1 | 1 | 0 |
| 8 | 5 | 2015-07-31 | 8492.0 | 833.0 | 1 | 1 | 0 |
| 9 | 5 | 2015-07-31 | 8565.0 | 687.0 | 1 | 1 | 0 |
| 10 | 5 | 2015-07-31 | 7185.0 | 681.0 | 1 | 1 | 0 |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]
과
+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
| 1 | c | a | 1270 |
| 2 | a | a | 570 |
| 3 | a | a | 14130 |
| 4 | c | c | 620 |
| 5 | a | a | 29910 |
| 6 | a | a | 310 |
| 7 | a | c | 24000 |
| 8 | a | a | 7520 |
| 9 | a | c | 2030 |
| 10 | a | a | 3160 |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]
두 번째 매트릭스는 상점 유형, 각 품목이 판매하는 품목 그룹 및 가장 가까운 경쟁 업체 상점과의 거리를 설명합니다.
그러나 테스트 데이터에는 Customers
and Sales
필드가 없는 첫 번째 행렬의 정보 만 있습니다 . 목표는 주어진 판매 분야를 예측하는 것입니다
- 저장
- DayofWeek
- 데이트
- 영업 (점포가 열려 있는지 여부)
- 프로모션 (상점이 프로모션 중인지 여부)
- StateHoliday (공휴일인지 여부)
위의 글 머리 기호 필드를 기반으로 분류자를 쉽게 훈련시킬 수 Sales
있지만 테스트 데이터에서 얻지 못하는 훈련 데이터에서 두 번째 행렬을 어떻게 활용할 수 있습니까?
상점 유형에 대한 두 번째 매트릭스는 정적이며 테스트 데이터에 쉽게 결합 할 수 있다고 가정하는 것이 논리적입니까?
테스트 데이터 기능 세트에 구멍이있는 경우 어떻게됩니까? 테스트 데이터의 일부 행에 대해 "프로모션"값이 없습니다.
Customers
데이터는 경쟁이 매우 다릅니다. ML에 대해 일반적으로 누락 된 값 (예 : 빈 Promo
값) 을 처리하는 방법을 잘 모를 경우이 문제에 대해서만이 질문을 변경하는 것이 좋습니다. 이 사이트에 그것에 대해 몇 가지 대답은 이미있다, 예를 들면 datascience.stackexchange.com/questions/8322/...