데이터를 테스트 할 때 교육 데이터보다 기능이 적을 경우 어떻게해야합니까?


10

상점 판매를 예측하고 있으며 교육 데이터에는 두 가지 기능이 있습니다.

  • 날짜가있는 상점 판매에 대한 정보 ( "Store"필드는 고유하지 않습니다)
  • 상점 유형에 대한 하나 ( "Store"필드는 여기에서 고유합니다)

따라서 행렬은 다음과 같습니다.

+-------+-----------+------------+---------+-----------+------+-------+--------------+
| Store | DayOfWeek |    Date    |  Sales  | Customers | Open | Promo | StateHoliday |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
|   1   |     5     | 2015-07-31 |  5263.0 |   555.0   |  1   |   1   |      0       |
|   2   |     5     | 2015-07-31 |  6064.0 |   625.0   |  1   |   1   |      0       |
|   3   |     5     | 2015-07-31 |  8314.0 |   821.0   |  1   |   1   |      0       |
|   4   |     5     | 2015-07-31 | 13995.0 |   1498.0  |  1   |   1   |      0       |
|   5   |     5     | 2015-07-31 |  4822.0 |   559.0   |  1   |   1   |      0       |
|   6   |     5     | 2015-07-31 |  5651.0 |   589.0   |  1   |   1   |      0       |
|   7   |     5     | 2015-07-31 | 15344.0 |   1414.0  |  1   |   1   |      0       |
|   8   |     5     | 2015-07-31 |  8492.0 |   833.0   |  1   |   1   |      0       |
|   9   |     5     | 2015-07-31 |  8565.0 |   687.0   |  1   |   1   |      0       |
|   10  |     5     | 2015-07-31 |  7185.0 |   681.0   |  1   |   1   |      0       |
+-------+-----------+------------+---------+-----------+------+-------+--------------+
[986159 rows x 4 columns]

+-------+-----------+------------+---------------------+
| Store | StoreType | Assortment | CompetitionDistance |
+-------+-----------+------------+---------------------+
|   1   |     c     |     a      |         1270        |
|   2   |     a     |     a      |         570         |
|   3   |     a     |     a      |        14130        |
|   4   |     c     |     c      |         620         |
|   5   |     a     |     a      |        29910        |
|   6   |     a     |     a      |         310         |
|   7   |     a     |     c      |        24000        |
|   8   |     a     |     a      |         7520        |
|   9   |     a     |     c      |         2030        |
|   10  |     a     |     a      |         3160        |
+-------+-----------+------------+---------------------+
[1115 rows x 4 columns]

두 번째 매트릭스는 상점 유형, 각 품목이 판매하는 품목 그룹 및 가장 가까운 경쟁 업체 상점과의 거리를 설명합니다.

그러나 테스트 데이터에는 Customersand Sales필드가 없는 첫 번째 행렬의 정보 만 있습니다 . 목표는 주어진 판매 분야를 예측하는 것입니다

  • 저장
  • DayofWeek
  • 데이트
  • 영업 (점포가 열려 있는지 여부)
  • 프로모션 (상점이 프로모션 중인지 여부)
  • StateHoliday (공휴일인지 여부)

위의 글 머리 기호 필드를 기반으로 분류자를 쉽게 훈련시킬 수 Sales있지만 테스트 데이터에서 얻지 못하는 훈련 데이터에서 두 번째 행렬을 어떻게 활용할 수 있습니까?

상점 유형에 대한 두 번째 매트릭스는 정적이며 테스트 데이터에 쉽게 결합 할 수 있다고 가정하는 것이 논리적입니까?

테스트 데이터 기능 세트에 구멍이있는 경우 어떻게됩니까? 테스트 데이터의 일부 행에 대해 "프로모션"값이 없습니다.


Kaggle 포럼 에서이 질문을 할 수 있으며 이미 답변되어 있습니다 : kaggle.com/c/rossmann-store-sales/forums/t/17137/…kaggle.com/c/rossmann-store-sales/forums / t / 16730 /…
닐 슬레이터

오, 내 kaggle noobiness를 용서하십시오. 내 손을 잡고있는 사람없이 처음으로 킥킥 =)
alvas

1
문제 없어요. Customers데이터는 경쟁이 매우 다릅니다. ML에 대해 일반적으로 누락 된 값 (예 : 빈 Promo값) 을 처리하는 방법을 잘 모를 경우이 문제에 대해서만이 질문을 변경하는 것이 좋습니다. 이 사이트에 그것에 대해 몇 가지 대답은 이미있다, 예를 들면 datascience.stackexchange.com/questions/8322/...
닐 슬레이터

답변:



2

문제를 나타내는 방식에 문제가있을 수 있습니다. 테스트 데이터에는 두 개의 필드가 없지만 정확하지는 않습니다.

모든 데이터를 가져 와서 훈련 세트와 테스트 세트의 두 그룹으로 나누어야합니다. 80 % -20 % 또는 70 % -30 %의 비율로. 그런 다음 학습 세트의 데이터로 알고리즘을 학습하고 테스트 세트의 데이터로 모델의 정확성을 테스트합니다.

정확도는 모형이 정확할 확률입니다. 또는 다른 방법으로, 다음에 모델을 사용하여 판매를 예측할 때 정확도는 예측이 실제 일 확률입니다


OP가 "테스트 데이터"라는 용어를 사용하여
혼란스러워
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.