나는 matemathics stackexchange site 에서이 질문 을했고 여기에서 물어볼 것을 권장했다.
취미 프로젝트를 진행 중이며 다음 문제에 대한 도움이 필요합니다.
약간의 맥락
기능과 가격에 대한 설명이있는 항목 모음이 있다고 가정 해 봅시다. 자동차와 가격 목록을 상상해보십시오. 모든 자동차에는 엔진 크기, 색상, 마력, 모델, 연도 등 기능 목록이 있습니다. 각 제조업체마다 다음과 같은 기능이 있습니다.
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
더 나아가서 가격이 표시된 자동차 목록은 시간 간격으로 게시되므로 과거 가격 데이터에 액세스 할 수 있습니다. 항상 정확히 같은 자동차를 포함 할 수는 없습니다.
문제
이 기본 정보를 기반으로 자동차의 가격을 모델링하는 방법을 이해하고 싶습니다. 가장 중요한 것은 초기 목록에없는 자동차입니다.
Ford, v6, red, automatic, 130hp, 2009
위의 자동차의 경우 목록의 자동차와 거의 동일하며 마력과 연도가 약간 다릅니다. 가격을 책정하려면 무엇이 필요합니까?
내가 찾고있는 것은 실용적이고 간단한 것이지만, 이와 같은 것을 모델링하는 방법에 대한 더 복잡한 접근법에 대해서도 듣고 싶습니다.
내가 시도한 것
지금까지 실험해온 내용은 다음과 같습니다.
1) 자동차 X 조회에 이력 데이터 사용. 찾을 수없는 경우 가격이 없습니다. 이것은 물론 매우 제한적이며 시간이 지남에 따라 알려진 자동차의 가격을 변경하기 위해 약간의 시간 감퇴와 함께 이것을 사용할 수 있습니다.
2) 가격이 책정 된 샘플 자동차와 함께 자동차 기능 가중치 체계를 사용합니다. 기본적으로 기본 가격이 있으며 기능은 일부 요인으로 변경합니다. 이를 기반으로 모든 자동차 가격이 도출됩니다.
첫 번째는 충분하지 않으며 두 번째는 항상 정확하지는 않았으며 가중치를 사용하는 가장 좋은 방법은 없었습니다. 이것은 또한 가중치를 유지하는 데 약간 무거운 것으로 보이므로 역사적인 데이터를 통계로 사용하여 가중치를 얻거나 다른 것을 얻을 수있는 방법이 있다고 생각합니다. 어디서부터 시작해야할지 모르겠습니다.
다른 중요한 측면들
- 내가 가지고있는 소프트웨어 프로젝트에 통합하십시오. 기존 라이브러리를 사용하거나 알고리즘을 직접 작성하십시오.
- 새로운 과거 데이터가 들어올 때 빠른 재 계산.
이와 같은 문제에 어떻게 접근 할 수 있습니까? 모든 아이디어는 환영 이상입니다.
미리 감사 드리며 귀하의 제안을 기다리겠습니다!