가격을 모델링하는 방법?


15

나는 matemathics stackexchange site 에서이 질문 을했고 여기에서 물어볼 것을 권장했다.

취미 프로젝트를 진행 중이며 다음 문제에 대한 도움이 필요합니다.

약간의 맥락

기능과 가격에 대한 설명이있는 항목 모음이 있다고 가정 해 봅시다. 자동차와 가격 목록을 상상해보십시오. 모든 자동차에는 엔진 크기, 색상, 마력, 모델, 연도 등 기능 목록이 있습니다. 각 제조업체마다 다음과 같은 기능이 있습니다.

Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...

더 나아가서 가격이 표시된 자동차 목록은 시간 간격으로 게시되므로 과거 가격 데이터에 액세스 할 수 있습니다. 항상 정확히 같은 자동차를 포함 할 수는 없습니다.

문제

이 기본 정보를 기반으로 자동차의 가격을 모델링하는 방법을 이해하고 싶습니다. 가장 중요한 것은 초기 목록에없는 자동차입니다.

Ford, v6, red, automatic, 130hp, 2009

위의 자동차의 경우 목록의 자동차와 거의 동일하며 마력과 연도가 약간 다릅니다. 가격을 책정하려면 무엇이 필요합니까?

내가 찾고있는 것은 실용적이고 간단한 것이지만, 이와 같은 것을 모델링하는 방법에 대한 더 복잡한 접근법에 대해서도 듣고 싶습니다.

내가 시도한 것

지금까지 실험해온 내용은 ​​다음과 같습니다.

1) 자동차 X 조회에 이력 데이터 사용. 찾을 수없는 경우 가격이 없습니다. 이것은 물론 매우 제한적이며 시간이 지남에 따라 알려진 자동차의 가격을 변경하기 위해 약간의 시간 감퇴와 함께 이것을 사용할 수 있습니다.

2) 가격이 책정 된 샘플 자동차와 함께 자동차 기능 가중치 체계를 사용합니다. 기본적으로 기본 가격이 있으며 기능은 일부 요인으로 변경합니다. 이를 기반으로 모든 자동차 가격이 도출됩니다.

첫 번째는 충분하지 않으며 두 번째는 항상 정확하지는 않았으며 가중치를 사용하는 가장 좋은 방법은 없었습니다. 이것은 또한 가중치를 유지하는 데 약간 무거운 것으로 보이므로 역사적인 데이터를 통계로 사용하여 가중치를 얻거나 다른 것을 얻을 수있는 방법이 있다고 생각합니다. 어디서부터 시작해야할지 모르겠습니다.

다른 중요한 측면들

  • 내가 가지고있는 소프트웨어 프로젝트에 통합하십시오. 기존 라이브러리를 사용하거나 알고리즘을 직접 작성하십시오.
  • 새로운 과거 데이터가 들어올 때 빠른 재 계산.

이와 같은 문제에 어떻게 접근 할 수 있습니까? 모든 아이디어는 환영 이상입니다.

미리 감사 드리며 귀하의 제안을 기다리겠습니다!

답변:


11

"실용적"과 "간단한"은 최소 제곱 회귀를 제안 합니다. 많은 소프트웨어 (R, Excel, Mathematica, 모든 통계 패키지)를 사용하여 설정하기 쉽고, 쉽게 해석 할 수 있으며, 얼마나 정확한지, 얼마나 힘든지에 따라 여러 가지 방법으로 확장 할 수 있습니다. 일을 할 의지.

이 접근 방식은 본질적으로 "가중 구성표"(2)이지만 가중치를 쉽게 찾고 가능한 한 많은 정확도를 보장하며 쉽고 빠르게 업데이트 할 수 있습니다. 있습니다 부하 최소 제곱 계산을 수행하는 라이브러리는.

목록에 나열된 변수 (엔진 유형, 동력 등)뿐만 아니라 자동차 수명 도 포함시키는 데 도움이됩니다 . 또한 인플레이션에 대한 가격을 조정하십시오.


팔렸다! 내가 찾던 것과 정확히 똑같습니다! 내가 이것에 익숙하지 않기 때문에 제안을 비교하는 데 어려움이 있으므로 최소 회귀 분석이 다중 회귀 및 "고조파 가격"과 비교할 때 궁금합니다. 이것들은 내가 처음 게시 한 수학 사이트에서 얻은 제안입니다. 예를 들어 최소 제곱 회귀를 사용할 때 무엇을 수정합니까? 기본적 으로이 접근법을 사용할 때 알아야 할 것이 있습니까?
murrekatt

이 제안에 감사드립니다. 아주 좋은 것 같습니다. 어떻게 사용하는지 알 수있는 방법을 이해하려면 더 읽어야합니다.
murrekatt

3
@mpiktas 및 @dimitrij celov가 게시 한주의 사항을 인정하고 동의합니다. 가격 분석은 가격 이 포함 된 경제 시스템처럼 복잡 할 수 있으며, 대부분의 경우 복잡 해야 합니다. 그러나 의도 된 응용 프로그램 (취미)과 OP의 통계 모델링 기능에 대한 명백한 신호 제한으로 인해 단순성, 사용 편의성 및 해석 가능성에 큰 가치를 두어야합니다. 분명히 최소 제곱에 익숙하지 않은 사람은 바로 뛰어 들어 본격적인 계량 모델을 만들지 않을 것입니다.
whuber

5

@whuber에 동의합니다. 선형 회귀 분석은 갈 길이지만 결과를 해석 할 때는주의를 기울여야합니다. 문제는 경제학에서 가격은 항상 수요와 관련이 있다는 것입니다. 수요가 증가하면 가격이 상승하고 수요가 감소하면 가격이 하락합니다. 따라서 가격은 수요에 의해 결정되고 대가는 가격에 의해 결정됩니다. 따라서 수요가없는 일부 속성에서 회귀로 가격을 모형화하면 변수 편차생략 되어 회귀 추정값이 잘못 될 위험이 있습니다 .


@mpiktas : 감사합니다. 네가 무슨 말을 하려는지 알 겠어. 이것은 내가 생각한 것이었지만 질문을하거나 추가하는 방법을 정확히 알지 못했습니다. 설명하는 내용을 어떻게 처리합니까? 이것은 별개의 문제이며 결과를 해석 할 때 고려해야 할 문제입니까, 아니면 다른 제곱 법에 통합되어 있고 최소 제곱 회귀의 일부가 아닌 문제입니까? 자신을 공식화하는 방법을 모르지만, 이것이 의미하는 것은 이것을 고려하는 접근법과 그렇지 않은 다른 접근법이 있다는 것입니다. "하지 말 것"에 대해 결과를 해석해야한다는 것을 의미하는 것은 무엇입니까?
murrekatt

3
@murekatt, 추가 주문형 데이터가 없지만 가격에 대한 모델이 필요한 경우 추가주의를 기울여 처리합니다. 이는 계수의 통계적 유의성에 대한 관심이 적지 만 성능 예측에 대한주의가 더 큽니다. 본질적으로 이것은 회귀를 블랙 박스로 취급하고 모델 예측 성능을 모델 유효성의 척도로 사용하는 것을 의미합니다. 등 교차 검증, 기차 및 테스트 샘플 데이터 분할 사용이 수단
mpiktas을

@mpiktas : "추가 데이터"란 무엇입니까? 자동차 상황에서 이에 대한 예를 들어 주시겠습니까?
murrekatt

1
@murrekatt, 업데이트 된 Dmitrij의 답변 끝을보십시오. 수요 데이터는 중요하므로 주어진 가격으로 얼마나 많은 자동차를 팔았는지에 따라 큰 도움이 될 것입니다. 또한 속성이 고정 된 차량의 가격이 어떻게 변하는 지에 대한 데이터가 있다면 모델에도 반영되어야합니다.
mpiktas

1
@murekatt, 원칙적으로 그렇습니다. 작게 시작해서 나중에 추가 기능을 추가해야한다고 생각합니다. 초기 결과는 더 나아가 야 할 방향을 알려줍니다.
mpiktas

4

내가 찾고있는 것은 실용적이고 간단한 것이지만, 이와 같은 것을 모델링하는 방법에 대한 더 복잡한 접근법에 대해서도 듣고 싶습니다.

일종의 토론 후, 여기에 대한 나의 완전한 견해가 있습니다.

문제

목표 : 더 나은 방법으로 자동차 가격을 책정하는 방법 이해

상황 : 의사 결정 과정에서 사람들은 몇 가지 질문을 해결합니다. 자동차가 필요하다면 내가 가장 선호하는 속성 (가격 포함, 합리적인 가격, 최고의 품질 / 가격 비율의 자동차를 원하기 때문에 가격 포함)이 필요한가요? 서로 다른 자동차 사이의 속성 수를 비교하고 함께 평가하는 것을 선택하십시오 .

판매자 입장에서 가능한 한 높은 가격을 설정하고 가능한 한 빨리 자동차를 판매하고 싶습니다. 따라서 가격을 너무 높게 설정하고 몇 개월을 기다리는 경우 시장에서 요구되지 않은 것으로 간주 될 수 있으며 매우 요구되는 속성 세트와 비교하여 0으로 표시됩니다.

관찰 : 특정 자동차의 속성을 협상 과정 내에서 설정된 가격과 관련시키는 실제 거래 (이전의 언급과 관련하여 거래를 설정하는 데 걸리는 시간을 아는 것이 중요 함).

장점 : 실제로 시장에서 구입 한 것을 관찰하므로 예약 가격이 높은 사람이 특정 자동차를 사고 싶어하는지 추측하지 않습니다.

단점 :

  1. 당신의 가정은 시장이 효율적이며, 관찰 한 가격이 균형에 가깝다는 것을 의미합니다
  2. 구매하지 않았거나 거래를 설정하는 데 너무 오래 걸린 자동차 속성의 변형을 무시하므로 통찰력 이 편향됩니다. 하므로 실제로 잠재 변수 모델로 작업합니다.
  3. 데이터를 오랫동안 관찰하면 수축을 줄여야하지만, 자동차 연령을 포함하면이를 보완 할 수 있습니다.

솔루션 방법

whuber가 제안한 첫 번째 것은 고전 최소 제곱 회귀 모델입니다.

장점 :

  1. 실제로 계량 경제학의 주역 인 가장 간단한 솔루션

단점 :

  1. 불완전하게 사물을 관찰한다는 것을 무시합니다 ( 잠재적 변수 )
  2. 기본 모델은 당신이 좋아하는 수 있다는 사실은 무시하도록 회귀 변수는 다른 독립적 인 하나의 역할을 파란색 포드를 다르게 파란색 벤츠를 하지만 파란색과 포드에서 오는 한계 영향의 합이 아니다

고전적 회귀의 경우 자유도에 제한이 없으므로 다른 교호 작용 항도 시도해보십시오.

따라서 더 복잡한 솔루션은 tobit 또는 Heckman 모델입니다 . AC Cameron 및 PK Trivedi Microeconometrics : 방법 및 응용 프로그램 을 참조하십시오 . 입니다. 핵심 방법에 대한 자세한 내용은 을 참조하십시오.

장점 :

  1. 사람들이 일부 속성 세트를 전혀 좋아하지 않거나 일부 속성 세트가 실제 가격 설정 에서 구입할 가능성이 적다는 사실을 분리 합니다
  2. 결과가 치우 치지 않습니다 (또는 적어도 첫 번째 경우보다 작음)
  3. Heckman의 경우 특정 차량을 구매하려는 동기를이 차량에 대해 얼마를 지불하고 싶은지 결정하는 가격 결정과 분리합니다.

단점 :

  1. 두 모델 모두 데이터 가 더 탐욕적입니다 . 즉, 요청과 입찰 사이의 시간 길이를 균등화하기 위해 (1이 아닌 경우 0), 시장이 무시한 세트를 관찰해야합니다.

마지막으로 가격이 구매 확률에 어떻게 영향을 미치는지에 관심이 있다면 어떤 종류의 로짓 모델을 사용할 수 있습니다.

문맥과 관측 값이 다르기 때문에 합동 분석 이 적합하지 않다는 데 동의했습니다 .

행운을 빕니다.


종속 변수가 범주 형인 다항 로짓 모형을 범주 형이 아닌 가격에 어떻게 적용 하시겠습니까?
whuber

@Dmitrij Celov : 제안 해 주셔서 감사합니다. 나는 당신의 질문에 대답하려고 노력할 것입니다. 1) 사용할 수있는 가격이 없습니다. 비슷한 자동차를보고 대답하고 싶은 미지입니다. 2) 어떤 변수가 가장 무게가 큰지 모르겠습니다. 3) 기능 및 가격이 포함 된 자동차 목록을 기반으로 기능이있는 모든 자동차의 가격을 책정 할 수 있습니다.
murrekatt

케이제이1제이10(와이나는=1|와이제이=0)=11+이자형β'(엑스나는엑스제이)와이나는와이제이

@murrekatt : 1) 그래서 당신은 가장 "가치있는"속성을 찾고 있습니까? 2) 로짓 추정 모수는 확률과 확률 비율처럼 잘 해석되지만 다항로 짓은 관련이없는 대안 과의 독립성으로 알려진 약한 기능을 가지고 있습니다. 3) 나열된 가격이 적절하다는 것을 확신 할 수 있습니까? @ whuber : 의존성이 가격이라면 간단한 회귀가 여기서 잘 작동하지만 다시 가격은 얼마입니까? 어디서 출판? 아니면 실제 거래입니까?
Dmitrij Celov 2019 년

2
@Dimitrij Price는 독립 변수가 아닙니다. 종속 변수입니다. "이 기본 정보를 기반으로 자동차 가격을 모델링하는 방법을 이해하고 싶습니다." 이 오해로 인해 당신은 @murrekatt를 멀리까지 데려 갈 수 있습니다.
whuber

4

그것은 선형 회귀 문제처럼 보이지만 K 가장 가까운 이웃 KNN 은 어떻 습니까 ? 각 차량 사이의 거리 공식을 생각해보고 가장 가까운 K (예 : 3) 사이의 평균으로 가격을 계산할 수 있습니다. 원거리의 차이와 문의 차이, 마력의 차이 등과 같은 거리 공식은 유클리드가 될 수 있습니다.

선형 회귀 분석을 사용하면 몇 가지 사항을 제안합니다.

  • 인플레이션을 설명하기 위해 달러 가치를 현대까지 확대하십시오.
  • 데이터를 시대로 나눕니다. 예를 들어 ww2 이전과 ww2 이후에 하나의 모델이 필요하다는 것을 알게 될 것입니다. 이것은 단지 직감입니다.
  • 과도한 피팅을 피하기 위해 모델을 교차 검증하십시오. 데이터를 5 개의 청크로 나눕니다. 4를 훈련시키고 5 번째 청크에서 모델을 움직입니다. 오류를 정리하고 헹구고 다른 덩어리에 대해 반복하십시오.

또 다른 아이디어는 모델간에 하이브리드를 만드는 것입니다. regresion과 KNN을 모두 데이터 포인트로 사용하고 최종 가격을 가중 평균 또는 무언가로 만듭니다.


3

이미 언급 된 내용과는 달리 이미 제시된 제안과 크게 다르지 않은 경우, hedonic 가격 모델 에 대한 방대한 문헌을 살펴볼 수 있습니다. 입니다. 요약하자면, 복합재 가격을 속성의 함수로 설명하려는 회귀 모델이 있습니다.

이를 통해 샘플에 정확히 유사한 속성 조합이없는 경우에도 속성 (마력, 크기, 브랜드 등)을 알고있는 자동차의 가격을 책정 할 수 있습니다. 실제 상태 속성과 같이 본질적으로 복제 할 수없는 자산을 평가하는 데 가장 널리 사용되는 방법입니다. "고혈압 모델"에 대해 Google을 사용한다면 많은 참고 문헌과 예제를 찾을 수 있습니다.


@에프. Tusell : 좋은 설명이었습니다. 나는 이미 이것을 다른 게시물과 함께 퍼즐로 만들었지 만 이것은 나와 같은 초보자를 위해 잘 요약했습니다.
murrekatt
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.