항공사의 가격 결정 동작, 특히 항공사가 경쟁사 가격에 반응하는 방식을 조사하고 싶습니다.
더 복잡한 분석에 대한 내 지식은 상당히 제한적이라고 말하지만 데이터의 전체적인 관점을 수집하기 위해 대부분 기본 방법을 모두 사용했습니다. 여기에는 유사한 패턴을 식별하는 데 도움이되는 간단한 그래프가 포함됩니다. SAS Enterprise 9.4도 사용하고 있습니다.
그러나 나는 더 많은 숫자 기반 접근법을 찾고 있습니다.
데이터 세트
내가 사용하고있는 (자체) 수집 된 데이터 세트에는 ~ 54.000 운임이 포함되어 있습니다. 모든 운임은 매일 60 일 (매일 00:00)에 60 일 시간 내에 수집됩니다.
따라서, 해당 시간 범위 내의 모든 요금은 요금의 수령일이 지날 때 요금 의 이용 가능 여부 및 출발 날짜에 따라 회 발생합니다 . (비행기 출발일이 지난 경우에는 항공료를 징수 할 수 없습니다)
기본적으로 다음과 같은 형식화되지 않은 형식 : (가짜 데이터)
+--------------------+-----------+--------------------+--------------------------+---------------+
| requestDate | price| tripStartDeparture | tripDestinationDeparture | flightCarrier |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 725.32 | 16APR2015:10:50:02 | 23APR2015:21:55:04 | XA |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 966.32 | 16APR2015:13:20:02 | 23APR2015:19:00:04 | XY |
+--------------------+-----------+--------------------+--------------------------+---------------+
| 14APR2015:00:00:00 | 915.32 | 16APR2015:13:20:02 | 23APR2015:21:55:04 | XH |
+--------------------+-----------+--------------------+--------------------------+---------------+
"DaysBeforeDeparture"는 를 통해 계산됩니다 .
- I 및 간격 (출발 전날)
- 요금 및 날짜 (비행 출발)
- 운임이 징수 된 c 및 날짜
다음은 I (DaysBeforeDep.) (가짜 데이터!)로 그룹화 된 데이터 세트의 예입니다.
+-----------------+------------------+------------------+------------------+------------------+
| DaysBefDeparture | AVG_of_sale | MIN_of_sale | MAX_of_sale | operatingCarrier |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 880.68 | 477.99 | 2,245.23 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 904.89 | 477.99 | 2,534.55 | DL |
+-----------------+------------------+------------------+------------------+------------------+
| 0 | 1,044.39 | 920.99 | 2,119.09 | LH |
+-----------------+------------------+------------------+------------------+------------------+
내가 지금까지 생각해 낸 것
선 그래프를 보면 이미 여러 선이 높은 상관 계수를 가질 것으로 예상 할 수 있습니다. 따라서 그룹화 된 데이터에 대해 먼저 상관 관계 분석을 사용하려고했습니다. 그러나 그것이 올바른 방법입니까? 기본적으로 개별 가격이 아닌 평균에 상관 관계를 만들려고합니까? 다른 방법이 있습니까?
가격이 선형 형태로 움직이지 않고 비선형으로 보이기 때문에 어떤 회귀 모델이 여기에 맞는지 잘 모르겠습니다. 항공사의 각 가격 개발에 모델을 적용해야합니까?
추신 : 이것은 긴 텍스트 벽입니다. 무엇이든 명확히 해야하는 경우 알려주십시오. 나는이 서브를 처음 사용합니다.
실마리가 있습니까? :-)