최고의 통화 시간 예측


10

캘리포니아의 여러 도시에있는 고객 집합, 각 고객의 통화 시간 및 통화 상태 (고객이 전화에 응답하면 True, 고객이 응답하지 않으면 False)를 포함하는 데이터 집합이 있습니다.

전화를받을 확률이 높을 수 있도록 향후 고객을위한 적절한 전화 시간을 찾아야합니다. 그렇다면이 문제에 가장 적합한 전략은 무엇입니까? 시간 (0,1,2, ... 23)이 클래스 인 분류 문제로 고려해야합니까? 아니면 시간이 연속 변수 인 회귀 작업으로 간주해야합니까? 전화를받을 확률이 높은지 어떻게 확인할 수 있습니까?

도움을 주시면 감사하겠습니다. 비슷한 문제를 언급하면 ​​좋을 것입니다.

아래는 데이터의 스냅 샷입니다.


션 오언, 그 일은 어떻게 되었습니까? 나는 지금 비슷한 문제를 해결하려고 노력하고 있으며 귀하의 경험을 듣고 싶습니다. 웹 에서이 주제의 많은 리소스는 아닙니다. 미리 감사드립니다!
도미니카

답변:


5

적절한 변환없이 회귀 문제로 모델링하면 실제로 문제가 발생할 수 있습니다. 예를 들어, 대부분의 전화는 낮 시간에는 응답하고 밤 시간과 이른 아침에는 덜 응답한다는 것을 알고 있습니다. 선형 회귀 분석은 관계가 선형이 아닌 곡선 형일 수 있으므로 어려움이 있습니다. 같은 이유로, 로지스틱 회귀 분석을 사용하여 분류 작업으로 처리하는 것도 문제가 될 수 있습니다.

다른 응답자가 제안한 것처럼 데이터를 기간으로 다시 분류하면 도움이 될 수 있으며 먼저 의사 결정 트리 또는 임의의 포리스트와 같은 것을 시도하는 것이 좋습니다.

모두가 말했듯이, 이것은 단순한 설명 통계의 경우 일 수 있습니다. 하루 중 시간 (시 또는 기타 인구 통계별)으로 응답 한 통화 비율을 플롯하면 가장 좋은 시간이 있습니까? 그렇다면 왜 모델과 사물을 복잡하게 만드는가?


1

다음을 시도해 볼 수 있습니다.

  1. 아침을 이른 아침, 아침, 정오, 오후, 저녁, 늦은 저녁, 밤 등 여러 부분으로 나눕니다.
  2. 하루의 각 부분에 시간 경계를 지정하십시오 (예 : 정오는 오후 12 시부 터 오후 1 시까 지).
  3. 각 긍정적 인 경우 (통화 상태 = true)에 대해 3 개의 새 레이블 ( "고객에게 전화를 거는 시간")을 작성하여 해당 레이블 (아침 / 오후 / 저녁)을 지정하십시오. 이 레이블은 one-hot 인코딩 형식입니다 (예 : prefer_morning = 0 / 1, prefer_noon, prefer_evening 등).
  4. 전화가 성공하기 위해 리드가 오전 / 오후 / 오늘 저녁을 선호하는지 여부를 예측하는 3 가지 모델을 구축하십시오.

또한 표에 나와있는 기능 (도시 등)이 너무 모호하여 고객을 구분하기위한 많은 정보를 제공하지 않기 때문에 직업, 성별 등과 같은 기능을 추가하는 것이 좋습니다.

의견의 제안에 따라 편집 :

모델을 사용할 때 각 리드는 prefers_morning = yes / no, prefers_noon = yes / no 및 prefers_evening = yes / no로 분류됩니다. 아침과 같이 하루 중 시간을 기준으로 콜 센터 상담원 (또는 소프트웨어)이 오전 기본 설정 세트로 분류 된 콜 리드를 수령 할 수 있습니다. 정오가되면 통화 소프트웨어는 정오 선호 목록 등에서 선택합니다.


@ sandeep-s-sandhu 이것은 문제를 데이터 과학 분류 문제로 변환하는 간단한 방법입니다. 그러나이 접근 방식에는 몇 가지 단점이있을 수 있습니다. 1. 레이블 정보에는 긍정적 인 경우 만 포함되고 부정적인 경우의 정보는 손실됩니다. 2. 고객은 레이블 중 하나만 가질 수 있습니다. 실제로 고객은 하나 이상의 레이블을 가질 수 있습니다 (즉, 사람들이 늦은 저녁이나 밤에 전화를 선호합니다). 어떻게 생각해?
nkhuyu

@nkhuyu, 1) 라벨에는 또한 대소 문자가 포함됩니다. '긍정적 인 사례 (통화 상태 = true)'에 대해 '새 라벨 만들기-'고객에게 전화 할 하루의 일부 ''라는 문구를 잘못 이해했다고 생각합니다. 이 단계는 통화가 성공했는지 여부의 원래 레이블 인 추가 레이블을 작성하려고합니다. 2) 네, 맞습니다. 이것을 반영하기 위해 답을 편집했습니다.
Sandeep S. Sandhu

@ sandeep-s-sabdhu 답변 주셔서 감사합니다. 예, 오해했습니다. 확인. 그런 다음 두 개의 레이블 (통화 상태, 새 레이블)이 있습니다. 그렇다면이 문제를 어떻게 해결할 수 있습니까? 정규 분류 문제가 아닙니다.
nkhuyu

@nkhuyu, 이것을 지적 해 주셔서 감사합니다. 이제 4 단계에서 이것을 편집하고 명확히했습니다. 세 가지 모델 각각은 특정 시간대에 통화를 선택할 수있는 일련의 리드를 제공하며, 콜 센터에서는이를 사용하여 통화 우선 순위를 정합니다.
Sandeep S. Sandhu

1
1 단계 다음에 3 단계가 있으며이를 훈련에 적합한 레이블을 작성하도록 제안했습니다. 주된 질문은 ""적절한 시간을 찾아야합니다 ... "였습니다. 오전 / 오후 / 저녁 또는 시간 단위와 같은 세분화 여부를 결정하는 것은 OP에 달려 있습니다.
Sandeep S. Sandhu

0

나는 로지스틱 회귀를 사용할 것입니다-당신은 그들이 수집하지 않은 샘플이 필요할 것입니다. 그런 다음 시간을 계절적 더미 회귀 변수로 취급합니다 (23 시간은 더미 변수로 사용하고 하나는 가로 채기).

계절 더미 회귀 자로 취급하지 않으면 관계가 선형이 아니기 때문에 일종의 변환을 수행해야합니다.

이전에 누군가가 오후 중반 등을 범주 변수로 대체하도록 제안했습니다. 세부 사항이 있고 세부 정보가 손실되기 때문에 나쁜 생각입니다. 그것은 최적의 비닝을 사용하여 관계를 선형으로 만드는 것과 비슷한 효과가 있지만 여전히 효과가 있다고 생각하지 않습니다. 계절 더미 회귀 분석기를 사용해보십시오.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.