데이터 마이닝에서 측정 값 상승


36

리프트가 정확히 어떻게 작동하는지 알기 위해 많은 웹 사이트를 검색 했습니까? 내가 찾은 결과는 응용 프로그램 자체가 아니라 응용 프로그램에서 사용하는 것입니다.

나는 지원과 자신감 기능에 대해 알고 있습니다. Wikipedia의 데이터 마이닝에서 리프트는 사례를 예측하거나 분류 할 때 모델의 성능을 측정하고 무작위 선택 모델을 기준으로 측정합니다. 그러나 어떻게? 신뢰도 * 지원은 리프트의 가치입니다. 다른 수식도 검색했지만 예측 된 값의 정확도에서 리프트 차트가 중요한 이유를 이해할 수 없습니다. 리프트의 배후에 어떤 정책과 이유가 있는지 알고 싶습니다.


2
여기에 상황이 필요합니다. 마케팅에서 이것은 다양한 마케팅 활동에서 예상되는 매출 증가율을 나타내는 차트 일 것입니다. 그러나 아마도 다른 상황을 염두에두고있을 것입니다.
zbicyclist 2016 년

답변:


59

"리프트"가 어떻게 유용한 지 예를 들어 보겠습니다.

고객이 희망하는 바에 따라 제안을 우송하는 DM 캠페인을 운영한다고 가정 해보십시오. 기록 데이터에 따르면 고객 기반을 임의로 무작위로 우편으로 보내면 고객의 약 8 %가 우편물에 응답합니다 (즉, 고객이 제안서에 들어오고 쇼핑합니다). 따라서 1,000 명의 고객을 우편으로 보내면 80 명의 응답자를 기대할 수 있습니다.

이제 로지스틱 회귀 모델을 과거 데이터에 맞추고 고객이 메일 링에 응답 할 가능성이 있는지를 예측하는 패턴을 찾습니다. 로지스틱 회귀 모델을 사용하면 각 고객에게 응답 확률이 할당되며 실제로 응답했는지 여부를 알기 때문에 정확도를 평가할 수 있습니다. 각 고객에게 확률이 할당되면 가장 높은 점수에서 가장 낮은 점수의 고객까지 순위가 매겨집니다. 그런 다음 다음과 같은 "리프트"그래픽을 생성 할 수 있습니다.

여기에 이미지 설명을 입력하십시오

지금은 최상위 차트를 무시하십시오. 하단 차트는 응답 확률 (높은 순서에서 낮은 순서로)을 기준으로 고객을 정렬 한 다음 10 개의 동일한 구간으로 나누면 1 번 구간 (고객의 상위 10 %)의 응답 비율은 29입니다. 29/8 = 3.63의 리프트에 대해 임의 고객의 % 대 8 %. 우리가 4 번째 빈에서 고객을 채점 할 때, 우리는 이전 세 가지를 너무 많이 잡아서 응답률이 사람들에게 무작위로 메일을 보낼 것으로 예상되는 것보다 낮습니다.

이제 상위 차트를 보면 고객에 대한 확률 점수를 사용하는 경우 총 응답자 중 60 %를 점수 매기기 고객의 상위 30 % 만 우편으로 보내 무작위로 메일을받을 수 있다는 것입니다. 즉,이 모델을 사용하면 점수가 매겨진 고객의 상위 30 % 만 우송함으로써 메일 비용의 30 %에 대해 예상 수익의 60 %를 얻을 수 있으며 이것이 리프트가 실제로 참조하는 것입니다.


좋은 설명 감사합니다. 리프트 차트에서 왜 무작위 샘플이 필요한지 알려주시겠습니까? 나는 8 %가 무작위에서 온 것을 이해했지만 왜 무작위로 추적해야합니까? 나는 값의 평균을 추적하는 또 다른 차트를 보았고 평균의 존재 이유를 모른다.
Nickool

내가 얻은 것은 lift = 3.63이 4 번째 열까지 8 %보다 나은 응답 속도를 가지고 있다고 말한 다음 1 열을 가정하고 29 % (추정치 30 %)를 고려하면 1 열을 고려한 것입니다 3.63으로 어떤 상승이 이루어 졌습니까?
Nickool

1
세상에! 내 실수는 30 %가 29 %와 관련이 없으며 30 %는 3/10 3 Data의 첫 번째 열을 의미합니다! 이제 나는 그것을 완전히 이해했다 : DI는 너무 행복하다 !!!!! 감사합니다> : D <
Nickool

1
@nik : 각 고객에게 우편으로 보내는 비용은 종이와 우표로 $$ 1이라고 가정합니다. 순진하게 보낼 수 있으며 1 = 300 하며 48 명의 고객이 필요합니다. 다음으로, 우리는 각 고객의 이익이 얼마나 될지 추정합니다. 우리는 지출 -300-get-48- 고객을 가지고 있으며 우리가 선택하는 것은 고객 당 이익에 달려 있습니다. 1000mailingall1000customersandweexpect8300)thenweexpecttoget601000get80customersvsSpend
Josh Hemann

1
@ user1700890 맨 위 차트는 종종 누적 게인 차트로 레이블이 지정되며 맨 아래 차트는 누적 리프트 차트와 같지 않지만 (리프트가 1보다 낮을 수는 없음) 데이터를 10 개의 개별 구간으로 나눕니다.
RobertF

3

리프트 차트는 모델의 반응 대 해당 모델의 부재 사이의 비율을 나타냅니다. 일반적으로 X의 경우 비율과 Y 축에서 응답이 더 나은 횟수로 표시됩니다. 예를 들어 10 % 지점에서 lift = 2 인 모델은 다음을 의미합니다.

  • 어떤 모델도 모집단의 10 %를 취하지 않으면 (모델이 없기 때문에 순서 없음) y = 1의 비율은 y = 1 인 전체 모집단의 10 %가됩니다.

  • 모형을 사용하면이 비율의 2 배를 얻게됩니다. 즉 y = 1 인 전체 모집단의 20 %를 얻을 것으로 예상됩니다. 처음 10 %는 상위 10 % 예측입니다.


3

리프트는 신뢰와 기대 신뢰의 비율에 지나지 않습니다. 연관 규칙 영역에서- "1.0보다 큰 리프트 비율은 선행 물과 결과물 사이의 관계가 두 세트가 독립적 인 경우 예상보다 더 중요 함을 의미합니다. 리프트 비율이 클수록 연관성이 더 중요합니다. " 예를 들어

슈퍼마켓 데이터베이스에 100,000 개의 POS (Point-of-Sale) 거래가 있고 그 중 2,000 개가 품목 A와 B를 포함하고이 중 800 개가 품목 C를 포함하는 경우 연관 규칙 "A와 B를 구매하면 C는 동일하게 구매됩니다 trip "은 800 개의 트랜잭션 (또는 0.8 % = 800 / 100,000)을 지원하며 40 % (= 800 / 2,000)의 신뢰도를 갖습니다. 지원을 생각하는 한 가지 방법은 데이터베이스에서 임의로 선택된 트랜잭션이 선행 항목 및 결과의 모든 항목을 포함 할 확률이고, 신뢰도는 무작위로 선택된 트랜잭션이 데이터베이스의 모든 항목을 포함 할 조건부 확률이라는 것입니다. 결과적으로, 거래에는 선행사의 모든 품목이 포함된다고 가정합니다.

위의 예를 사용하면이 경우 예상 신뢰도는 "A와 B를 구매해도 C를 구매할 확률이 높아지지 않을 경우의 신뢰"를 의미합니다. 결과를 총 트랜잭션 수로 나눈 값을 포함하는 트랜잭션 수입니다. C의 총 트랜잭션 수가 5,000이라고 가정하십시오. 따라서 예상 신뢰도는 5,000 / 1,00,000 = 5 %입니다. 수퍼 마켓 예에서 리프트 = 신뢰 / 예상 신뢰 = 40 % / 5 % = 8입니다. 따라서 리프트는 if (미수) 부분이 주어진 경우 (결과) 확률의 증가에 대한 정보를 제공하는 값입니다. 여기 소스 기사에 대한 링크가 있습니다


2

리프트는 규칙의 중요성을 측정하는 척도입니다.

이 규칙이 무작위로 목록에 있는지 또는 우리가 기대하고 있는지 확인하는 측정

리프트 = 신뢰 / 예상 신뢰


0

예를 들어 결과가있는 연관 규칙의 유효성을 테스트하는 식료품 점의 예를 사용한다고 가정 해보십시오 (예 : "고객이 빵을 구매하면 버터도 구매합니다").

모든 거래를보고 무작위로 거래를 검토하는 경우 해당 거래에 결과가 포함될 확률은 "예상 신뢰"입니다. 선행자가 포함 된 모든 트랜잭션을보고 임의의 트랜잭션을 선택하면 해당 트랜잭션에 결과가 포함될 확률은 "신뢰"입니다. "리프트"는 본질적으로이 둘의 차이점입니다. 리프트를 사용하면 신뢰도가 높은 두 항목 간의 관계를 확인할 수 있습니다 (신뢰도가 낮 으면 리프트가 본질적으로 관련이 없음).

신뢰도가 높고 리프트가 적 으면 아이템을 함께 구입하는 경우가 많지만 결과로 인해 결과물이 우연인지 아니면 우연의 일치 인지 모릅니다 (아마도 둘 다 함께 구매하는 경우 '매우 인기있는 제품이지만 서로 어떤 관계도 없습니다.)

그러나 자신감과 양력이 모두 높으면 선행사 로 인해 결과가 발생한다고 합리적으로 추정 할 수 있습니다 . 리프트가 높을수록 두 항목 간의 관계가 우연의 일치 일 확률이 낮아집니다. 수학 용어로 :

리프트 = 신뢰 / 예상 신뢰

이 예에서 규칙의 신뢰도가 높고 리프트가 낮 으면 많은 고객이 빵과 버터를 구매하고 있음을 의미하지만 빵과 버터의 특별한 관계로 인한 것인지 또는 빵과 버터는 개별적으로 인기있는 품목이며 식료품 카트에 종종 함께 나타나는 사실은 우연의 일치입니다. 규칙에 대한 신뢰도가 높고 리프트가 높으면 이는 선행자와 결과와의 상관 관계가 매우 높음을 나타냅니다. 즉, 고객이 빵을 구매한다는 사실 때문에 버터를 구매한다고 합리적으로 가정 할 수 있습니다 . 리프트가 높을수록이 협회에 대한 자신감이 높아집니다.

당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.