계층 적 베이지안 모델 (?)


12

통계 용어에 대한 정육점을 사과하십시오 :) 광고 및 클릭률과 관련된 몇 가지 질문이 있습니다. 그러나 그들 중 어느 것도 나의 계층 적 상황에 대한 나의 이해에 크게 도움이되지 않았습니다.

이와 관련된 질문 이 있습니다. 동일한 계층 적 베이지안 모델의 동등한 표현입니까? 하지만 실제로 비슷한 문제가 있는지 확실하지 않습니다. 또 다른 질문 계층 적 베이지안 이항 모형 에 대한 우선 순위는 초임 계수에 대해 자세하게 설명하지만 솔루션을 내 문제에 매핑 할 수 없습니다

신제품에 대한 온라인 광고가 두 개 있습니다. 광고를 며칠 동안 게재했습니다. 이 시점에서 광고를 클릭하여 클릭이 가장 많은 사용자를 확인했습니다. 클릭 수가 가장 많은 것을 제외하고 광고를 클릭 한 후 사람들이 실제로 구매하는 양을 확인하기 위해 며칠 동안 광고를 실행하도록했습니다. 그 시점에서 광고를 먼저 게재하는 것이 좋은지 알고 있습니다.

매일 두 항목 만 판매하기 때문에 많은 데이터가 없기 때문에 통계가 너무 시끄 럽습니다. 따라서 광고를 본 후 얼마나 많은 사람들이 물건을 구매하는지 추정하기는 어렵습니다. 클릭당 150 회에 한 번만 구매합니다.

일반적으로 말하자면 모든 광고에 대한 전체 통계로 광고 단위 그룹 통계를 부드럽게하여 가능한 한 빨리 각 광고에서 잃고 있는지 알아야합니다 .

  • 모든 광고가 충분히 구매 될 때까지 기다린다면 너무 오래 걸리기 때문에 파산하게됩니다. 10 개의 광고를 테스트하려면 각 광고에 대한 통계가 충분히 신뢰할 수 있도록 10 배 더 많은 돈을 써야합니다. 그때까지 나는 돈을 잃었을 수도 있습니다.
  • 모든 광고에 대해 평균 구매를하면 제대로 작동하지 않는 광고를 쫓아 낼 수 없습니다.

전체 구매율 ( N $ 하위 배포 있습니까? 즉, 각 광고에 대한 데이터가 많을수록 해당 광고에 대한 통계는 더 독립적입니다. 아무도 광고를 클릭하지 않았다면 전 세계 평균이 적절하다고 가정합니다.perclick)anduseitasapriorfor

어떤 배포판을 선택할까요?

A를 20 번 클릭하고 B를 4 번 클릭 한 경우 어떻게 모델링 할 수 있습니까? 지금까지 이항 분포 또는 포아송 분포가 여기에서 의미가 있음을 알았습니다.

  • purchase_rate ~ poisson (?)
  • (purchase_rate | group A) ~ poisson (그룹 A의 구매율 만 추정합니까?)

그러나 실제로 다음을 계산하려면 purchase_rate | group A. 그룹 A (또는 다른 그룹)에 적합하도록 두 배포판을 함께 연결하는 방법은 무엇입니까?

먼저 모델을 맞춰야합니까? 모델을 "훈련"하는 데 사용할 수있는 데이터가 있습니다.

  • 광고 A : 352 회 클릭, 5 회 구매
  • 광고 B : 15 회 클릭, 0 회 구매
  • 광고 C : 3519 클릭, 130 구매

그룹 중 하나의 확률을 추정하는 방법을 찾고 있습니다. 그룹에 두 개의 데이터 포인트 만있는 경우 본질적으로 글로벌 평균으로 돌아가고 싶습니다. 나는 베이지안 통계에 대해 약간 알고 있으며 베이지안 추론과 켤레 사전 등을 사용하여 모델링하는 방법을 설명하는 많은 사람들의 PDF를 읽었습니다. 이 작업을 올바르게 수행하는 방법이 있다고 생각하지만 올바르게 모델링하는 방법을 알 수 없습니다.

베이지안 방식으로 문제를 공식화하는 데 도움이되는 힌트에 매우 만족합니다. 실제로 이것을 구현하는 데 사용할 수있는 온라인 예제를 찾는 데 많은 도움이 될 것입니다.

최신 정보:

답변 해 주셔서 감사합니다. 내 문제에 대해 점점 더 많은 것을 이해하기 시작했습니다. 감사합니다! 문제를 좀 더 잘 이해하고 있는지 확인하기 위해 몇 가지 질문을하겠습니다.

따라서 전환이 베타 배포로 배포되고 베타 배포에는 두 개의 매개 변수 및 가 있다고 가정합니다 .Bab

그들은 이전에 매개 변수 그래서 매개 변수, 하이퍼 파라미터입니까? 결국 베타 수의 매개 변수로 전환 수와 클릭 수를 설정 했습니까? 112 12

다른 광고를 비교하고 싶을 때 입니다. 해당 수식의 각 부분을 어떻게 계산합니까?P(conversion|ad=X)=P(ad=X|conversion)P(conversion)P(ad=X)

  • 내 생각 가능성이라는, 또는 베타 분포의 "모드"됩니다. 따라서 이며 및 는 내 분포의 매개 변수입니다. 그러나 여기의 특정 및 는 광고 대한 분포에 대한 매개 변수입니다 . 이 경우이 광고에서 발생한 클릭 수 및 전환 수입니까? 아니면 모든 광고에서 몇 번의 클릭 / 전환이 발생 했습니까?α - 1P(ad=X|conversion) αβαβXα1α+β2αβαβX

  • 그런 다음 이전과 곱하면 P (변환)이며, 제 경우에는 Jeffreys 이전이며 정보가 없습니다. 더 많은 데이터를 얻을 때와 마찬가지로 이전이 유지됩니까?

  • 한계 확률 인 나눕니다. 이 광고를 얼마나 자주 클릭 했습니까?P(ad)

Jeffreys의 이전 사용에서, 나는 0에서 시작하고 내 데이터에 대해 아무것도 모른다고 가정합니다. 그 이전을 "비 정보"라고합니다. 데이터에 대해 계속 배우면서 이전 데이터를 업데이트합니까?

클릭과 전환이 발생하면 배포를 "업데이트"해야한다는 내용을 읽었습니다. 이것은 내 분포의 매개 변수가 변경되거나 이전 변경 사항을 의미합니까? 광고 X 클릭이 발생하면 둘 이상의 배포를 업데이트합니까? 둘 이상의 이전?

답변:


9

직감적으로 질문을 처리하는 가장 일반적인 방법은 계층 적 (다단계) 베이지안 모델을 구성하는 것입니다. 아래 그림과 같이 모델에는 세 부분이 있습니다.

모델

광고 전환율에 대한 계층 적 베이지안 모델

  1. 인구 수준에서 테스트 한 특정 광고 세트가 샘플링 된 광고 집단의 전환 확률을 모델링합니다. Neil에 의해 이전에 언급 된 바와 같이, 모집단 파라미터를 수정하여 2 차 레벨의 이전으로 사용할 수있다. 또는 모집단 모수 자체에 사전을 배치하여 데이터에 비추어 모집단 모수에 대한 불확실성을 표현할 수있는 추가 이점을 제공합니다. 이 경로 를 따라 모집단 평균 및 에 대해 사전 을 즉, 역 분산). 사전 확산은 사용하여 얻을 수 있습니다.N(μμ0,η0)μGa(λa0,b0)μ0=0,η0=0.1,a0=1,b0=1데이터를 통해 사후 추론을 지배 할 수 있습니다.

  2. 개별 광고 수준 에서 특정 광고 의 전환 확률 를 정규 분포로 모델링 할 수 있습니다 . 따라서 각 광고 에 대해 로짓 변환 확률 는 로 모델링됩니다 .πjjjρj:=logit(πj)N(ρjμ,λ)

  3. 마지막으로, 관찰 된 데이터의 수준에서, 우리는 전환 수가 모델 광고에 대한 로 경우, (가) 변환 시그 모이 사용합니다 로 다시 확률로 변환하고, 여기서 는 ad 의 클릭 수입니다 .kjjBin(kjσ(ρj),nj)σ(ρj)njj

데이터

예를 들어, 원래 질문에 게시 한 데이터를 보자.

광고 A : 352 회 클릭, 5 회 구매

광고 B : 15 회 클릭, 0 회 구매

광고 C : 3519 클릭, 130 구매

우리는 다음과 같이 번역합니다 :n1=352,k1=5,n2=15,k2=0,

추론

이 모형을 뒤집는 것은 모형 모수에 대한 사후 분포를 얻는 것을 의미합니다. 여기서는 MCMC와 같은 확률 적 샘플링 방식보다 계산 효율이 높은 모델 반전에 대해 변형 베이 방식을 사용했습니다. 아래 결과를 플로팅했습니다.

데이터 및 결과 후부

그림은 세 개의 패널을 보여줍니다. (a) 귀하가 제공 한 예제 데이터의 간단한 시각화. 회색 막대는 클릭 수를 나타내고 검은 막대는 전환 수를 나타냅니다. (b) 모집단 평균 전환율에 대한 결과적인 후방 분포. 더 많은 데이터를 관찰할수록 더욱 정확 해집니다. (c) 광고 별 후방 전환율의 중앙 95 % 후방 확률 구간 (또는 신뢰할 수있는 구간).

마지막 패널은 계층 적 모델링에 대한 베이지안 접근법의 두 가지 주요 기능을 보여줍니다. 첫째, 후부의 정밀도는 기본 데이터 포인트의 수를 반영합니다. 예를 들어 광고 C에 대한 데이터 포인트가 비교적 많습니다. 따라서 그 후부는 다른 광고의 후자보다 훨씬 정확합니다.

둘째, 광고 별 추론은 인구에 대한 지식을 통해 알 수 있습니다. 즉, 광고 별 후부는 전체 그룹의 데이터를 기반으로 하는데 이는 인구 감소로 알려진 효과 입니다. 예를 들어 광고 A의 사후 모드 (검은 색 원)는 경험적 전환율 (파란색)보다 훨씬 높습니다. 이는 다른 모든 광고의 사후 모드가 더 높기 때문에 그룹 평균으로 광고 별 견적을 알려 주면 더 정확한 사실을 추정 할 수 있기 때문입니다. 특정 광고에 대한 데이터가 적을수록 다른 광고의 데이터에 더 많은 영향을받습니다.

원래 질문에 설명 된 모든 아이디어는 위의 모델에서 자연스럽게 달성되며 완전히 베이지안 설정의 실용적인 유용성을 보여줍니다.


케이, 자세한 답변 감사합니다. 답변이 약간 날짜가 있음을 이해하지만 코드를 유지했다면 함께 제공되는 코드를 공유 하시겠습니까? 나는 계층 적 베이지안 모델링을 배우려고 노력하고 있지만 R에서 직관적 인 예를 찾기 위해 고군분투하고 있습니다.
Zhubarb

@Kay, 흥미로운 답변에 감사드립니다. 계층 적 베이지안 모델에 대한 참조를 추가해 주시겠습니까? 감사!
user511005

1
: 안녕하세요 @Zhubarb, user511005, 여기에 위의 모델을 설명하는 종이에 대한 링크입니다 sciencedirect.com/science/article/pii/S1053811913002371 내가 한 여기에 함께 변분 추론에 대한 간략한 소개를 넣어 : people.inf.ethz.ch/ bkay / talks / Brodersen_2013_03_22.pdf
Kay Brodersen 님이

2

각 광고에 대한 클릭이 주어지면 "전환"(구매) 의 확률 를 추정해야합니다 . 전환이 발생할 가능성이 각 클릭에 대해 동일하다고 가정한다고 가정합니다.p

이 작업을 수행하는 베이지안 방법을 통해 배포 추정하는 베타이며, 형상 매개 변수가, 되는 변환의 수를 더한 동일을 , 및 변환 플러스 초래하지 않았다 클릭 수와 같은 .paabb

a 와 는 당신의 이전을 나타냅니다. Jeffreys 이전에는 를 사용하십시오 . 전체 평균으로 "폴백"하기 위해 모든 데이터에 따라 를 설정 다양한 방법 이 있습니다.b(12,12)a,b

모수 하여 추정값에서 의 추정치를 얻으려면 베타 분포 모드 인 최대 우도 값을 선택할 수 있습니다.a , bpa,b


편집 내용에 대한 답변 :

전환은 베타 배포가 아니라 Bernoulli에서 확률 로 배포됩니다 . 단락 2에서 와 를 어떻게 설정 있는지를 작성 한 내용 과 비교하십시오 . 당신이 가지고 참고 각 광고, 따라서 이상 믿음 각 광고를, 그 믿음의 각 자체가 와 .a b p p a bpabppab

베이지안 업데이트는

P(px)P(p)P(xp)

여기서 는 관측치 (전환 또는 전환 없음)이고 적절한 광고에 대해 가 선택됩니다. 이 공식은 이미 와 에 대한 업데이트로 진행되어 변환의 경우 1을 추가 , 그렇지 않으면 1을 추가 하여 의 신념 을 업데이트합니다 .p a b a b pxpababp

Jeffreys의 이전은 정보가없는 이전과 같지 않지만, 그것을 사용해야 할 이유가 없다면 더 좋습니다. 그것에 대해 토론을 시작하려면 다른 질문을 자유롭게하십시오.


응답 해 주셔서 감사합니다! 이 댓글 상자에 문자가 없어서 원래 질문을 업데이트했습니다. 내가 업데이트에 쓴 세부 사항에 대한 피드백을 줄 수 있다면 좋을 것입니다.
Mika Tiihonen
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.