강남 스타일 유튜브 조회수 예측 모델


73

PSY의 뮤직 비디오 "강남 스타일" 은 2 개월이 채 지나지 않아 약 5 억 5 천만 명의 시청자가 있습니다. 지난 주 저녁에 초등학생 10 명으로부터 이것을 배웠고 곧 10-12 일 동안 시청자가 몇 명이고 언제 노래를 언제 (/ if)하는지에 대한 어떤 종류의 예측이 가능한지에 대한 논의가 진행되었습니다. 8 억 명의 시청자 또는 10 억 명의 시청자를 통과시킵니다.

다음은 게시 된 이후 시청자 수의 사진입니다. 싸이 OGS

다음은 No1 "Justin Biever-Baby"와 No2 "Eminem-당신이 거짓말하는 방식을 좋아합니다"뮤직 비디오를 시청 한 사람들의 사진입니다. 저스틴 에미 em

모델에 대한 나의 첫 번째 시도는 S- 곡선이어야하지만 이것은 No1 및 No2 노래에 맞지 않는 것 같으며 뮤직 비디오의 조회수에 제한이 없다는 것에도 맞지 않습니다. 성장 속도가 느릴 수 있습니다.

그래서 내 질문은 : 뮤직 비디오의 시청자 수를 예측하기 위해 어떤 종류의 모델을 사용해야합니까?


21
저녁 식사 대화를 강남에서 통계로 안내하기 위해 +1 우리는 당신 같은 사람들이 필요합니다!
Stephan Kolassa

4
gui11aume 또는 이것을 모델링하기 위해 방정식을 작성하는 다른 사람들에게 유용 할 수있는 토론에 추가 할 수있는 것은 KONY 예에서 지리적 클러스터링이 바이러스 확산의 중요한 측면이라는 것입니다. PSY가 한국과 아시아의 현상이라는 사실은 이야기의 중요한 부분입니다. 그것이 어떻게 모델링 될지 확실하지 않지만 실마리가 될 수 있습니다.

2012 년 11 월의 동영상 조회수, 댓글 수, 좋아요 수 및 싫어요에 대한 데이터는 docs.google.com/spreadsheet/…
FredrikD

답변:


38

아하, 훌륭한 질문 !!

나는 또한 S 형의 로지스틱 곡선을 순진하게 제안했을 것이지만 이것은 분명히 적합하지 않습니다. 내가 아는 한 YouTube는 고유 조회수 (IP 주소 당 1 개)를 계산하므로 컴퓨터보다 조회수가 더 많기 때문에 지속적인 증가는 근사치입니다.

사람들이 다른 감수성을 갖는 역학 모델을 사용할 수 있습니다. 간단하게하기 위해 고위험군 (어린이 등)과 저 위험군 (성인 등)으로 나눌 수 있습니다. 의 호출하자 "감염"아이들과의 비율 시간에 "감염"성인의 비율 . 나는 고위험 그룹 의 (알 수없는) 개인 수로 , 저 위험 그룹의 (알 수없는) 개인 수로 부를 것입니다., Y ( t ) t X Yx(t)y(t)tXY

x˙(t)=r1(x(t)+y(t))(Xx(t))
y˙(t)=r2(x(t)+y(t))(Yy(t)),

여기서 입니다. 해당 시스템을 해결하는 방법을 모르지만 (@EpiGrad가 가능할 수도 있음) 그래프를 보면 몇 가지 간단한 가정을 할 수 있습니다. 성장이 포화되지 않기 때문에 가 매우 크고 가 작거나r1>r2Yy

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2x(t),

고위험군이 완전히 감염되면 선형 성장을 예측합니다. 이 모델에서는 를 가정 할 이유가 없습니다 . 큰 용어 가 이제 포함되어 있기 때문에 그 반대 입니다.r1>r2Yy(t)r2

이 시스템은

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2x(t)dt+C2=r2r1log(1+C1eXr1t)+C2,

여기서 및 는 적분 상수입니다. 총 "감염된"모집단은 이며 3 개의 매개 변수와 2 개의 적분 상수 (초기 조건)가 있습니다. 나는 그것이 얼마나 쉬운 지 모르겠다 ...C1C2x(t)+y(t)

업데이트 : 매개 변수를 사용 하여이 모델로 상단 곡선의 모양을 재현 할 수 없었습니다 에서 의 전환 은 항상 위보다 더 선명합니다. 같은 생각으로 계속해서 "공유자" 와 "loners" 라는 두 종류의 인터넷 사용자가 있다고 가정 할 수 있습니다. 공유자들은 서로를 감염시키고, 외로운 사람들은 우연히 비디오에 부딪칩니다. 모델은0600,000,000x(t)y(t)

x˙(t)=r1x(t)(Xx(t))
y˙(t)=r2,

에 해결

x(t)=XC1eXr1t1+C1eXr1t
y(t)=r2t+C2.

우리는 가정 수 , 단지에서 환자의 0이 있음을 산출, 있기 때문에 있다 큰 수. 이므로 이라고 가정 할 수 있습니다 . 이제 3 개의 매개 변수 , 및 역학을 결정합니다.x(0)=1t=0C1=1X11XXC2=y(0)C2=0Xr1r2

이 모델을 사용하더라도 변곡이 매우 날카 로워 보입니다. 적합하지 않으므로 모델이 잘못되어야합니다. 실제로 문제가 매우 흥미로워집니다. 예를 들어 아래 그림은 , 및 .X=600,000,000r1=3.6671010r2=1,000,000

강남 스타일의 성장 모델

업데이트 : 유튜브가 독특한 IP가 아닌 (비밀 방식으로) 조회수를 계산한다는 의견에서 큰 차이가 있습니다. 드로잉 보드로 돌아갑니다.

간단하게하기 위해 시청자가 비디오에 "감염"되었다고 가정합니다. 그들은 감염이 사라질 때까지 정기적으로 그것을 보러 돌아옵니다. 가장 간단한 모델 중 하나 는 다음과 같은 SIR (Susceptible-Infected-Resistant)입니다.

˙ I (t)=αS(t)I(t)βI(t) ˙ R (t)=βI(t)

S˙(t)=αS(t)I(t)
I˙(t)=αS(t)I(t)βI(t)
R˙(t)=βI(t)

여기서 는 감염률이고 는 제거율입니다. 총 조회수 는 와 으며, 여기서 는 감염된 개인당 하루 평균 조회수입니다.β x ( t ) ˙ x ( t ) = k I ( t ) kαβx(t)x˙(t)=kI(t)k

이 모델에서는 감염이 시작된 후 얼마 후 조회수가 급격히 증가하기 시작합니다. 이는 원본 데이터의 경우에는 그렇지 않습니다. 비디오가 바이러스가 아닌 (또는 밈) 방식으로 확산되기 때문일 수 있습니다. SIR 모델의 매개 변수를 추정하는 데 전문가가 아닙니다. 다른 값으로 연주하면 여기에 R이 있습니다.

S0 = 1e7; a = 5e-8; b = 0.01 ; k = 1.2
views = 0; S = S0; I = 1;
# Exrapolate 1 year after the onset.
for (i in 1:365) {
   dS = -a*I*S;
   dI = a*I*S - b*I;
   S = S+dS;
   I = I+dI;
   views[i+1] = views[i] + k*I 
}
par(mfrow=c(2,1))
plot(views[1:95], type='l', lwd=2, ylim=c(0,6e8))
plot(views, type='n', lwd=2)
lines(views[1:95], type='l', lwd=2)
lines(96:365, views[96:365], type='l', lty=2)

강남 스타일 유튜브 영상 조회

이 모델은 분명히 완벽하지는 않으며 여러 가지 방법으로 보완 될 수 있습니다. 이 매우 거친 스케치는 2013 년 3 월경 어딘가의 10 억 회 전망을 예측합니다


5
(+1) 첫 번째 접근법. 조회수 계산에 대한 YouTube의 정책은 알고리즘을 공개하지 않았기 때문에 잘 이해되지 않습니다. "누군가가 YouTube에서 동영상을 볼 때마다 조회수가 계산됩니다. 조회수를 인위적으로 늘리려는 시도를 피하기 위해 이보다 더 구체적으로 정보를 얻지 못했습니다" (참조) .

3
@FredrikD 감사합니다. 내가 잘못한 경우에도 2013 년 3 월에 '수락'을 제거 할 수 있습니다. : D
gui11aume

2
SIR 모델 매개 변수 추정은 참조 rsfs.royalsocietypublishing.org/content/2/2/156.full
FredrikD

1
내가 이것을 잃을 것 같다! 그들은 만도 2013 전에 ... 히트 수 있습니다
gui11aume

2
engadget.com/2012/12/21/gangnam-style-one-billion-views 그래서 세계는 끝나지 않았지만 오늘날 10 억 회 조회가 이루어졌습니다.
DanTheMan

5

아마도 새로운 제품 채택을 예측하기위한 가장 일반적인 모델은 베이스 확산 모델 인데, 이것은 @ gui11aume의 답변과 유사하게 현재 사용자와 잠재적 사용자 간의 상호 작용을 모델링합니다. 신제품 채택은 예측에서 매우 인기있는 주제입니다.이 용어를 검색하면 엄청난 양의 정보가 생성됩니다 (불행히도 여기서 확장 할 시간이 없습니다 ...).


예, 그것은 또한 후보 모델입니다. 그러나 한 번만 사용자가 될 수 있다고 가정합니다. 여기에서는 "감염된"비디오를 여러 번 봅니다.
FredrikD

1
@FredrikD : 점을 찍었습니다. (나는 개인적으로이 "제품"의 단일 "사용"을 통해서도 앉을 수 없었지만 ...) 이것을 다루기 위해베이스의 일반화가 있어야한다. (Shameless plug :) 내년 국제 예측 심포지엄이 서울에 있기 때문에 누구나 자신이 좋아하는 강남 예측 모델을 제시하는 것을 고려해야합니다! ;-)
Stephan Kolassa

4

나는 Gompertz 성장 곡선을 볼 것 입니다.

곰 퍼츠 곡선은 시간 T가 독립 변수 인 3 모수 (a, b, c) 이중 지수 식입니다.

R 코드 :

gompertz_growth <- function(a=a,b=b,c=c, t) { a*exp(b*exp(c*t)) }

곰 페르츠 성장 공식은 처음에 성장이 가속화되는 많은 수명주기 현상을 설명하는 데 능숙한 것으로 알려져 있습니다. 예를 들어, 본질적으로 바이러스 성인 Wikipedia총 기사 수는 수년간 엄청나게 성장한 Gompertz 성장 곡선 (특정 a, b, c 매개 변수 포함)을 수년 동안 따라 왔습니다.

곰 페르츠 (Gompertz) 곡선 도표 : 총 크기 및 성장률 미분

편집 : Gompertz 곡선이 원하는 모양을 근사하기에 충분하지 않은 경우 Exponentaited Generalized Weibull Gompertz Distribution에d 설명 된대로 매개 변수 & θ 를 추가 할 수 있습니다 . 이 문서는 독립 시간 매개 변수 대신 사용 합니다 . 흥미롭게도 Wikipedia는 2012 년 이후의 실제 값과의 예측 차이 를 설명하기 위해 단일 네 번째 매개 변수를 추가하여 최상의 근사치를 수정했습니다 . 수정 된 4-param Gompertz 곡선 공식은 다음과 같습니다.xtd

gompertz_2 <- function(a=A,b=B,c=C,d=D, t) {a * exp(b * exp(c*t) + d*t)}

Gompertz 함수는 가우스 현대 (가우스 후배 2 세 )Benjamin Gompertz (1779-1865)의 이름을 따서 명명 된 최초의 수학자입니다.


좋은 지적! 그러나 모델에 문제가되는 것은 모델이 한계가 아닌 것입니다 (No1 및 No2 참조). 즉, 모델의 요인 a도 시간이 지남에 따라 증가하고 있습니다.
FredrikD

"한계가없는 것 같습니다." 강남 스타일은 1B에 도달 할 수 있습니까? 10B? 100B? 견해? 결국 성장률은 거의 0에 도달하고 곡선은 정점에 이릅니다. 강남과 같이 고성장 단계에있을 때는 알기가 어렵지만 몇 년을 기다리면 Gompertz가 이길 것입니다. 물론 속임수는 당연히 맞습니다. b, c)이 특정한 경우에 대한 매개 변수.
arielf

2
다음은 Gompertz 모델의 매개 변수 추정에 대한 참조입니다. weibull.com/RelGrowthWeb/…
FredrikD

3

나는 강남 스타일과 같은 현상을 분리해야한다고 생각합니다. 강남 스타일은 저스틴 비버 (Justin Bieber)와 에미 em (Eminem)의 밈 / 바이러스에 대한 견해가 많기 때문에 큰 예술가이며 전통적인 배경으로 널리 퍼질 것입니다- JB 또는 Eminem도 많은 싱글을 판매 할 것입니다. PSY가 확실하지 않습니다.


좋은 지적. PSY와 "OGS"(Oppa Gangnam Style) 팀의 인터뷰를 읽고들은 후에, 그들은 바이러스 성 물건을 만들기 위해 어떤 버튼을 눌러야하는지 잘 알고 있습니다. 위의 뷰 사진에 대한 일부 이미지 분석을 통해 시작 후 약 90 일까지 뷰가 선형이 아닌 것처럼 보이며, 그랑프리에 PSY가 나타나고 시간당 뷰 수가 증가합니다.
FredrikD

-이 두 클래스는 YouTube에 처음 올렸을 때 잘 알려진 노래 인 '클래식'과 어떻게 다른가요 (David Bowie라고 생각합니다)?
abaumann

2

5
@ ProfRoy47 사이트에 오신 것을 환영합니다. 이 게시물을 좀 더 자세히 설명해 주시겠습니까? 이것이 실제로 OP의 질문에 대한 대답인지는 확실하지 않습니다. OTOH는 주석으로 적합하지 않으며이 스레드에 도움이되는 내용을 가지고 있다고 생각합니다. 우리의 질문은 당신에게 도움이 될 수있다 CV에 제공하는 답변, 재 논의가있다.
gung

1

이 모델은 분명히 완벽하지는 않으며 여러 가지 방법으로 보완 될 수 있습니다. 이 매우 거친 스케치는 2013 년 3 월경 어딘가의 10 억 회 전망을 예측합니다

지난 주 전망의 둔화를 살펴보면 3 월 13 일 날짜는 괜찮은 내기처럼 보입니다. 새로운보기의 대부분은 하루에 여러 번 반환되는 이미 감염된 사용자 인 것으로 보입니다.

모델 보완과 관련하여 연구원들이 바이러스 확산을 추적하는 데 사용하는 방법 중 하나는 게놈 돌연변이를 모니터링하는 것입니다. 돌연변이가 언제 어디서 돌연변이가 발생하여 바이러스가 얼마나 빨리 전파되고 확산되는지 연구원에게 보여줄 수 있습니다 (미국 웨스트 나일 바이러스 추적 참조) .

실용적인 의미에서 강남 스타일과 Party Rock Anthem (LMFAO 그룹)은 저스틴 비버 (Justin Bieber)의 베이비 또는 에미 em의 노래보다 패러디, 플래시 몹, 웨딩 댄스, 리믹스 및 기타 비디오 응답으로 '돌연변이'가능성이 높습니다.

연구원들은 돌연변이에 대한 프록시로서 비디오 응답의 수 (특히 패러디)를 분석 할 수있었습니다. 동영상 수명 초기에 이러한 돌연변이의 빈도와 인기도를 측정하면 평생 YouTube 조회수를 모델링하는 것이 유용 할 수 있습니다.


@lucasng 사이트에 오신 것을 환영합니다. CV는 실질적인 질문에 대한 진지하고 사실적인 답변을위한 것입니다 ( FAQ 를 읽고 싶을 수도 있음 ). 귀하의 답변은 여기 경계선에 있습니다. 나는 그것이 돌연변이 등에 관한 아이디어를 기반으로 유지해야한다고 생각하지만 비디오의 장점에 대한 의견은 실제로 독창적이지는 않습니다.
gung

아이디어가 좋다고 생각합니다. @gung OP에 대한 답은 아니지만 두 번째 대답도 그렇지 않습니다.
gui11aume

@gung : (Google 검색에 따르면) lucasng는 편집 한 부분에 대한 의견이 아니라 노래를 수행하는 그룹의 이름을 인용했습니다!
추기경

1
@ cardinal, 머리를 주셔서 감사합니다. Lucasng, 혼란에 대해 죄송합니다. 나는 그룹 이름을 다시 넣었다.
gung
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.