웹 사이트를 통한 여행을위한 경로 확률 트리 구축


10

저는 현재 웹 사이트에서 사람들이 웹 사이트에 도착할 때마다 취할 수있는 경로를 보여주는 의사 결정 트리 다이어그램을 작성해야하는 분석을 수행하고 있습니다. 내가 처리하고 data.frame홈페이지에서 시작, 사이트에 모든 고객의 경로를 보여주고있다. 예를 들어 고객은 다음 경로를 사용할 수 있습니다.

Homepage - pg 1
Kitchen Items page - pg 2
Pots and Pans page - pg 3

이 고객에게는 3 페이지의 여정이 있습니다. R에서 시도하고 싶은 것은 모든 고객 경로를 결합하여 사이트의 특정 경로를 따르는 고객에게 확률을 할당하는 것입니다. 예를 들어 모든 경로를 살펴보면 홈페이지에 도착한 사람들의 34 %가 ​​'주방 품목 페이지'로 이동하는 것을 알 수 있습니다. R에이 시설이 있습니까?

rpartpartykit 패키지를 통해 다른 방법을 찾았 지만 도움이되지 않는 것 같습니다.

이것에 대한 올바른 방향으로의 조향은 대단히 감사합니다!


1
이 영역에 대해 잘 모르지만 igraph패키지는 매우 포괄적 인 것으로 보입니다.
richiemorrisroe

3
네, igraph는 시각화를위한 길입니다. 사전에 전환 확률을 계산해야합니다. 일반적으로 Markov Chains
steffen을

1
샘플 데이터를 게시 할 수 있습니까? 상황을 더 잘 이해하는 데 도움이됩니다.
curious_cat

답변:


1

시작하는 한 가지 방법은 아니지만 행렬 (예 : )을 입니다. 여기서 은 페이지 수입니다. 그런 다음 사용자가 페이지에서 페이지로 때마다 원시 데이터 증분 행렬 요소 를 기준으로합니다 . 그것은 당신에게 전이 확률을 가져옵니다.M n × n n M r c r cn×nMn×nnMrcrc

첫 번째 질문은 이미 다음과 같이 답변되었습니다. "홈페이지 (예 : 1 페이지) 사용자 중 몇 퍼센트가 주방 용품 (예 : 2 페이지) 옆으로 이동합니까?"

M12cM1c

아니면 너무 단순한가요?


1
아니에요 여기서부터-이 각각을 동적으로 R의 트리로 그래프로 그릴 수있는 방법이 있습니까? 그렇지 않은 경우 사용할 수있는 다른 도구가 있습니까?
nellington

@ 넬 링턴 : 어떤 종류의 나무를 생각하고 있습니까?
curious_cat

1
루트 노드가 홈페이지 인 확률 트리가 바람직하지만 루트 노드를 사이트의 다른 페이지로 변경할 수 있다면 루트 노드의 각 분기는 다음에 방문한 다음 페이지를 나타냅니다. 루트 노드 이상적으로는 각 브랜치에 % 확률이 첨부됩니다. 각 하위 노드에서 확장 및 축소 할 수 있어야한다는 점에서 역동적입니다. 이를 처리 할 수있는 시각화 소프트웨어에 대해 알고 있습니까?
nellington

@ 넬 링턴 : 순수하게 시각화하기 위해 graphviz를 사용해 볼 수 있습니다. 이 트리는 유 방향 그래프가 될 것이며이를 처리하기위한 많은 그래프 중심 도구가 있습니다.
curious_cat

0

Google의 PageRank 알고리즘을 다시 작성하려는 것 같습니다. PageRank 알고리즘의 대부분은 Markov Chains를 사용하여 개발되었습니다. R에서 PageRank 메소드 개발에 대한 많은 언급을 찾을 수 있습니다.

igraph.sourceforge.net/doc/R/page.rank.htm


1
내가 아는 한, 이것은 pagerank에 관한 것이 아닙니다. IMHO의 유일한 겹치는 부분은 사용자 경로가 사이트 디자인 (링크)과 관련이있을 가능성이 높지만 그게 전부입니다. 제공된 링크가 작동하지 않습니다.
steffen

1
링크를 찾은 것 같습니다. igraph를 많이 사용하는 것으로 보이므로 igraph의 웹 페이지에있을 수 있습니다. stat.berkeley.edu/users/vigre/undergrad/reports/…
geneorama

아, 알다시피 page.rank는 igraph의 함수입니다. 일부 문서 : link1 link2 link3
geneorama

첫 번째 보고서를 잠깐 훑어 본 후 실제로 이것은 꽤 좋은 답변이라고 생각하며 정교하게 대답 할 수있었습니다. 페이지 순위 기능이 정답입니다.
geneorama

0

내가 여기에서 보았을 때, 나는 igraphs / Markov Chains가 갈 길이라고 동의하지만 rpart 및 / 또는 partykit을 확실히 사용할 수 있습니다.

제한된 예를 들어 간단한 대답을하기는 어렵지만 일반적으로 어떻게 할 것인지 설명 할 수 있습니다.

모든 사용자의 위치를 ​​확인하고이를 예를 들어 문자열로 요약하십시오.

"Home / product4 / product3 / product4 / buynow"
"Home / product3 / buynow"
"Home / product3 / product4"

그런 다음 사용자를 카테고리로 분류 할 수 있습니다 (예 : "지금 구매"페이지에서 종료 된 사용자와 그렇지 않은 사용자). 그런 다음 해당 터미널 결과를 예측하기 시작할 수 있습니다. 이 예에서는 아마도 가장 많은 비교를 한 사람들이 무언가를 사지 않았거나 구매하지 않았 음을 알 수있을 것입니다.

"구매 페이지 이전의 페이지 수", "구매하기 전에 방문한 페이지 수"또는 "첫 번째 계정을 만든시기"등의 변수를 더 많이 만들 수 있으며 이러한 메트릭을 분석에 추가 할 수 있습니다.

거기 당신이 갈 수있는 다른 방법이 많이 있습니다, 이것은 다른 질문에 대한 답변을 시작하지만 제 요점은 당신이 있다는 것입니다 수있는 나무를 사용하여 몇 가지 문제가 통찰력을 빠르고 간단 경로 일 수 있습니다.

그건 그렇고, 당신은 사용하여 숫자가 아닌 변수 요인을 만들 필요가 factor또는 as.factor당신이 파티를 사용하려고하는 경우. Party에는 멋진 비네팅이 있습니다.


1
솔직히 말해서, 나는 홈페이지를 최적화하고 싶기 때문에 사람들이 홈페이지에서 2 페이지로 이동 한 다음 2 페이지에서 3 페이지로 이동하는 위치를 예측하는 것이 내가 원하는 데이터의 가장 중요한 부분입니다. 터미널 페이지는별로 관심이 없습니다. 나는 여행에 페이지 URL과 페이지 번호가 있으므로 전환 probabilites는 그것을하는 방법처럼 보입니다. 그럼에도 불구하고 약간 수동적 인 것처럼 보이며 R이 더 반복적 인 솔루션을 제공 할 수도 있지만 ...
nellington

질문과 마지막 의견을 다시 읽은 후에는 사람들이 홈페이지에서 사람들이하는 일에 대한 표를 원한다고 생각합니다. (시작)
geneorama

사람들이 홈페이지와 홈페이지 뒤에서하는 일이 가장 중요하지만 r의 모든 사용자 데이터를 연결하고 확률을 할당 할 수있는 것이 가장 까다로운 부분입니다. 어쩌면 엑셀이 갈 길입니까? igraph에서 꼭짓점 / 가장자리 경로를 내려 가고 있지만 도움보다 더 많은 해를 끼치는 것 같습니다.
nellington

연락처 정보를 프로필에 추가했습니다. 오프라인에서 얘기 할 수 있을까요?
geneorama

메일 발송
nellington
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.