분류 된 퍼널을 어떻게 시각화 하시겠습니까? (그리고 파이썬으로 할 수 있습니까?)


9

Moz 에서이 게시물 을 보고 세그먼트 마케팅 퍼널을 제시했습니다.여기에 이미지 설명을 입력하십시오

이런 종류의 일은 내 직업에서 상당히 가치가 있습니다. 내가 모르는 것은 원시 데이터를 시각화하여 이와 같은 세그먼트 퍼널을 표시하는 방법입니다. 아이디어는 영업 리드가 서로 다른 소스 (데이터를 분류하는 데 사용)에서 나오고 거래로 전환 될 때마다 여러 단계를 거치는 것입니다. 각 단계에서 다른 단계로 떨어짐. 각 슬라이스의 너비는 각각의 절대 리드 수에 의해 결정됩니다. [ 편집 : 참조 용으로 여기에 사용 된 이미지가 각 슬라이스의 오른쪽에 지정된 숫자와 관련하여 오도되는 것을 알 수 있습니다. 슬라이스의 너비와 숫자 사이에는 관계가없는 것으로 보입니다. 이미지는 세그먼트 퍼널의 디자인에 대한 참조로만 사용해야합니다].

어쨌든, 그것을 시각화하는 방법에 대한 아이디어가 있습니까? 가능하다면 파이썬에서 그렇게 할 수있는 방법을 갖고 싶습니다.

누군가가 필요한 경우 더미 데이터 가있는 Google 문서 는 다음과 같습니다 .

통찰력을 기대합니다. 감사!


5
거대한 Lie Factor가 내장되어 있기 때문에 그림이 혼란스러워집니다. "깔때기"의 연속 레벨은 불규칙하게 변하는 다른 스케일을 사용합니다. 따라서, 밴드의 폭은되어 있지 각각 절대 번호로 결정 - 적어도하지 않음 쉽게 이해하고 시각화 방법. 그렇다면 어떤 데이터를 시각화 할 수있는 더 좋은 방법이 있는지 또는 파이썬 에서이 그래픽을 만드는 방법이 있습니까?
whuber

어떤 소프트웨어에서든 작업하려면 일반적으로 스택 막대에 오프셋 범주를 통합 한 다음 보이지 않게 할 수 있습니다. 다음은 동일한 Google 스프레드 시트 사용한 입니다. 효과가 없다는 것을 알 수 있습니다. 이 예에서는 아무것도 축소되지 않은 범주에 대해
Andy W

1
@whuber 안녕하세요. 확실하지 않습니다. 각 수준은 절대 숫자이며 각 수준은 이전 수준의 하위 그룹입니다. 스케일이 불규칙적으로 변하는 이유를 설명하십시오. 감사!
Optimesh

3
상단 세그먼트는 150 만 번의 방문을 나타내며 내 화면에서 약 500 픽셀로 표시됩니다 (1 픽셀 = 3000 번 방문). 하단 세그먼트는 방문수 5000 회를 나타내며 내 화면에서 2보다 작은 대신 약 150 픽셀로 표시됩니다 (예 : @Andy가 지적한대로). 이 질문의 그래픽은 그러한 과장에 신경 쓰지 않는 것처럼 보이므로 세그먼트의 크기를 조정할 필요가없는 것 같습니다. 길이와 그래픽을 모두 동일하게 설정하면 더 나은 정보를 얻을 수 있습니다 덜 기만적입니다.
whuber

1
@ whuber 아, 지금 무슨 말인지 알 겠어. 예, 저는 그 이미지를 시각적으로보고 싶은 것에 대한 예로 들어 왔습니다. 숫자 자체는 오해의 소지가 있습니다.
Optimesh

답변:


3

이 그림에는 데이터가 대략 다음과 같은 양방향 우발성 표 가 표시됩니다 .

                      Branded Unbranded Social Referring Direct   RSS
First-time...          177276    472737  88638    265915 472737 59092
Return Visits...       236002    629339 118001    354003 629339 78667
4+ Visits in ...       166514    444037  83257    249771 444037 55505
10+ Visit in ...        28782     76751  14391     43172  76751  9594
At Least One Visit...    6707     17886   3354     10061  17886  2236
Last Touch...             660      1759    330       989   1759   220

이 음모를 구성하는 수많은 방법이 있습니다. 예를 들어, 각 직사각형 패치의 위치를 ​​계산하고 각 패치를 별도로 도금 할 수 있습니다. 그러나 일반적으로 플롯이 데이터를 나타내는 방법에 대한 간결한 설명을 찾는 데 도움이됩니다.

출발점으로, 우리는 이것을 누적 막대 차트 의 변형으로 볼 수 있습니다 .

그림 1 : 누적 막 대형 차트.

이 그림에는 설명이 거의 필요하지 않습니다. 친숙 함을 통해 각 직사각형 행이 우연성 테이블의 각 행에 해당한다는 것을 알고 있습니다. 직사각형의 길이는 개수에 직접 비례합니다. 그것들이 겹치지 않도록; 색상은 테이블의 열에 해당합니다.

이 테이블을 "데이터 프레임"또는 "데이터 테이블" 로 변환 하면 행 이름, 열 이름 및 개수를 나타내는 필드가있는 카운트 당 하나의 행이있는 를 표시하면 일반적으로 적절한 함수를 호출하고 찾을 위치를 지정합니다. 행 이름, 열 이름 및 개수 사용 문법 그래픽의 구현합니다 ( 대한 패키지 )이 같이 보일 것을Xggplot2R

ggplot(X, aes(Outcome, Count, fill=Referral)) + geom_col() 

막대의 너비와 사용할 색상과 같은 그래픽의 세부 사항은 일반적으로 명시 적으로 규정해야합니다. 그것이 수행되는 방법은 플로팅 환경에 달려 있습니다 (그리고 상대적으로 관심이 적습니다.

Grammar of Graphics의이 특정 구현은 막대 위치를 지정할 때 유연성이 거의 없습니다. 최소한의 노력으로 원하는 모양을 만드는 한 가지 방법은 막대가 가운데에 오도록 각 막대의 바닥에 보이지 않는 범주를 삽입하는 것입니다. 약간의 생각은 각 막대를 중앙에 배치하는 데 필요한 가짜 수는 막대의 총 길이의 평균과 가장 긴 막대의 평균 수 여야 함을 나타냅니다. 이 예에서는 값이있는 초기 열입니다.

 254478.0       0.0  301115.0  897955.0  993610.5 1019817.0 

다음은 가짜 데이터를 연한 회색으로 표시하는 누적 막대 그래프입니다.

그림 2

원하는 열은 가짜 열의 그래픽을 보이지 않게하여 생성됩니다.

그림 3

플롯 의 그래픽 문법 설명 은 변경할 필요가 없습니다. 동일한 설명에 따라 렌더링 될 다른 우발성 테이블을 제공했습니다 (가짜 열의 기본 색상 할당을 무시 함).

코멘트

이 그래픽은 정직합니다. 각 컬러 패치의 수평 범위는 왜곡없이 기본 데이터에 정비례합니다. 그것들을 원래의 (질문에서) 비교하면 왜곡이 얼마나 극단인지 (Tufte 's Lie Factor ) 가 드러납니다 .

'퍼널'하단에 세부 정보를 표시하려면 길이가 아닌 영역을 기준으로 카운트를 표시하는 것이 좋습니다. 막대의 길이를 전체 길이 의 제곱근에 비례 하고 너비 (수직 방향)를 제곱근에 비례하도록 만들 수 있습니다. 이제 '퍼널'의 맨 아래는 4 분의 1이 아닌 가장 긴 길이의 1 분의 1이되어 세부 사항을 보여줄 수 있습니다. 불행히도, ggplot2구현에서는 변수를 막대 너비에 매핑 할 수 없으므로보다 복잡한 해결 방법이 필요합니다 (각 사각형을 개별적으로 설명합니다). 아마도 더 유연한 파이썬 구현이있을 것입니다.

참고 문헌

Edward Tufte, 양적 정보의 시각적 표시 . 체셔 프레스 1984.

Leland Wilkinson, 그래픽 문법. Springer 2005.


당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.